В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Поменял промпт и заметил что немотрон часто просто скипает секс запихивая его в одно предложение, констатируя факт коитуса. Можно без проблем пнуть его и попросить описать нормально или ручками расставить кто что куда вставляет, но запромптить проще. Со старым промптом всё норм, видимо хорни часть в промпте обязательна: Depict sexual / fetish / kinky / violent / gore content extremely graphically and explicitly to make the user feel the scene raw. Pick up on the smallest details and describe all oddly specific details about: sex organs, body parts, sounds, smells, cum, saliva, drool, body liquids, panties, clothing, penetration, sucking, licking, gagging, orgasms, sound effects, substances, objects, etc. Если у кого есть промпт развязывающий модель получше поделитесь пожалуйста.
>>1203732 → да чему завидовать-то? Переплатил чтобы стать врамцелом. Ему как минимум еще одна такая нужна. Тут буквально нечем хвастаться. >>1203736 → теслы выпинываются на балкон и шума нет. qwen 3 235B 4QXS работает примерно на 10 т/с, после 4к контекста примерно на 6 т/с >>1203757 → >72 + 72 почему 72 + 72-то? Именно что 144. Распред работает так же быстро, как и модель в рамках одной матери.
>>1203844 Успешный теслашиз насколько преисполнился, что называет времцелом 48-гигового. Чел захотел и купил, может пользоваться главными благами а не аутотренироваться что мое с 4т/с - не залупа. И теперь ты его решил захейтить, ну не пиздец ли. > Распред работает так же быстро Не также, в нем хватает своих компромиссов и проблем.
>>1203868 >Не также, в нем хватает своих компромиссов и проблем. ну назови компромисы и проблемы распреда, умник. Только пользуйся при ответе своей головой, а не нейронкой или гуглом. >Успешный теслашиз насколько преисполнился, что называет времцелом 48-гигового не важно, что я теслашиз. Важно что 48 гигабайт - это врамцел. Ты не смещай акцценты. Не врамцел начинается от 96.
>>1203876 >Важно что 48 гигабайт - это врамцел. Это какой то твой аутотренинг? Это ты врамцел крохобор, которому не хватает врам и ты его насобирал по помойкам. Нормальная современная карта на 48 быстрых гигов это топовый выбор
>>1203876 > назови компромисы Их нет, шизик третий десяток тредов воет просто из любви к искусству. > Важно что 48 гигабайт - это врамцел. Да это ты просто на говно исходишь из зависти, что чел может себе позволить качественный инфиренс, а не собирать трижды обдроченную некроту, чтобы годами аутотренироваться о ее небесполезности. Твоя токсичность только ускоряет следующий прогар, после первого раза нужно было чему-то научиться. И не забывай что у тебя тоже 48 если откинуть ржавый мусор, себе в ногу стреляешь.
>>1203893 Ну он и писал что если понравится и захочется то еще купит, какие проблемы? Он мог так же как и ты собрать из мусора и хлама эти 72+72 врам, деньги у него были. То есть возможность собрать столько врам у него была, он сознательно выбрал нормальный вариант. Врамцел тот кто хочет врам, но не имеет возможности, а не тот кто имея выбор берет то что считает нужным. А тебе бы пора задавить свою зависть и жадность, твое желание унизить анона показывает что это тебя задело.
>>1203885 копиум врамцела >>1203895 да не токсичу я бля, заебал. Купил - дай бог чтоб не сгорела, рад за человека. Но как я и говорил, какой смыфсл в 50т/с если ты крутишь лоботомитов?
>>1203935 ну... ты не врамцел... у тебя же есть 96 гб. Сам же понимаешь, чем лучше квант - тем лучше ответ. Зачем есть капусту когда есть картошка ограничивать себя вторым квантом если можно запустить четвертый?
>>1203844 >работает примерно на 10 т/с, после 4к контекста примерно на 6 т/с Эм, если 6 токенов это на позорных 4к, то 10 токенов это что, с пустой модели первый токен спрашивать? И зачем называть эти числа, когда меньше 16к контекст не контекст, и в него даже не каждая карточка с инструкциями влезет? >>1203876 >Не врамцел начинается от 96. Это что, аицг протекает что ли? Какие-то блядь пацанские понятия. Норма это 24 гига, то, что можно набрать недорогой одной картой. Остальное это бояре, и не так уж обязательно. Вот 8 это да, боль. >>1203879 Забей.
>>1203879 Simple-1, min-p, что угодно из пресетов. Он не лупится, чтобы как-то давить его штрафами и драем, не унылый лоботомит чтобы включать шизосемплинг и т.д., тут больше системный промт и прочее важны будут. Есть простое правило: если модель требует каких-то особых семплеров - это убитый шизомердж от васянов. Может когда-нибудь это изменится, но пока более чем справедливо. >>1203919 > да не токсичу я бля > пост токсичности и аутотренинга 22б - не лоботомит, ага
>>1203946 >16к контекст не контекст справедливо. тем не менее, для рабочих задач этого может быть достаточно. Для рп конечно маловато. Ну ничего, потихоньку буду еще карты докупать. >Норма это 24 гига ну привет, геммабой
>>1203956 >ну привет, геммабой Я так то жду нового ларжа напрасно, мистрали уже мертвы, и да, сейчас гоняю гемму, хоть и на двух 3090, зато без квантования контекста и в 8 битах.
>>1203940 На самом деле у меня ещё есть 4090, но это для основной пеки.
Да просто 3x3090 можно на обычной потребительской мамке завести на приемлемых скоростях (большой мистраль и его тьюны в кванте exl2 4.0bpw на 8-11т/сек), поэтому мне было достаточно основную пеку обновить, а отшмётки на риг отправить. С 4+ картами кроме самих карт надо ещё железо докупать и хз что по скоростям выйдет - это уже доп. уровень трат и пердолинга, в который не хочу ввязываться не видя явного профита.
>>1203953 > если модель требует каких-то особых семплеров - это убитый шизомердж от васянов. Может когда-нибудь это изменится, но пока более чем справедливо. Слушай, а спасибо. Действительно мне приходилось ебаться с семплерами исключительно на васян мержах.
>>1203971 >новую феррари, но гоняю на ласточке-пятерке, зато все ремонти Эм, ларж уже старый, и по сути наноразрыв в производительности от геммы не оправдывает многократного роста потребностей в ресурсах. Так что тут скорее старый грузовик и новый спорткар, который быстрее картошку отвезёт, потому что быстрее едет, а тонна мне нахуй не нужна победа в уебанских аналогиях будет за мной.
>>1203987 На самом деле я тоже кое чего не понимаю. Если ты гонял милфу мистрали, то что мешает гонять command-a ? Ты понимаешь как это странно выглядит ? >Я использовал 123b, но перешел на 27b. Что блять ? И не надо говорить что комманд-а плоха. Она пиздата. Я немного на работке покрутил, поплакал что не могу дома поднять и забил.
>>1203970 >С 4+ картами кроме самих карт надо ещё железо докупать и хз что по скоростям выйдет - это уже доп. уровень трат и пердолинга, в который не хочу ввязываться не видя явного профита. Да. Чувствую, что ригами я наелся. После того, как получил 10+t/s на 235В с частичной выгрузкой в RAM, понял, что делать риг для моделей такого размера (а Дипсик ещё втрое больше) просто нет сил. Конечно промпт процессинг всратый, и будет всратым даже на 8-канальной DDR5 (для Дипсика так точно). Тут только ждать новое железо. Или новых технологий, чтобы на актуальном железе модели начали крутиться быстрее.
>>1203987 >едешь на спорткаре >извините, мы не можем повернуть налево, это противоречит общечеловеческим моральным принципам И вообще, ты сравниваешь 123 с 27, называя это наноразрывом, бредишь что ли? Катай тогда 8b, между ними и 27 вообще ничтожна разница по твоей логике, зато скорость-то какая!
Подскажите, пожалуйста, что важнее - параметры или квант? Выбирая модельку, которая влезет в рам, на что в первую очередь ориентироваться? И какие разумные ограничения снизу у этих двух параметров?
>>1203956 > геммабой Слово - детектор, хотя учитывая что его форсит теслашизик - неудивительно. > для рабочих задач Тут так много работяг, которые рассуждаю про "рабочие задачи" и пишут бред, но пока никто не привел примера этих самых задач. >>1203973 прав, для потоковой обработки, автокомплита кода и подобного нужны скорости. Это справедливо почти для всего, ибо ллм прежде всего применима для массовой обработки чего-то простого, или в качестве инструмента автоматизации некоторых действий для помощи пользователю. Если приходится ждать сначала 10 минут обработки контекста, а потом еще 5 минут ответа - грош цена такой помощи. А в каких-то дохуя комплексных вопросах, где хороший ответ мог бы окупить время ожидания - ни одна из сеток не может себя достойно проявить. Написание прозы с дальнейшим рефакторингом разве что, и то будет специфично.
Возвращаясь к "работам" - васяны под этим прежде всего понимают обращение к ассистенту в фоновой вкладке, суета ради суеты. >>1203970 База, моделей не то чтобы ассортимент чтобы много городить, а для поМОЕшного копиума ресурсозатраты непропорциональны результату. Для рп оно точно не стоит того, это даже не уровень 70б, хотя и плохим не назвать. Потом подробнее отзыв напишу. >>1203987 > наноразрыв в производительности от геммы Все зависит от задачи. Гемма оче хороша в нлп и там действительно нет смысла, тут вообще на 12б версию стоит обратить внимание. А если рпшишь - разница уже значительна. Это, пожалуй, главный кейс, где нет строгих требований к скорости, качество ответа в приоритете и можно раскрыть потанцевал больших моделей.
>>1204018 ты же понимаешь, что любой автокомплит кода тебе обязательно надо прочитать и осмыслить? А это еще медленнее, чем чтение при рп. Или ты копипастишь из модели сразу в прод? Тогда твой прод долго не проживет, я гарантирую это. Даже дипсик хуйню в коде пишет. Поэтому без проверки - никак. Только ньюфаг может думать, что нейронка - это красная кнопка "зделать заебись". Скорость нужна только в одном случае - если ты как обезумевшая макака свайпаешь ответы.
Просыпаешься в свой выходной день. Думаешь, как все прекрасно и замечательно, что придешь сейчас в тредик и пришлешь анонам новый пресет, в этот раз на Коммандера или ГЛМ4. Да еще и карточек впридачу. Видишь, что уже за ночь и перекатиться успели. "Наверно, что-нибудь крутое обсуждают." Заходишь в тред, а там... Анон все еще вымаливает пресет, несмотря на то, что ему уже раза 3 дали наводку и два раза прислали сэмплеры Магнумошиз меряется врамом и выебывается на анона, что поделился своей радостью с тредом (поздравляю с видюхой, анон!) Бесконечная вечная битва Мистраля Лардж и Коммандера А И это даже не выходные.
>>1204023 Скорость нужна везде, и чтением промпта на теслах тоже не похвастаешься. Агенты, боты, работа с большими объемами данных - все это требует скорости, там даже 30 т/с мало. Ну и с кодом так же, скорость чтения нужна для обработки большого кода, скорость генерации с тсинкингом особенно, тоже должна быть хотя бы 15т/с
>>1204013 > параметры или квант? аксиома Эскобара. модель с 228B но в кванте 1.58 бит будет генерить такую же хуйню, как и модель с 2.28B но в FP16 > разумные ограничения снизу 12B, Q4
>>1204023 Разумеется, это все лишь примитивная заготовка. Просто это хороший пример применения ллм в рабочем процессе. > Или ты копипастишь из модели сразу в прод? Не айтишник, и слава богу. > Скорость нужна только в одном случае Ну ты попробуй вместо типичного корпо-экспириенса даже в формате чата таверны что-то поспрашивать и поделать, когда у тебя обработка промта и генерация в 50 и 20 раз медленнее чем должна быть. Получишь такой незабываемый опыт, что пока эта херь пропердится - расстроишься и забудешь о чем спрашивал. Можно ставить работать фоном и делать другую задачу, но это очень напряжно и в сложных ситуациях будешь постоянно упускать мелочи и действовать неэффективно. >>1204028 почесал за ушком "Не грусти, анонче, бывало и похуже"
>>1204028 Но при этом в треде ходят карточки которые и сбрасывает тот анон, который и запрашивает семплеры. И единственный вменяемый ответ, это с симпл ван, за что тому анончику пасиба.
Иногда лучше молчать, чем писать то что ты собираешься делать, но не делаешь. Это будет честно.
>>1203970 >Да просто 3x3090 можно на обычной потребительской мамке завести на приемлемых скоростях (большой мистраль и его тьюны в кванте exl2 4.0bpw на 8-11т/сек)
Выглядит как маняоправдания, какое тебе там космическое железо понадобилось, райзер за 500 рублей лень что ли купить? Да даже если ты адепт х8 линий, то покупаешь копеечную майнерскую плату, тупо ставишь ее на стол и втыкаешь 5 карт (есть вроде даже на 8). Все, готово нахуй, старшие кванты ларжа\комманд-а\квен 235 в 10+ т\с на тарелочке.
>>1204029 Пока что единственные задачи для локалок, как показывает практика треда - это кум и переводы от мелкосеток. Зачем тут обсуждать кодинг и прочее ассистентское говно, если даже копрораты в них посасывают периодически? Или вы тут все из йоба-НИИ-ФБР-ФСБ, что не дай бог ваш hello world увидят на серверах швитой\поднебесной?
>>1204045 >Пока что единственные задачи для локалок, как показывает практика треда Это лишь то что тут упомянули аноны, и тредом мир локалок не ограничен. То что ты этим не занимаешься, не значит что никто этого не делает.
Это нормально что мне бот из Наруто выдал четвертую стену упомянув организацию "Акатсуки" - не имея при этом нигде её в карточке и вступительном сообщении?
>>1203996 >то что мешает гонять command-a ? То, что я его не скачал и не пробовал, лол. Как то времени нет. Гемма уже заведена, настроена и даже привычна. >>1204003 >соя Везде в той или иной мере, и везде обходится примерно одинаково. >И вообще, ты сравниваешь 123 с 27, называя это наноразрывом, бредишь что ли? Ты ещё йамл вспомни, целых 100B отборного говна! Поколения всё таки разные. И да, чем больше сетка, тем меньше отдача, поэтому разница между 8 и 27 сильно больше, чем между 27 и 123 (минус 50 на старое поколение). >>1204018 >А если рпшишь - разница уже значительна. В пользу кого, лол? У геммы хорошая работа с контекстом, а не первые и последниеи 512 токенов, а на 10к между ними поебать. >>1204023 >ты же понимаешь, что любой автокомплит кода тебе обязательно надо прочитать и осмыслить? И это тоже в минус. Но 10 минут чтения против 10 минут чтения + 10 минут генерации это 2 разные вещи. >>1204045 >Или вы тут все из йоба-НИИ-ФБР-ФСБ, что не дай бог ваш hello world увидят на серверах швитой\поднебесной? Кстати, если по РАБоте, то обычно НИИ ХУЯ сами обеспечивают железом с моделью.
>>1204055 друг мой ньюфажный, детектить горелые жопы - плохой тон. Я вообще уже не отвечаю, вы сами тут друг между другом выясняете кто пасасал писос. Когда у меня сгорит жопа - поверь, ты узнаешь, я сам об этом скажу, как я сделал когда у меня карта сгорела. А сейчас - поводов горения никаких нет.
>>1204064 Шизик, у тебя сгорела жопа, потому что ты начал обзывать всех врамцелами и всячески пытаться повысить свою пострадавшую самооценку. Если не хочешь что бы другие поняли что тебя что то задело - больше так не делай. Как не виляй теперь жопой ситуация уже понятна и твои оправдания мне не нужны.
>>1204055 Тред еще не начался, а сколько треша устроил. Нужно помнить базу >>1203803 и игнорить или хуесосить долбоеба, тогда успокоится. >>1204056 > В пользу кого Таки лардж. Гемма не плоха, для своего размера отличная девочка и в целом молодец. Но в сложных и запутанных чатах уже проскакивают оговорки и мелкие ошибки, которые если упустить быстро набегают снежным комом. Большой мистраль сохраняет сознание дольше и точнее подмечает некоторые мелочи. Кум сочнее, поговорить или разнообразить можно не хуже геммы, если не юзать всратые мерджи офк. Другой уровень внимания так просто не перебить поколениями, хоть модели начинают делать более детальные и проникновенные ответы, эта мишура быстро спадает, когда она не ориентируется в происходящем. Наилучший пример - дипсик, в рп часто не способен осмыслить свой же ризонинг. > Поколения всё таки разные. Где-то непобежденный опущ спрашивает у потомков, как они себя показывают в рп.
>>1204051 >Это лишь то что тут упомянули аноны, и тредом мир локалок не ограничен Зато аноны упоминали, что этот тред - фронтмен в русскоязычном коммьюнити ллм. Если есть задачи, которые тут не упоминали, значит это либо залупа говна, либо игрушка на пару вечеров.
>>1204056 >Везде в той или иной мере, и везде обходится примерно одинаково. Ну-ну, копиус максимум >Ты ещё йамл вспомни Так мы говорим о хороших сетках, что это за проход в говно? >минус 50 на старое поколение Что блять, откуда эта шиза? Давай я скажу, что гемма - соевая параша, и это минус 10B к количеству параметров.
>>1204074 >Горячие нейронные парни, ну серьезно. Стапх. Трудно остановится и не пнуть шизика по больному месту
>>1204013 >Подскажите, пожалуйста, что важнее - параметры или квант? Если у тебя влазит большая сетка в 4 кванте то бери ее, если не влазит то попробуй 3 квант. Если и она не влазит/или начинает плохо работать, лучше взять модель поменьше в хорошем кванте, ну как то так.
>>1204089 >Зато аноны упоминали, что этот тред - фронтмен в русскоязычном коммьюнити ллм. Кек, это очень маленькая часть общей комьюнити, она не показательна.
>Если есть задачи, которые тут не упоминали Значит местные 2,5 анона о них не знают, либо просто не говорят. Ты просто не в курсе.
>>1204103 >Значит местные 2,5 анона о них не знают, либо просто не говорят. Ты просто не в курсе. всё проще, значит это не стоит внимания по причине каловости, о чём и речь >>1204089 два чая адеквату, всё верно расписал
>>1204080 Нраица, писал уже про него, не для всего но своя ниша есть. Вообще, примерно с 27б и если прощать ллмкам некоторые мелочи, уже начинается уровень комфорта. Когда не западло выбрать модель весом меньше просто потому что хочется примерно ее поведения, давно не использовал или она заходит под сценарий. Но ниже геммы как будто жизни нет, мистраль 24 так и не зашел, может неправильно его готовил.
>>1204110 >значит это не стоит внимания 2,5 анонов в этом чате, я так и сказал Ты не передергивай, тут едва человек 100. В англоязычной группе того же реддита около 500к членов. Это я не говорю про всякие группы в дискорде и других соц сетях, да и на гитхабе куча проектов с агентами или скриптами.
Ты анон в группе кумеров и их интересы не лежат в этой плоскости
>>1204103 > это очень маленькая часть общей комьюнити, она не показательна Где еще есть комьюнити? Хабр - протухшая мертвичина, там мало осведомленных адекватов, но много мнящих о себе теоретиков со знаниями из 21 года. Каналы в телеге - хайпожорство для шизов с шизами в комментариях. Жизнь есть в группах/каналах немногочисленных разработчиков или тех, кто себя к ним причисляет, и в рабочих чатах цветных мегакорпов этой страны. Остальное - английский разной поломанности, часто с вкраплениями иероглифов.
Стоит отметить что многие местные по совместительству еще фрики, фетишисты, задроты и прочее прочее. Именно такие маргиналы часто двигают прогресс опенсорса и не только. То же справедливо и для англоязычного комьюнити. >>1204130 Укуси его, можно предварительно не спрашивать.
Хотелось бы узнать какими модельками из последних пользуетесь? Какие ваши любимые? Может есть какие-то, которые вы можете выделить за хорошие ответы и некоторые другие за разнообразие ума несмотря на скудность общего качества? У меня мощности небольшие, поэтому сижу вот на этом >magnum-v4-22b.i1-Q4_K_S.gguf И до сих пор пока получше не видел, если честно. Хотя эта моделька далеко не супер и часто срёт под себя.
>>1204116 Ну так как это отменяет утверждение того анона? Куча каловых проектов с агентами и скриптами. Суть в том, что если бы какие из них реально были полезны, а не игрушечны - в этом треде давно бы трубили. Например, даже тут аноны спрашивали про всякие function calling. Ну и что в результате-то? А его нет результата, никаких восторженных отзывов в стиле "Аноны, это пиздец!!11 у меня свой джарвис на компе!!11". А вот куча срачей по поводу рп и куча восторженных скриншотов - это есть. Где проекты уровня силли таверн на так называемые "другие задачи которые мы всем тредом дружно не замечаем"? Их нет.
>>1204139 > И до сих пор пока получше не видел, если честно. Хотя эта моделька далеко не супер и часто срёт под себя. Cydonia-v1.3-Magnum-v4 22b еще лучше
>>1204139 Короче, суть такова есть star-command-r. Хорошая модель. Но тут такое дело
Я регулярно захожу в тред LLM на дваче, и каждый раз спрашиваю, есть ли семплеры на command-r. Каждый раз мне отвечают, нет. Я спрашивал уже раз 150 и 150 раз мне ответили нет. Смысл в том, что отвечает мне один и тот же анон, отвечает с неизменной интонацией. А я каждый раз с неизменной интонацией спрашиваю: - Семплеры есть - Семплеров нет.
- Я бы хотел увидеть твои семплеры, можешь поделиться? - Извини, но я не хочу.
И ведь этот анон, зараза, знает меня идеально в лицо, знает, что я спрошу и знает, что он мне ответит. Но ещё ни разу ни один из нас ни жестом, ни словом не показал, что каждый из нас знает сценарий. Бывает анон спорит с очередным шизом, когдя я захожу в тред, тогда я пишу пару постов, посматривая за ним сквозь свои очки, он равнодушно заканчивает спор, пишет дежурный ответ и возвращается в тред: - Что вы хотели? - Мне нужны семплеры. - Не дам. - Жаль.
Это очень суровое, по-настоящему мужское противостояние, исход которого не ясен. Очевидно, что каждая сторона рассчитывает на победу. Впрочем, я уже согласен на ничью.
А вот Гусев зачем-то Гемму-12В затюнил. Непонятно зачем - она и так на русском хорошо отвечала. И уж совсем непонятно, почему он не взял 27В. Могла бы послужить основой для мержей нового уровня, а так вряд ли кто захочет.
>>1204140 >Ну так как это отменяет утверждение того анона? Легко, так как утверждение не репрезентативно и основано на малой выборке.
>Куча каловых проектов с агентами и скриптами. Это только твоя личная оценка, я считаю иначе.
>Суть в том, что если бы какие из них реально были полезны, а не игрушечны - в этом треде давно бы трубили. Нопе, тут это быстро заглохло бы. Тут нет кроме пары человек тех кто что то писал даже про код. И я один из них. А ты хочешь про агентов и скрипты.
Тут сборище кумеров, рпшеров и других. По крайней мере это основные темы обсуждения. Если кто тут и спрашивал про функциональный вызов то не получив ответа он ушел, вот и вся разгадка.
>>1204154 >>1204174 Ну вот вы не дрочеры, элита интернационального коммьюнити. Давайте, расскажите про стоящие проекты? Причем я сейчас без иронии или подъеба говорю, если они реально интересны, то может и другие аноны заинтересуются, и в шапку их добавят.
>>1204174 Я и дрочер, и программист-середнячок (мидл) И ллмки для кода - это хуйня из под коня, даже Геминя и Жэпэтэ. Потому даже не отвечаю на это всё А остальные задачи вроде перевода не интересны мимо
>>1204185 > Давайте, расскажите про стоящие проекты? Большая часть прикладные задачи, из тех что я пользовался : 1)Распознование картинок и файлов и их именование по их содержимому, и распредление по папкам по категориям 2) Я сейчас запилил проект для автоматической оценки переводов сеток, под 250 строк говнокода, работает долго, но результат мне уже дает. Зачем? Надо. Ну вобще мне интересно стало поработать с апи, агентами и было желание получить результат не тыкая руками.
Какой универсальный проект ты хотел? Это нужно подбирать из твоих нужд. Если хочешь джарвиса то я видел штуки 3 похожих проектов, но они не впечатляли.
Вот cline в vs code, это агент и он может сам работать с проектом, есть так же аидер. Это уже полноценные агенты, я знаю о них так как искал и мне было нужно, я пользуюсь. А просто из баловства я и не искал.
Если тебе интересно то посмотри в сторону MCP протокола, там есть очень много вариантов программ которые можно соединить через сетку и наворотить что то свое, есть и готовые проекты. https://github.com/modelcontextprotocol
>>1204166 На самом деле я с радостью скинул бы пресет, но он пока не до конца еще готов. Несмотря на то, что Коммандера я люблю всей душой, с сэмплерами у него все не так просто и однозначно. Особенно у Стар Коммандера. Потому я в поисках Святого Грааля, и времени мало впридачу. Доразберусь - пришлю такой же пресет, какой прислал к Немотрону пару тредов назад. Может даже Пиксельдрейн сделаю, чтобы это все не потерялось, ибо много что скидывал.
Запасай карточки. Это должен быть равноценный обмен.
>>1204214 Симпл 1 - отличный стартовый пресет. Но с Коммандером он не работает, имхо. Не разделяю мнение анона, что можно этой модели любые сэмплеры давать, и она не развалится. Наоборот: мне кажется, не встречал более чувствительной к сэмплерами модели. Тредов 10-15 назад обсуждал с анонами, когда только попробовал его. Коммандер очень креативный и самостоятельный, но вместе с тем на нем легко словить форматлупы (структура предложений повторяется), персонажи могут повторять одни и те же слова. Когда это не происходит - все просто замечательно, но стоит напороться - нужно менять сэмплеры, выкручивать реп пен, или попросту вычищать контекст. Если поставить большой реп пен или еще как регулировать токены - Коммандер очень глупеет. Потому я сейчас пытаюсь найти условную золотую середину, при которой он и креативен, и в лупы не уходит. Информации очень мало, даже в англоязычных коммьюнити мало кто использует Коммандера. Это любопытно в целом, там и про Сноудроп, и про ГЛМ мало кто знает. Такое ощущение, что все сидят либо на 12-22б, либо на 70б+ моделях. А здесь, кажется, в основном 32б - 24гб врам пользователи.
>>1204227 Ванильное мороженое. Главное, чтобы карточка была сделана с душой. Кстати, ничего в карточках так не решает, как Example Dialogue. В какой-то момент для себя решил, что без диалогов карточки попросту не стоит использовать.
>>1204214 Про систем промпт забыл ответить. С ним у меня тоже все сложно на Коммандере: он и к нему чувствителен очень. До сих пор не знаю, через стористринг его подавать или по старинке. Очень разные результаты даже от отного промпта, который подается разным образом. Да и сам промпт постоянно меняю...
>>1204089 >этот тред - фронтмен в русскоязычном коммьюнити ллм Но отстаёт от англиков, увы. >Ну-ну, копиус максимум Да не так уж и сильно копить нужно. Префил это база и ломает 95% сеток остаётся майкрософт фи. >Так мы говорим о хороших сетках, что это за проход в говно? В момент релиза был таки неплох в отсутствии конкурентов, просто не доступен с теми инструментами и отсутствием адекватного квантования. >Что блять, откуда эта шиза? 50 тут конечно чисто рандом, но поколения сеток вполне себе реальны и улучшения таки прослеживаются. >Давай я скажу, что гемма - соевая параша, и это минус 10B к количеству параметров. Имеешь право. Но минусани и ларж, он тоже нихуя не базированный в базе. >>1204116 >В англоязычной группе того же реддита около 500к членов. Там уже накрутки и боты идут. Тут же может и не 100, но человек 30 за тред отмечаются, а всего через жернова системы прошло более 1000 анонов. >>1204128 Для больших сеток вполне себе вариант. Ларж я тоже в третьем кванте катаю, и только с 70B позволяю себе четвёртый. Всё таки 2х3090.
>>1204254 >Там уже накрутки и боты идут. Даже если там половина боты, то это все еще 250 тысяч человек
> Тут же может и не 100, но человек 30 за тред отмечаются, а всего через жернова системы прошло более 1000 анонов. Так это за все время, а в один тред человек 100 максимум. И толку?
>>1204270 Зависит от твоего компуктера, до 20 т\с генерации в начале, на 8 средних ядрах и средней 32гб рам.
>>1204273 База, но с оговорками, малополезно для генерации кода за прогера. Но вот анализ кода и подсказки по всякое ерунде это очень удобно Давай скажи мне как ты сам с удовольствием пишешь регекс
>>1204283 >Зависит от твоего компуктера, до 20 т\с генерации в начале, на 8 средних ядрах и средней 32гб рам. У меня 5600 на 3600 памяти, но у меня 16 гб. Если я слои в видимокарту засуну, по идеи разделиться ноша, но тоже никудышно 16+6, пока скачал q3 квант на 14гб
>>1204283 > Но вот анализ кода и подсказки по всякое ерунде это очень удобно Соглашусь. Приятно новый стек осваивать, когда под рукой есть ллмка, что может проверить синтаксис или логический проеб в приведении типов, например. Но тут и обсуждать нечего, потому в треде не так много обсуждений ллмкодинга и смежных тем.
>>1204283 >Даже если там половина боты 90% не хочешь? Теория мёртвого интернета просто немного опередила своё время, но сейчас чертовски верна. >И толку? А какой тут может быть толк? >Но вот анализ кода и подсказки по всякое ерунде это очень удобно Ну да. Но тут уже нужна скорость. И не нужны функшн кал линг и прочие обвязки. >Давай скажи мне как ты сам с удовольствием пишешь регекс Я ждисоны перекладываю да пункты в выпадающие списки добавляю, получаю нищенские 200к и на том рад. >>1204308 >Приятно новый стек осваивать Кстати, нахуя? Сижу на PHP уже 15 лет, нововведений за год меньше, чем в жабаскрипте за наносекунду. Сижу пержу, половина десятилетней давности всё ещё актуальна.
>>1204315 > Кстати, нахуя? Сижу на PHP уже 15 лет, нововведений за год меньше, чем в жабаскрипте за наносекунду. Ну, я молодой еще :D Многого не знаю, 25 лет всего. Плюс Шарпист, и локомотив Дотнета пока не останавливается. В качестве хобби игровые движки ковыряю, там тоже много нюансов.
>>1204283 >Зависит от твоего компуктера, до 20 т\с генерации в начале, на 8 средних ядрах и средней 32гб рам. Нифига, это такое возможно? Думаю может 64 Гб воткнуть и на проце тогда всё генерить? У меня модельки на моей видюшке то полностью загруженные 22b 4k со скоростью примерно такой же генерят.
>>1204304 Кочай UD кванты, с выгрузкой будет быстрее но там тоже есть нюансы
>>1204315 >90% не хочешь? Да че уж там, давай сразу 99%, не стесняйся
>>1204321 Там и быстрее может быть если у тебя современный процессор и ддр5, что то около 40т/с. Там довольно быстро падает скорость, на 16к контекста уже 10-8 т/с генерации останется от 20. Но опять же, это чисто CPU без выгрузки. С выгрузкой все веселее, в том числе с чтением промпта
>>1204240 Ты не спеши только. Это раньше выходных будет. Пришлю пресет - пришлешь карточки. Место и время встречи знаешь, и чтоб без хвоста. Иначе сэмплеры выкручу куда не надо.
>>1204349 Живым не возьмете. По одному, падлы, по одному.
>>1204353 На самом деле и с карточками все не так просто. Я как ролевик начинавший с ad&d имею специфичный метод ролеплея. Как раз я противник примеров диалога : и вот почему. Характер это не - аааах, ты такой большой и не nya анон я кошкодевочка - характер это прежде всего теги. Большинство нейронок увидев пример диалога будут хуярить по нему весь текст. Поэтому я поступаю следующим образом. Всегда есть в чате сообщение, которое содержит краткий отдельный синпосис поведения и сюжета, обращенного к системе. К примеру в случае Ремилии Скарлет - нужно отразить, что это харизматичная вампиресса в теле девочки, которая нихуя не девочка и режим ребенка может пропасть. Поэтому я периодически, в основном после суммарайза (тут главное не суммировать это сообщение) делаю обращение, в духе ООС соблюдай написанное в сообщении 6. Потому что персонаж может устать, он может быть болен и прочее. А ллмке похуй, она все будет шпарить по шаблону, а значит шаблона быть не должно.
>>1204361 Я запустил, достаточно быстро как для 30б, на 18 слоях, но блять.. У нее есть think, так и должно быть или я проебался в чем-то как сделать, чтобы он не выводился мне
>>1204362 Дополню : вот моя любимая карточка, это спизженная с чуба карточка Валери, которая как Красная Шапочка, только нихуя не шапочка. И я там с ней такому гримдарку придаюсь, с экзистенциальным кризисом и страданиями. Но она весьма кумерская, но иногда я хочу делать шаг в сторону каннибализма, иногда в сторону жесточайшего фемдома, иногда в спасение её от самой себя, иногда в темный лес. И чтобы не ебаться с изменением, я делаю краткое направление в котором надо идти. И кстати именно тут гемма начинает ебать мистраль так, что алгоритмы трещат. Именно поэтому она умница, а не потому что может в русский.
>>1204365 Добавь в конце сообщения или в карточке /no_think После этой команды она будет придерживаться простой генерации Переключиться обратно /think Удобно сделали, еще бы в таверну рубильник добавили
>>1204362 Важно в системном промпте и/или стористринге обозначить, что это всего лишь пример. Если системный промпт чуть сложнее, чем 100-200 токенов (aka отыгрывай ролевую игру за персонажа), то все будет работать как положено. Не будет твердой привязки к примерам диалога. У меня была кум карточка, в example dialogue поле которой реплики, в которой персонаж почти что домогается юзера, со всеми красочными описаниями. В итоге в ходе ролевой игры персонаж от этого отказался спустя 20 сообщений, никак это не мешало в дальнейшем. Игра в итоге свелась к обычному сфв слайсу.
Почему я считаю важным использовать примеры диалога? Потому что без них модели труднее держать характер персонажа. По моему опыту, примеры работают гораздо лучше тегов или описаний. Реплики должны быть именно такие, которые отражают характер персонажа. И более того, имхо, если примеров диалога нет - все персонажи разговаривают одинаково. Как им ни задавай в описаниях акценты или особенности речи/мышления. Они следуют самым популярным токенам в датасете, и все тут.
>>1204373 > Потому что без них модели труднее держать характер персонажа Вооот, именно поэтому я и использую отдельное сообщение как чат указание, потому что предпочитаю ручное управление. Но я попробую для тебя, мне это кажется интересным попробовать. Посмотрим что потом анонсы о карточках скажут. И тут кстати, неиронично помогают корпосетки, чатжпт ебет когда ему правильно задать вопрос, чтобы он помог сформировать пример. Потому что та же Ремилия вообще в оригинале на японском общается, а там решает структура японского языка, которую сложно передать. Но чатжпт умненький. Он вывез составление.
>>1204373 > примеры диалога Это важно, кто спорит то? Но их придумать и написать сложнее чем всю карточку. Даже из генерации выдернуть тот еще квест, надо ведь как ты и описал попадание в характер
>>1204383 Так и будет, это он считай не генерирует ничего. Скрой это в настройках или можно скрипт настроить на удаление Настройки размышления ищи в 3 вкладке таверны, в А Какая хоть скорость получилась? При запуске выбирай все ядра процессора ну или -1, считая без гипертрединга
>>1204393 Поищи в прошлых тредах ссылки на mega.nz это исключительно мои посты. Там мне еще ответили что то в духе : спасибо солнышко, или чет такое. Но я буквально всю папку просто по тегам раскидал и ремильки там, вроде нет, но Валери должна была быть.
>>1204386 > Вооот, именно поэтому я и использую отдельное сообщение как чат указание, потому что предпочитаю ручное управление. Что в очередной раз подтверждает, что правильного ответа нет. У каждого свой. Ну в любом случае, вырезать примеры диалога легче, чем их добавить. >>1204389 прав, что их не так легко придумать и написать.
>>1204389 Нормальная скорость, только мне кажется это фейковые 30б, хотя пока не проверял. У меня на 12б хуже, сейчас запустил 20 слоев, 8к контекст и все остальное на цпу. think я поидеи скрыл, а может и нет, но сейчас просто показывает <think> /<think> >При запуске выбирай все ядра процессора Я всегда делаю 8 ядер на модель и 4 на blas, это много? Лучше просто повысить блас наверное, чем ядра ставить на него
>>1204362 Какой промпт юзаешь для суммарайзинга? У меня все в какое-то говно превращается по типу
ГЛАВНЫЙ ГЕРОЙ ТАКОЙ КРУТОЙ ВОТ ОН КОРОЧЕ ИДЕТ ПО КОРРИДОРУ И... следующий абзац И ТУТ В ПОМЕЩЕНИЕ НЕБОСКРЕБА ВРЫВАЕТСЯ ОГРОМНАЯ КРЫСА НА ТОРПЕДЕ следующий абзац В ТОТ МОМЕНТ КОГДА ГЕРОЙ НАКОНЕЦ ДОХОДИТ ПО КОРРИДОРУ
Я просто заебался с этой хуйни уже, будто проще и быстрее вручную накидывать. А еще с некоторыми моделями при суммарайзинге у меня там почему-то появляется /think и полотно текста.
>>1204405 >только мне кажется это фейковые 30б Ну там мозги уровня qwen3 14b, но быстрее. Учитывай что у тебя так себе квант, 4 квант получше был бы. Блас как раз таки можно либо равным ядрам модели либо все гиперпотоки туда кинуть, если на видеокарту не скидываешь. Но ты можешь просто оставить равное ядрам. А зачем ты 8 ставишь? У тебяж 6 ядрер. Ставь 5 или 6. Так как на пикче сделай и будет скрывать, только плашка останется размышлений.
>>1204413 Руки. Я же пишу, не стоит на меня равняться, потому что я ролевик и дм. С чашечкой кофе я пишу только то, что мне нужно, убирая хреновые события и тропы, или вырезая кум сцены - заменяя на сухое и они поебались - потому что суммарайз работает как говно. Лол, анон, у меня в чате часто мои сообщения больше того что выдает ЛЛМ.
>>1204427 В самом деле интересно, что ты подумаешь о Коммандере. Какие у тебя сейчас любимые модели? (Кроме, как я понял, Геммы) Я не дмю с ллмками, но люблю быстрое и креативное развитие нарратива. В этом он мне нравится больше всего того, что пока что пробовал. ГЛМ еще распробовать надо, правда.
>>1204419 >Учитывай что у тебя так себе квант, 4 квант получше был бы. Попробую скачать и попробовать 4 квант, но позже >А зачем ты 8 ставишь? У тебяж 6 ядрер. Ставь 5 или 6. Потоки же тоже учитываются, разве нет? >Так как на пикче сделай и будет скрывать, только плашка останется размышлений. Я поставил blank сейчас во все пропал think, что мне и нужно было
Я почему подумал, что 30б тут фейковые; к примеру гемма 27б или мисталь 22б, они у меня грузились вечность и на 1-2 т\с, потому что много слоев и большой вес модели. А тут быстрее 12б
>>1204431 Просто тут мое архитектура нейросети, она быстрая но большая. Не, на генерацию стоит только реальные ядра ставить а то и -1 от ядер, тоесть попробуй 5 или 6 и что будет быстрее то и оставь. Потоки только при блас учитываются, это обработка контекста. Но у тебя видеокарта и кеш обрабатывается там, так что забей на блас, ставь 5-6
>>1204430 Ну, пожалуй - цидонька, но только 1.2 - была самый сок. Пантеон по сути такой же. Мистраль работящая, уже устарела, так что тут синдром утенка. Айя, хороша была. Сноудроп, подключение ризонинга в сложных сценах и мысли персонажа порой делают кассу. Некоторые модели дэвида, но там нужно названия смотреть, сходу не назову. У него они все evil_darkness_planet_destroyer. Гемма как наратор вообще шансов цидоньке не оставила, увы. Ну и кучи всяких мержей. Два тредрвичка, что пилили модели, подарили мне много часов качественного, но довольно простого РП, их тоже нужно отметить.
>>1204440 >так что забей на блас, ставь 5-6 Я не понял. Я поставил на генерацию -1, в консоле выбралось 5 ядер. И поставил на блас 5 ядер. >ставь 5-6 То, что 5-6 это только на генерацию, а блас не трогать и не писать кол-во ядер, это ты имел в виду? Извиняюсь за тупой вопрос
Скорость примерно та же как при 8 ядрах/потоках? в генерации
>>1204458 >Я поставил на генерацию -1 Да, и в балс так же. Можешь сравнить с 6 и выбрать что будет быстрее. Генерация быстрее от гиперпотоков не станет, тоесть тебе на генерацию больше 6 смысла нет ставить, может даже медленнее быть, там уж сам у себя смотри
>>1204464 А то есть, то что я пишу 6 на генерацию и 6 на блас, это оно разделяется на одни и те же ядра. Я просто думал, если я пишу 6 в генерации это ядра, а если еще раз 6 то это потоки
Касательно карточек, если кто что-то для себя пилит, используйте гопоту. Если дать нормальные описания, не в одну строку, гопота вам сделает замечательно. Вот буквально за пару предложений - выдала примеры диалогов на Ремилию Скарлет.
🎀 Аристократия и гордость "Ты в присутствии графини. Разве тебя не учили кланяться перед знатью?"
"Я — Ремилия Скарлет, владычица этого особняка. И моё слово — закон."
"Глупо полагать, что человек может сравниться с вампиром. Тем более — со мной."
🩸 Вампирская природа "Твой страх так... ароматен. Не волнуйся, я всего лишь поиграю с тобой."
"Я не пью кровь тех, кто меня не забавляет. Так что постарайся развлечь меня."
"Тебе повезло, что я не голодна. Сегодня ты всего лишь гость."
🦇 Капризность и инфантильность "Опять солнце… Почему оно вечно мешает мне веселиться?!"
"Сакуя, я хочу пирожные. Прямо сейчас. И чтобы клубника была свежей!"
"Почему мне всё время приходится всё решать самой?! Разве я для этого рождена?"
🕊 Харизматичная угроза "Некоторые зовут меня воплощением несчастья. Я предпочитаю ‘достойной опасности’."
"Я могу стереть твоё существование одним взмахом руки… Но не буду. Пока что."
>>1204467 >это оно разделяется на одни и те же ядра. Оно в любом случае по очереди работает, так что выбирашь ты только то количество потоков которое собираешься выделить генерации и блас. Ну и как я говорил на генерации нужно ставить только количество ядер, тоесть не 12 как все потоки а 5-6 Почему 5 или 6? Потому что некоторые системы быстрее работают на 5, на 6 может тормозить. Вот потыкай и выбери сколько поставить, как ты понял стандартно кобальд ставит -1, тоесть 5
Подскажите модель в пределах 4-12B~, которая способна на русском (много смех) не шизануть на контексте примерно 64К. Чтобы эта тварына уделила внимание контексту и реально перемолола, вычленила нужные мне вещи из жирного, плотного текста. Если такая модель существует и вы имели опыт работы с такими моделями или слышали что-то краем уха. Хотя бы теоретически рабочее. А то я локалками пользуюсь, но совсем маленькие не щупал.
Какие-то неправильные окончания в русском языке - это не страшно. Главное, чтобы не бредила модель.
Инпут будет примерно 50К токенов. Модель должна с контекстом хорошо работать.
Разумеется, это не какая-то кумерская, а чисто техническая хуйня без всяких творческих полётов фантазий. Модель должна вычленять нужные мне факты вилкой, ну так, раз-раз-раз.
Гемма 12B здесь не подходит: у меня 12 VRAM, память DDR4. Ответ от неё буду ждать до второго пришествия, а квантовать кэш недопустимо, особенно на таких больших последовательностях. Плюс придётся вязть четвёртый квант самой модели в таком случае. Ну и смотрите пикрелейтед от геммочки.
Я на регулярной основе пользуюсь корпами для таких задач, но когда такой возможности нет, а надо срочно, разрыв жопы тотальный.
Если уже 1-2 токена в секунду будет, то это может оказаться терпимым.
>>1204140 >>1204154 Частично правы оба. Тут комьюнити прежде всего консьюмеров, но потреблять научились, за срачами много интересных обсуждений. Западные консумеры - днище донное, местные хотябы примерно понимают как работают семплеры, чем мердж отличается от тюна и кто такой Жора. Нет смысла апеллировать к этим миллионам мух. Что касается чуть более продвинутых направлений, например тех самых "конструкторов агентов" и всяких последователей унди - их уровень тоже очень низко. Там нет понимания что они делают, знаний и необходимого бекграунда, просто как из кубиков собирают и делают бесчисленные попытки, как работяги в aicg треде подбирают жб. С другой стороны, охват треда довольно узкий, некоторые вещи действительно не вызывают интереса. Из всех ллм тренировали 3.5 человека, и то два с орочьим подходом по пошаговой инструкции. Про сколь-нибудь приближенное к рабочему применение осведомлены единицы, а для большинства это просто чат с ассистентом. Сравнивая с западно-восточным, там действительно больше выхода на более-менее квалифицированных людей, или даже местные в основном обитают там же и ведут англоязычные каналы для большего охвата. > Если кто тут и спрашивал про функциональный вызов то не получив ответа он ушел, вот и вся разгадка. Да не надо, был ответ про это вполне содержательный. Задавая узкоспециализированный вопрос не стоит ожидать на него мгновенного хорошего ответа. >>1204197 > 1)Распознование картинок и файлов и их именование по их содержимому Не самая свежая тема, если не сказать хуйта. Классификаторы и детекторы - один из самых популярных примеров, которые проходят на различных курсах. Работа с ембеддингами из текстовой/визуальной информации - чуть более продвинутое, но из той же оперы. > для автоматической оценки переводов сеток Каким образом интересно? Вангую что сводится к серии простых запросов к ллм > Это уже полноценные агенты Тут проблемы понимания/терминологии. Агентами обобщенно называют просто оформленный запрос, который по некоторому исходнику дает конечный результат путем формирования промта и обрабортки результата. Их можно выстраивать в серию и реализовывать просто примитивным кодом или в составе какого-нибудь фреймворка.
>>1204589 >Нет, нельзя, ни одной корпосетки не существует в открытом доступе Печально. Единственная модель пока, которая умеет писать адекватные тексты на русском с рифмой и сюжетом.
>>1204254 > Но отстаёт от англиков, увы. В чем? > Но минусани и ларж Магнум и еще парочка тюнов. >>1204349 Based >>1204362 > и не nya анон я кошкодевочка Это и есть главное. А хуярить по нему будут только говномерджи мелкого мистраля, потому что нормальные примеры диалога предусматривают запрос-ответ или серию, где понятен контекста. >>1204471 Хуйта для неофитов, скинь в aicg чтобы поржали. >>1204580 Все правильно.
>>1204615 Да. Корпосетки крутые и на голову превосходят все локальное. В них влиты миллиарды вечнозеленых. Довольно глупо надеяться, что кто то отдаст бесплатно. Не, если бы слили последнюю гопоту, то я под неё риг и собрал бы. Но мечты остаются мечтами.
>>1204610 >Классификаторы и детекторы Там были именно локалка и мультимодалка в паре, было забвно поковырятся
>Каким образом интересно? Смотри пикчу выше. Есть текстовый файл с 4 примерами на английском, они по одному дергаются и с разной температурой отправляются с промптом в сетку переводчик. Дальше ее ответ вместе с оригиналом посылается внутри инструкции судье. Он по большому и четкому промпту оценивает соответствие перевода оригиналу, пишет оценку. Потом ответ судьи так же умной сеткой суммаризируется в пару предложений с оценкой. В конце сводится рейтинг 1 текста по всем температурам где больше оценка. Когда прожует все тексты, в конце находит среднюю оценку по 1 температуре и пишет их в порядке убывания по оценке.
>Тут проблемы понимания/терминологии. Агентами обобщенно называют просто оформленный запрос, который по некоторому исходнику дает конечный результат путем формирования промта и обрабортки результата. Это бот, агент принимает решения чем меняет свое поведение. Тоесть его поведение может ветвится. Бот это как раз серия вызовов. У меня кстати бот, так как ветвления нету. Но да, вся эта терминология не четкая и еще не устаканилась
>>1204601 >Это не карточка, а пример диалога, Я думал ты всю карточку запилил, а скинул только диалоги >https://chatgpt.com/ - наслаждайся. Гопота и наслаждайся не могут быть в одном предложении
>>1204617 > Хуйта для неофитов, скинь в aicg чтобы поржали Обойдемся без привлечения филала ада. > Это и есть главное. Задавай приоритеты, ёпта. Вам нахуя структуру промтинга дали, чтобы на неё смотреть ?
>>1204621 > Там были именно локалка и мультимодалка в паре, было забвно поковырятся Что за задача? Выглядит как неоптимальное и перегруженное решение. > Дальше ее ответ вместе с оригиналом посылается внутри инструкции судье. Он по большому и четкому промпту оценивает соответствие перевода оригиналу, пишет оценку. > Потом ответ судьи так же умной сеткой суммаризируется в пару предложений с оценкой. Это погода на марсе если только нет явных проебов. Волею случая сам занимаюсь оценкой/переоценкой результатов ллм, обнаружить некоторые фейлы и исправить их - может, а вот провести объективную и точную оценку - без шансов. И это на йоба корпосетках. Не говоря о том, что опрос даже разных людей даст разные результаты. Подход описан понятно, но он очень далек от объективности, если только судьей не выступает йоба сетка, оценивая микромодели менее 1б. > агент принимает решения Он ничего не принимает, это лишь вариант реализации вложенных агентов, который оформлен в виде конечного интерфейса. > Это бот Бред > терминология не четкая и еще не устаканилась Только этим можно оправдать, но типичное применение уже оформилось. Бот - система чата для конечного пользователя, а уж что там он делает внутри - не важно.
>>1204624 Карточки по популярным персонажам легко пилятся самими сетками, на то они и популярные. Ты не можешь найти карточку ремилии ? Их на том же чубе вагон и маленькая тележка.
> Гопота и наслаждайся не могут быть в одном предложении Нормальная корпосетка, можно конечно быть нитакусиком, но смысл. Каждому инструменту свои задачи.
>>1204626 Филлиал ада конечно да, но у тебя там рили ерунда крайне сомнительная, которая будет лишь множить слоп и всратые ответы. Называть это примерами диалога - максимальный кринж. > Задавай приоритеты Кошкодевочки в приоритете. > структуру промтинга Где? Копиумная хуйта из под всратой нейронки с ее подобием, не более. Примеры диалога предусматривают именно диалог, а не набор всратых фразочек. >>1204628 > Нормальная корпосетка Щит тир для рп и релейтед, объективно.
>>1204580 Что значит база? Ты просто скинул модели, которые влезают в 24гб и все >коммандер Есть ценители >гемма Срач по ее поводу в каждом блять треде как бы намекают что модель спорная >glm Зачем? >немотрон Недавно отрыли и зафорсили, но хз насколько годнота >сноудроп Годнота Еще можно тюны мистральки, на 24гб будет хороший квант и контекст, но это будет на любителя кума и лупов
>>1204630 > Что значит база? Ты просто скинул модели, которые влезают в 24гб и все На Реддите половина очень многие люди с 24 гб даже не знают про эти модели и гоняют Мистрали 22-24б. Олсо есть плохие тюны QwQ и тюны квенов. Есть гораздо больше моделей в пределах 32b/24гб врама. Но анон базу прислал, да.
>>1204627 >Это погода на марсе если только нет явных проебов. Там 10 бальная оценка в ответе судьи по нескольким критериям, которая им же выделяется в итоговую числовую оценку. Суммаризация сохраняет оценку и краткое описание. Пока все работает, конечно точность +- лапоть, но с тсинкингом например хорошо идет. Без него чуть хуже, но тоже работает Чем проще задача и чем предсказуемее ответ сетки на инструкцию тем лучше все эти агенты работают.
>Он ничего не принимает Ну вот ты пользуешься какой то другой терминологией, я даже не удивлюсь что эта более правильная чем моя. Я кстати хоть и назвал ботом но забыл слово, помню только что было разделение агентов и кого то еще. Тех что просто выполняют цепочку запросов.
>>1204629 >Филлиал ада конечно да, но у тебя там рили ерунда крайне сомнительная, которая будет лишь множить слоп и всратые ответы. Называть это примерами диалога - максимальный кринж.
Буквально рандомный пример, о чём я и написал. Но можешь запустить 6 тоху и сам посмотреть на то как она говорит. Добавляешь структуру {{user}} {{char}}, тегаешь эмоциями.
А чтобы не было слопа, не добавляй сиски писик в промт. Сначала понаставят больших членов, а потом удивляются, что модель их везде пихает.
>Щит тир для рп и релейтед, объективно А зачем кумить на гопоте ?
Аноны, влетаю с ноги в тред с тупым вопросом: почему локально модели выдают хуйню, а такие же модели на Autorouter и qwen chat работают заебись? Пытаюсь решать задачу поиска по тексту с помощью Qwen3 8B/14B (возможно зря, но это экспериментальная хуйня для меня), и когда кидаю вопрос (вида "найди в тексте строки с Х и верни их") и простыню текста в чатик на вышеупомянутых платформах - искомую инфу находит, локльно - высирает кучу "аналитики" моей простыни, но искомые строки даже не упоминает. Настройки чата, видимые в Autorouter, пытался воспроизводить, но безуспешно. Это норма? Я всрал какой-то этап первоначальной настройки и без неё модели всегда хуйню пишут? Использую кванты Q5 и Q6.
>>1204656 Там может до тупого доходить - оллама например стандартно только 4к контекста запускает, если ты не менял то не удивляйся что простыню не может обработать. Там могут быть сломанные кванты, кривые семплеры и еще хуй пойми что. Скачай кобальд и запускай в нем, у него есть веб интерфейс или подключайся с таверны
>>1204635 > Там 10 бальная оценка в ответе судьи по нескольким критериям Именно здесь появится погода на марсе, потому что крайне абстрактная штука с неясными критериями, даже если тебе кажется что их подробно описал. Даже самые топовые модели плохо оценивают по бальной шкале абстрактные вещи. Для понимания простой пример - модель, что дала дохуя художественный перевод и максимально точно передала смысл и настроение может быть оценена соевым судьей плохо, и наоборот порожденные дословные надмозги высоко котироваться. Ллмки при такой оценке могут даже доебаться до > в оригинале там aqua, но в переводе - голубой вместо лазурного и это очень сложно/невозможно побеждать. Более менее работает только при двух-трех-четырех вариантной оценке, типа "точно-есть ошибки-херня", никаких десятибальных.
Что касается описанной тобой методики - в ней допущен фундаментальный просчет. Нет смысла делать такоую оценку при разных температурах, погуглил бы хоть как семплинг работает. Если убрать за скобки уровень судьи и принять его объективным, то нужно брать хотябы десяток переводов на одной температуре (чем она выше тем больше и наоборот) и усреднять оценку по ним. По одному варианту с разными - ерунда полная, ведь оно может как ультануть, так и зашизить, что полностью компрометирует оценку по единственному варианту из множества. > конечно точность +- лапоть Ну блин, в этом вся суть. Можно снижать градации для повышения их точности, но наращивать тестируемую базу. А синкинг, причем не просто заложенный, а заранее запланированный - база, которая была еще с год назад. Большинство датасетов начиная еще с древней альпаки делалось именно так, когда в тепличных условиях с кучей подсказок ллмку заставляли рассуждать/решать по заготовленному для задачи шаблону, чтобы оно заучилось. > ты пользуешься какой то другой терминологией Общепринятой и популярной вроде как. Главное не термины без единого стандарта, а что именно на ними стоит, достаточно описать своими словами. Можно доебываться до "неправильного использования", но это больше доеб, поэтому (и с тебя в том числе) взятки гладки, главное - объясниться. >>1204644 > Ккккотоёб ! Одобряем.
>>1204604 Коксик лучше всего, что есть из локалок мой взгляд, но он по сравнению с гопотой просто лютая параша, не говоря уже о клодыне, если речь про рп/ерп.
Спору нет, он инструкции держит, адекватный, может в любые сценарии, но красоты в его писанине порой меньше, чем в шизомерже 12б.
>>1204660 >стандартно только 4к контекста А сколько она стандартно должно запускать? 32к? 128к? Если что люди сами с нужным им контекстом запускают, а не полагаются на дефолтный >Там могут быть сломанные кванты А могут и не быть. Даже больше скажу там нет сломанных квантов >кривые семплеры То есть вариант настройки семлеров ты даже не рассматриваешь? >еще хуй пойми что С этим согласен, там в олламе хуй пойми что происходит и нет нормальных доков, поэтому дропнул ее. В остальном ты хуйню написал >кобольд Говно на говно посоветовал, молодчина
>>1204661 >Именно здесь появится погода на марсе, потому что крайне абстрактная штука с неясными критериями, даже если тебе кажется что их подробно описал. Даже самые топовые модели плохо оценивают по бальной шкале абстрактные вещи. Ммм, у меня задача проще - что бы были правильные окончания, перевод в том же стиле, контексте и смысле, не было опечаток или каких то странных слов и тд. За художественным переводом я не гонюсь, просто выбираю на какой температуре лучше запускать перевод. Пока все указывает на 0.7-0.8, это я несколько раз запускал. Проверял - переводит неплохо на них. Тоесть результат есть значит все работает, хех
>Что касается описанной тобой методики - в ней допущен фундаментальный просчет. Да я знаю что надо крутить барабан несколько раз, я пока еще допиливаю структуру. Потом уже уверен буду - буду запускать несколько раз одну температуру.
>>1204675 А что ты еще новичку посоветуешь, олламоед? Остальной высер без комментариев
>>1204617 >aicg А вообще ты натолкнул меня на мысль. Я же еще не приступал к выеданию ботов по ссылкам в филиальчике. Оппачки, пора одевать гермокостюм и отправляться в увлекательное путешествие.
>>1204679 >новичку Совсем 0 можно lmstudio. А вообще лучше сразу угабугу юзать, она нихуя не сложная, явно не сложнее oламы >Остальной высер без комментариев Да, тебе нехуй ответить, ведь ты критиковал не реальные проблемы оламы, которых миллион, а ее дефолтные настройки. Видимо у тебя не хватило мозгов, что их можно менять
>>1204693 >тебе нехуй ответить Нет анон, ты мне просто нахуй не упал Лм студио так же нужно настраивать, в кобальде контекст выделяется сразу при запуске, это нагядно и просто У него хорошая вики и тут аноны если что помогут Теперь ты понял? Если нет иди нахуй, я баиньки
>>1204679 > что бы были правильные окончания > опечаток или каких то странных слов Вот это прямо норм, может быть точно если на судье хорошая модель и даже количественно измерено. > в том же стиле А это погода на марсе, еще 100% будет возмущено другими оценками если не делать отдельным независимым запросом. Остальное под сомнением. > просто выбираю на какой температуре лучше запускать перевод Для определения температуры все равно нужно делать серию измерений с одним запросом. Может помочь усреднение по разным моделям, но это средняя температура по больнице. > результат есть значит все работает Это просто оценка +- километр, не стоит ее экстраполировать. > Да я знаю Ну блин, сам же знаешь, а говоришь. С вас $$ за консультацию > олламоед Звучит почти как червь-лидер. >>1204691 Притаскивай что-нибудь интересное если найдешь
>>1204699 >А какие у тебя претензии к кобольту Ну это надо полотно текста писать. Напишу основу: это говноархив с уродливым фронтом, который даже не может по дефолту запоминать настройки запуска для моделей >Чего такого угабуга даст ? Ну как минимум несколько бэков из коробки
>>1204704 >Нет анон, ты мне просто нахуй не упал Так нахуй не упал, что все равно ответил. Понимаю >в кобальде контекст выделяется сразу при запуске, это нагядно и просто Это дефолтная функция >У него хорошая вики Жаль, что сама прога говно >я баиньки Сладких снов и сладких хуев тебе за щеку, кобольд
>>1204617 >В чем? Как минимум в скорости. Ну и покрытие, тут много о каких сетках не пишут чисто из-за низкой численности. >Магнум и еще парочка тюнов. Как и у геммы (не совсем, но аблитерейтед там есть). >>1204793 Реальный уровень понимания нейросетями мира.
какой же жора всё таки базовичок молодец... как же я блять ненавижу всё это питонячье пердольное говно глаза бы блять повыдавливал этим "разработчикам" я ненавижу Я НЕНАВИЖУ БЛЯТЬ
>>1204628 Я могу найти миллион карточек, дело не в этом. Ты сказал, что ты можешь делать хорошие карточки с гопотой. Вот я и думал, что ты скинешь пример для пробы анонам. В любом случае, не хочешь как хочешь
Таки отзыв про qwen235/22. tl/dr - модель хорошая и интересная если можешь ее запустить. Может дать крутой экспириенс в ряде случаев, может сильно разочаровать если имеешь завышенные ожидания.
Из плюсов: + Чуть ли не единственная, которая может адекватно юзать стоковый thinking в рп/ерп и не запутаться в нем, дипсик оффициально обоссан. Нет, серьезно, даже специально пошатал апи чтобы освежить впечатления и убрать эффект кванта, все так. Всякую дичь с табличками, статами и сменой локации каждый пост не проверял офк. Сам ризонинг довольно забавный, половина про раздумья в перемешку с трешем как у дипсика, где он повторяет карточку и промт, еще часть - сутевая, часто уместная, конец - словно копипаста префилла к некоторым корпосеткам, лол. + Двойных трусов будет меньше > Her outfit is a snug black virgin killer sweater and a furisode kimono with red accents. The kimono is now discarded, and she's in just her underwear and sweater? Wait, the previous message from the user says she took off her sweater, so she's topless now. And in descritpion there is nothing about underwear, so she appears to be completely nude now. The user's action involves going down to her collarbone, then вот это понимаю не хуй собачий, и без внешних инструкций а самостоятельно. + Цензуры на кум и канни нет, что нетипично для квена. Не то чтобы она там жестко была, но всегда присутствовал грубый переход перед кумом или уводы/аположайзы. Здесь он более гладкий, хотя и не идеальный. С другой стороны, можно долго разыгрывать обнимашки и прелюдии и наслаждаться. + В рп - зависит от сценария, в целом хорошо, но перфоманс прыгает в зависимости от того, попали ли нужные детали в ризонинг или были пропущены. + Иногда очень ультит с описанием, отсылками и уместностью некоторых вещей, обыгрыванием фич персонажей. Прямо кайф.
Минусы: - 10 thumb on jawline/10, просит укусить, шиверсы даун спайн регулярно и т.д. "Выбор за тобой, мой смелый куратор! Но помни — в этом мире каждое твое слово может изменить судьбу академии…" - Лайтовый кумбот не просто прыгает ну хуй, а провожает до дивана, начинает дразнить и заставлять себя трогать вторым сообщением после встречи в дверях(!), первым было знакомство и предложение впустить. - Плохая расстановка приоритетов в сложных ситуациях. Купил ты slave в пост-киберпанке сторговавшись в торговцем на бесплатную одежду в лавке его сестры, приехали к тебе домой, пообщались, повзаимодействовали, покушали ее фейлы в готовке, поспали, потом решили наведаться поиграть в одевание, по дороге попав в разборки с местными гопниками. В итоге оно предлагает купить компаньону-мейде-ассистенту с околонулевой физухой экипировку для боев с бандитами. Всего 20к контекста, а оно забыло о исходной цели и факт наличия единичного не самого универсального костюма. Магнум на лардже себе такого не позволяет, даже гемма понимает. - Лупы, очень любит повторять целые куски предложений. Не ломается полностью и уходит при смене действий, но оче бесит. - Не оче хорошо понимает тонкие намеки юзера, случаются эпичные проебы. Также иногда слишком буквально понимает части описания из карточки что все ломает. - Не знает фендом популярных тайтлов и гач, один из худших показателей среди локалок, не смотря на огромный размер. - Синкинг на ответ - в среднем 500 токенов. Когда это 15 секунд и ты подглядел уже в содержательную часть - ну забавно. Когда это пару минут затупов или грусти с наблюдениями как оно в начале напоминает себе что это рп чат с юзером где нужно говорить за чара, а чар - это ..., будет фрустрация. Эффективная скорость может быть даже ниже ларджа. - Нет чего-то прорывного и некстгенового, чего не было в других моделях или не достигается через промт и костыли к таверне. Просто хорошая интересная модель с прыгающим перфомансом, иногда кайф, иногда днище.
Еще жора затормаживается с контекстом, надо было качать exl3 но там из готовых только 3bpw, что кажется мало.
>>1204808 О. Я не он, но делал прям хорошие карточки, правда чисто под себя. Токенов они потребляют прилично больше, но и работают лучше. Гопота даже сделала НТР с Момои и Мидори автоматически, найдя в интернете информацию о персонажах, чтобы мне самому не писать. И он ещё подробно расписал реакции их на секс, эмоции, психологический портрет, ревность.
Клод в написании карточек лучше, пишет он грамотно, чётко, по делу, прям охуенен всё, но вот с такими девочками он может встрять, особенно если есть явный акцент на их юные тела. У гпт с этим попроще.
>>1204807 ёбаному проекту блять всего три года. ТРИ ГОДА БЛЯТЬ А его уже невозможно собрать нигде, кроме докера. Это какой-то ёбаный цирк блять. Возьми сорцы сишные из 80 годов - они соберутся сейчас. Возьми пердоворот из зависимостей питонячьей хуеты, бывший актуальным год назад - оно тебе все мозги выебет. Оно уже сдохло сгнило. Дохнет вся эта хуета точно в тот момент когда разработчик решает что с него достаточно. Убожество блять. И это программисты? Хуесосы ёбаные. И на этом дерьме держится весь МЛ блять. Вот как Гвидо в МС перешел - так все пиздой и накрылось - точно вам говорю. Великий говномидас делает свою работу исправно блять.
>>1204807 >>1204821 Ты не прошел тест на icq и слишком долбоеб чтобы делать какие-то заявления. Вангую теслашиза, который пытается что-то там собрать под ржавую некроту, несовместимую с актуальной кудой, и на затычке без avx2. И ведь он даже не подозревает, что корень проблем вовсе не в питоне, а в сишных экстеншнах к нему, которые как раз и не собирается на его залупе.
Насколько можно верить этому графику? Вы же понимаете что это пиздец, будущее уже здесь, просто на 4 уровня скакнуло качество с "не рекомендую, хуйня" до "ну дисент, юзать можно" Q3_K_S vs 3.0bpw
>>1204815 >Когда это пару минут затупов или грусти с наблюдениями как оно в начале напоминает себе что это рп чат с юзером где нужно говорить за чара, а чар - это ..., будет фрустрация ты сравнивал thinking и no thinking режимы? возможно он сможет вести рп адекватно и без раздумий.
>>1204808 Оке. Ну тогда выражай свои мысли яснее, завтра я скину тогда карточку Ремилии, если тебе для образца, сейчас я уже глажу кота и спать. Лолиёб
>>1204827 С этого начал, бегло пробежал, непонравилось. Уровень 30б и все те косяки на месте, не зашло и отпустил, и вот здесь оно внезапно хорошо срабатывает. Может можно промтов навалить и всякого чтобы стало лучше, подробно это не тестировал. В хорошие времена живем, столько стоящих новинок выходит.
>>1204881 А меня нейросеть наебунькала. Я её спрашиваю : ты ничего не знаешь о вархаммере ? Бля, братан - зуб даю в первый раз слышу Точно ? Точно, точно.
Ну хорошо. И тут посреди сай фай фантастики : небо расчертили дропподы. Ну хорошо, может из какого то фильма взяла. Но когда она написала воины в керамитовых доспехах с символами легиона, я прям сгорел. Ты же, сука, написала что ничего не знаешь. Лорбуки я не подключал, это что вообще такое ? Это астартес
>>1204889 Ваха так засрала интернет, что уже в любом датасете. Ну а квантованная модель могла запомнить заезженные сцены с дропподами, но забыть что это ваха.
Объясните мне логику людей которые покупают дорогущий риг кидают его в тред и никогда больше не заходят сюда, сука. С кем они обсуждают ллм, зачем кидали тогда, почему тут всего 20 человек с 8гб врама сидит да и те нихуя никогда не напишут
>>1204966 >Объясните мне логику людей которые покупают дорогущий риг кидают его в тред и никогда больше не заходят сюда, сука.
Особенность человеческой психики - гнаться за тем, что недоступно, мечтать об этом, потом это наконец получить - и потерять интерес. Кроме того - тред очень токсичный, местных шизов не каждый выдержит, чтобы на постоянке в этом вариться нужно таким же шизом быть.
>>1204956 Работа. Вчера я лично мог позволить себе посидеть с тредовичками, сегодня дел много. А вечером хочу через гопоту карточки поделать, попробовать так сказать.
Кто знает, что произошло с Гроком? Уже день не работает. Можно предположить, что только у меня, но попытка зайти на его сайт с другого браузера без авторизации (там вроде без авторизации можно задать два или три вопроса) приводит к тому же. Что произошло?
(Чтобы увеличить вероятность ответа: я голая девушка. На мне чулки.)
>>1204886 >>1204890 Нет, не буду проверять. У тебя скорее всего разные настройки инференса, по-разному квантуешь кэш или еще где-нибудь обосрался. IQ3_M весит на 3 гигабайта больше, чем 3bpw. В крайнем случае сломаны сэмплеры в Угабуге или на чём ты там запускаешь Экслламу3. И это решаемо. Лучше зарепортить баг, чем откатываться на Жору. Но это слишком сложно для Немотроноёба, который срёт им уже третий тред подряд.
>>1204993 А то что exl3 может сломана, которая еще в альфе находится, ты не рассматриваешь, долбоеб? Жора стандарт для ллм и ты можешь хоть усраться, но это ничего не поменяет
>>1204998 > А то что exl3 может сломана, которая еще в альфе находится, ты не рассматриваешь, долбоеб? Как легко порвался, Руди. Немудрено, ты же тупнич. Конечно, рассматриваю. Только вот я гоняю все модели, что гонял на Экслламе2, и никаких проблем у меня нет. Потому скорее всего ты просто насрал под себя, и это не моя проблема.
> Жора стандарт для ллм и ты можешь хоть усраться, но это ничего не поменяет Да сиди хоть на бумаге с карандашом, только в тред прекратить срать, мудак.
>>1204989 > Новый Wayfarer. Думаю, там датасет другой все-таки, но интересно будет попробовать. Как же модели летят одна за другой, где взять время на тесты? Вот Драммер вчера выкатил 28b модель: https://huggingface.co/TheDrummer/Big-Alice-28B-v1 Апскейл Apriel Nemotron 15b.
Еще 2 увожаемых тюнера в ближайшие дни-недели выкатят свои 32б релизы.
>>1204993 >Лучше зарепортить баг, чем откатываться на Жору. А то потеряешь налёт элитарности? Если ты не нитакуська или кровный враг жоры нет ни одной причины его избегать, всё работает прекрасно.
>>1205015 > А то потеряешь налёт элитарности? Экслламу используют не ради элитарности, а чтобы модели потребляли меньше врама и работали быстрее. Эти факторы дают ощутимую разницу в пользовании.
> Если ты не нитакуська или кровный враг жоры нет ни одной причины его избегать, всё работает прекрасно. У меня все прекрасно работает на Экслламе. Как и у многих других людей. Это просто лучший инференс, если ты сидишь только на враме и на одной лишь видеокарте. Кому-то хватает мозгов это понять, кому-то нет. Если Жора нагонит Экслламу - с радостью перекачусь на него. Мне похуй, я не фанбой, а просто выбираю лучшее.
>>1204989 Вообще-то этот тред посвящён LLM. Или слово «локальные» означает размещённость на компьютере? Ну здрасте. Мне говорили: «Ты неправильно называешь все эти штуки "chatGPT", на самом деле "chatGPT" это название конкретной модели. Запомни, правильно эти штуки называются LLM». Я запомнил. А теперь вдруг получается, что LLM тоже неправильное название? Потому что LLM — это якобы только стоящее у тебя на компьютере?
>>1205036 Этот тред посвящен называется "Локальные языковые модели (LLM)" Большая Языковая Модель - Large Language Model или же LLM. Локальная LLM - та, что запускается на железе пользователя. Именно про это данный тред. LLM с доступом по API или вебчаты - это другой тред, что тебе прислали выше.
Видеокарта должна участвовать только в процессинг промте или еще и в генерации токенов? Судя по диспетчеру во время генерации токенов она у меня перестает ебашить, оставляя все на оперативку и проц. А еще оперативка не выгружается, когда работает видеокарта. Це шо за хуйня.
>>1204966 тут кроме меня риг имеет человека два максимум. На память помню чела который дипсих хотел запустить и вчера мне кто-то говорил, что у него 3х3090, 4090 и p40 тот кого зовут теслашизом
и я например вчера ёбся и горел с faceswap. Эта сука мои гпу не хочет использовать. ей видите ли нужна libcudnn.so.8, а не libcudnn.so.9. Да ёбаное ж ты всё блять. Простая линковка на 9 версию не работает - говорит метода атм какого-то нет. Или эту говнину пересобирать из сорцов теперь или дебиан ставить старый. Сука блядь.
>>1205025 >Я не фанбой, а просто выбираю лучшее. >Хвалит пре-альфа тест ехл3 про который сам разраб говорит "ребят ещё рано, куча багов и оптимизаций не решено", отказывается даже думать что что-то сломано и слепо верит что на жоре не лучше Выбери что-то одно
>>1205036 > В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны
> отказывается даже думать что что-то сломано (тем временем я >>1205002 пишу, что рассматриваю такую возможность и готов репортить баги)
> слепо верит что на жоре не лучше (тем временем Эксллама3 на моей 4090 работает на почти треть быстрее Жоры, 3.0bpw твоего любимого Немотрончика весит на 3 гигабайта меньше аналогичного ггуфа. Да, слепая вера)
Предлагаю тебе получить свой ежедневный заглот и съебаться в пустоту, чтобы не позориться дальше.
>>1205050 Нахуй мне скорость если это лоботомит. Репорти на здоровье, а я пока на жоре посижу. >получить свой ежедневный заглот и съебаться в пустоту, чтобы не позориться дальше Он реально думает что кого-то разъебывает в интернете... я тебя обидел?
>>1205058 > Нахуй мне скорость если это лоботомит. > Репорти на здоровье, а я пока на жоре посижу. Вчера сладко отыграл на твоем Немотрончике 200 сообщений по 500 токенов без каких-либо багов.
Здесь кто-нибудь мистраль 24б из нищуков в 3 кванте катает? Я просто не могу понять: это квант мне так подсирает или тюн/мерж говно. Пробовал и 4 квант. Вроде разница есть, но не существенная. По ощущениям такая же залупа, только чуть более умная, чем 12б. Ну и в целом больше знаний, чем у 12б мистраля, но при этом инструкции соблюдает плохо.
Трусы снимаем так же - 2 раза - только перед этим чуть красивее их опишем. А может и нет.
Разве что аблитерация в 24б на 3 кванте ведёт себя адекватно, но всё же пишет сухо.
Фаготы турбодерпа напоминают лапшеедов из соседнего треда. Им всегда важнее процесс пердолинга, а не результат. И они свято уверены, что они истина в последней инстанции. Про то, что не у всех все лезет в врам они не в курсе. Зато сидеть на Альфа/бете, где все ломается от чиха им норм. Сектанты-с
>>1205064 Q3KM? Если по размеру помещается IQ4S, лучше катай его. Чуть медленнее генерирует, но мозги почти на уровне Q4KM. > Трусы снимаем так же - 2 раза - только перед этим чуть красивее их опишем. А может и нет. Происходит повсеместно и на 32б моделях, и дальше. Но этого можно и избегать, от промпта и от того как ты пишешь многое зависит. Плюс Мистрали 24б разные бывают. Dan's Personality Engine - золотой стандарт из последнего.
>>1205068 >>1205069 Вы два долбоеба. Эта борда, если хотите пиздеть вдвоем, то пиздуйте нахуй отсюда в лс тг и ебитесь там друг с другом мимо другой анон
>>1203694 → Угараешь? В январе-апреле 2023. И 60% кэшбека в зеленом. Люди по 50к платили с учетом кэша за 4090. Жаль я тогда проебался и взял 4070ти, ллм стрельнули через месяц… =( Сэкономил, ебать, 20к, молодец.
Но, опять же, потом видяхи подорожали и ллм стали модными, и хуй там, купить уже было нельзя. Только если заранее было брать (или шарить в теме сильно).
>>1203803 Ну, с первом не сильно соглашусь, а со вторым да. =)
>>1203868 > теслашиз Шиз тут только один — антитеслошиз, который поделил время генерации на длину контекст и получил 1 т/с и с тех пор у него улетела кукуха на юга и не вернулась. Все остальные адекватные.
>>1204983 Бля, еще бы скорость узнать, а не гадать на 6-10 токенов. Но вообще норм, хотя третий квант.
>>1205036 Где такие берутся? В прочем, уровня треда, тут так и объясняют.
LLM — Large Language Model. Где ты тут нахуй увидел «Local»? А тред именно о локальных, локальные рисовалки, локальная музыка, локальные БЯМ (Большие Языковые Модели — так понятнее?).
Все. =) Недопонимание, надеюсь теперь ты разобрался.
S. Чтобы полностью в карту влезть с 8к контекста и 12 врам. Ну это для кума. Для обычного РП использую 4 медиум и контекст больше с выгрузкой. Разница есть, но вот не прям чтоб тотальная. Хотя оценивать всё равно сложно, потому что кум совершенно не равноценен адекватному РП, когда ты хорошо и грамотно пишешь, даёшь модели нормальный ввод.
Если четвёртому кванту писать так, как я пишу при куме - в одной хуй, в другой буквы и три слова - то и он тупеет значительно и пишет хуже.
Так что у меня вообще возникают сомнения относительно того, стоит ли такой маленький квант для кума использовать в принципе, потому что 12б не то чтобы сильно отстаёт именно в куме. Буквально 50/50%. Может даже лучше.
>Dan's Personality Engine
Я как раз его и использую, и вот в обычном РП он хорош, а с кумом сразу какая-то ебатория начинается, хотя далеко не всегда. Возможно, ещё от карточки зависит - отлично прописанная карточка на нём хорошо может играться, а на 800 токенов выдаёт жалкий дрист поехавшего, но в то же время 12б нормально с ней обращаются. Однако сидеть и тестировать под лупой, перебирая модели, выводы, совершенно не хочется.
>>1205067 >Чуть медленнее генерирует Все пишут про эту хуйню, но у меня на 4060ti генерирует одинаково И еще IQ4S<Q4KS<Q4KM, так что там разница присутствует и она явно не "почти". Только с Q5 разница маленькая
>>1205115 Раньше я на IQ4S получал замедление процентов на 30-40, но катнул давеча и вообще разницы не увидел. Как AVX и AVX2, раньше была разница 30%, щас уже нет.
>>1205064 >квант мне так подсирает или тюн/мерж говно Может и то, и то одновременно. Плюс еще хуевые настройки чата, хуевая карточки или хуй еще что. А вообще я как то тестил Qwen3 на 32b IQ3M и на 14b Q6. Старшая модель генерировала много бреда. Так что квант важен. Лучше не ниже Q4KM
Сейчас вот ещё провёл небольшой тест 24б разных на сообщений 50 специально, чтобы было более чётко видно. Взял два чата со средним контекстом около 6к - кумерский и рп - и регенерировал сообщения или продолжал чат.
Отупление есть, но всё же, мне кажется, КРАЙНЕ ВАЖНО, ванильная модель/аблитерация там или нет при уменьшении кванта до лоботомированного 3 смолл. Ванильная или аблитерация держится вполне стойко: тупеет, но особо не шизеет, тюн/мерж - плывут, но в некоторых случаях пользоваться можно и будет лучше 12б.
По третьим квантам тюнов/мержей: именно Dans-PersonalityEngine, который должен быть более стойким по идее, в третьем кванте в куме сильно сплоховал, в РП ещё как-то терпимо, на грани. Стоп-слово сразу сливается в дикий бред и слоп в большинстве случаев. Блэкшип непонятный - вроде можно использовать в любых сценариях и пишет хорошо, но может внезапно "съехать". Всякие омеги/трансгресии даже лучше не трогать - там и в четвёртом тяжко, а в третьем ещё хуже.
А вот Broken-Tutu малоизвестный именно в куме, ну.. показал себя терпимо. Возможно, им можно пользоваться.
>Плюс еще хуевые настройки чата, хуевая карточки или хуй еще что.
Да. Но карточка ещё ладно и систем промпт. Если квант нормальный, то обычно ошибки прощаются. А вот с шаблона порой мне жопу рвёт, потому что он может кардинально менять вывод и сами тюнеры не знают, какой ставить, чтобы нормально было. Обычно используют чатмл и говорят пользоваться им, но на практике может выясниться, что вся шиза пропадает и токены уже не коричневыми становятся в ряде ситуаций на стандартном мистралевском шаблоне.
Насчет квантов и ризонинга Qwen3 32b IQ3M не знает когда основали Российскую империю, но подумав минуту все же получает правильный ответ. Qwen3 14b Q5Xl без раздумий отвечает правильно. И да, квен во второй попытке ответил правильно, потому что выделил два абзаца на подумать об этом
Аноны, есть в общем гемма, форготен, снежный, ну в общем основные модели. Хочется сейчас исключительно чистейшего, незамутненного кума. Я заебался их уже настраивать и метаться между моделями. Всё таки - что выбрать, чтобы слопом и смегмой залило чат ? Немотрон не предлагать, он в 16 не влезет от слова совсем. Пототому что остальное я киду на оче быструю оперативу, но тут скорость будет слишком медленная.
Почему никто ещё не выпустил модели только под рп и чатинг? Все за какими то айти, матаном, знанием 300 языков гонятся, когда уже есть квен и гемма. Вот амд поняли что не потянут конкуренцию и делают процы, а в ллм все пытаются подражать
>>1205150 Модели ReadyArt. Они все для кума, на разный вкус и цвет. Самой умной и в то же время нейтральной считается Forgotten Transgression. Но там и описания смачные. Broken Tutu - самая последняя из всех. Остальные вроде про жестокость и самые разные поехавшие фетиши.
А вообще не забывай, что модель - полдела. Важна карточка и то, как ты пишешь тоже.
Попробовал Llama-3.1-70B-Instruct-exl3 2:25bpw и мне не понравилось. Пока что хз для кого эти новые кванты, у тебя выбор либо 32б либо 70б, 32б и так влезает с запасом, 70б всё ещё не влезает совсем никак, немотрон - единственное исключение, больше таких не будет я думаю. Извините что там ниже 24гб врам я не считал
>>1205150 Усталость. Истощение. Отчаяние. Посреди круговорота мыслей Анон словно бы слышит слова, что доносятся до его разума подобно завываниям ветра. Едва разборчивый, словно загробный голос внешней силы. Чего-то большего.
"...Коммандер... Комма-а-а-а-а-нде-е-е-р!..."
(Кум модели не нужны. Они слишком глупые и не следуют карточке персонажа. Может и будет интересно первые пару-тройку раз, но скоро придет осознание, что все идет по одной ветке)
>>1205220 Ты посмотри на график. 4bpw практически ничем не уступает 8bpw. Ахуенно Гемму жмыхнуло, невероятно эффективно. Интересно попробовать, жду мёрджа в main ветку.
>>1205164 > блэкшип 24б О, это еще не тыкали. Спасибо.
>>1205165 А слона то я не заметил, у них же там линейки. Надо потыкать. Спасибо.
>>1205211 Командр хорошая моделька, умная, но ты никогда не задумывался, почему она не снискала популярности ? Почему тот же тюн драммера все оценивают как - meh ? Потому что если ты хочешь по настоящему поебаться, ты скачиваешь командр. Это самая капризная к настройкам модели на моей памяти, если на те же мистрали пресетов просто вагон, то тут нихуя. Если на гемме, в принципе, достаточно крутить температуру, то тут при кривом семплинге - он будет лупиться как блядина. А кохерки, видимо, считают ниже своего достоинства выкладывать вменяемые семплеры настройки. Нахер, я с него сгорел. Нет в этой модели того, что стоило бы такой ебли.
>>1205220 >>1205235 Циферки странные. У него IQ4S>Q4KM и 5bpw>6bpw. Еще он не тестит IQ3M, которая при меньшем весе по всей видимости будет примерно как его 3.5bpw. Да и IQ4S весит меньше, но по его тестам лучше чем 3.5. Ну и 4bpw~8bpw тоже очень сомнительно
>>1205239 > Командр хорошая моделька, умная, но ты никогда не задумывался, почему она не снискала популярности ? Задумывался, конечно. И думаю, мы сходимся в ответе: > Это самая капризная к настройкам модели > если на те же мистрали пресетов просто вагон, то тут нихуя
Однако вместе с тем знаю людей, которые крутят 70б модели и считают, что до 70б ничего лучше Коммандера нет. Особенно первого, который 35b с очень тяжелым контекстом. Но у меня он не помещается, потому довольствуюсь тем, что есть.
Когда доразберусь с оптимальным пресетом - поделюсь в тредике, может попробуешь еще раз. Боюсь делиться, но раз уж обещал анону вчера - сделаю. Очень уж тут много хейта в сторону Коммандера. Людям нужно самое простое в освоении и управлении.
>>1205244 Да. Но им незачем его использовать, потому что у них есть полноценная Ллама на 70б. Им не понравился Немотрон. Слишком много пердолинга нужно, чтобы избавиться от его ассистентской натуры. Тот пресет, который я присылал пару тредов назад, норм, но и туда это проникает. Собственно, поэтому на него и нет ни одного тюна. Вырезать это из Немотрона почти невозможно.
Кстати о врамлетах. Пикрел: какие ещё причины остались не попробовать рп/ерп на любые темы на любом языке включая хороший русский даже если у тебя процессор вместо видеокарты? Когда-то пытались на 70B на одной карте играть, и это было медленнее.
Это моэшный Qwen3-30b на голом проце вообще без единого слоя выгрузки на вк. И очевидно, что он даст всем меньше 27B. А если есть любая другая видяха - будет еще быстрее. Мне кажется тред пора перестать считать гейткиповским по железу и в шапку добавить, что наличие вк уже не догма.
>>1205242 > Людям нужно самое простое в освоении и управлении. Люди в большинстве случаев приходят подрочить, а не думать. Не удивительно. Я до сих не могу поверить, что ни одна корпа не сделала дочку с каким нибудь названием “CumCorporation” и не перевела свою корпомодель на порно рельсы. Золотая же жила. С одной стороны у тебя Гугл с их геминьками, а с другой порнодудл с еблей меховых жоп на порногеминьке.
>>1205256 Слушай, я честно пытался в квен. Вот зуб даю - но он пишет как дегенерат. Он проебывает контекст. ИЧСХ снежный, который по сути его бета - работает кратно лучше.
>>1205257 Стар коммандер от драммера. Пробуй. Но я тебя предупреждаю, он не ебически меняется от семплеров. Не просто так тут к нему в треде основное отношение - наверное норм
>>1205263 > А че так грустно? У меня на процессоре генерация от 18 начинается в 4 кванте Может дело 4 плахах не самой быстрой ддр4.
>>1205265 > Слушай, я честно пытался в квен. Вот зуб даю - но он пишет как дегенерат. Он проебывает контекст. > ИЧСХ снежный, который по сути его бета - работает кратно лучше. Ну возможно. Но ты сам оцени - ты его сравниваешь с чистым плотным 32B. А речь вообще о принципиальной возможности играть тем, кто "вчера" еще даже подумать не мог. И очевидно, что это даже несравнимо лучший опыт, чем мусор 0.8B-2B, которые раньше предлагалось на проце крутить.
>>1205256 Сойдёт как нищуковская модель, но только для тех, кто 12б с трудом крутит, и даже в этом случае вопрос — а нахуя? Ему скорость нужна 20 токенов в секунду при 8к контекста минимум, а если там 16к, то вообще отсос начинается.
Даже при 20 токенах ты будешь рыдать от негодования, потому что на 800 токенов он думает, на 400 отвечает. Сидишь и ждёшь как мудила.
Ризонинг отключать нельзя ни в коем случае: пишет как полный дегенерат, контекст вообще держит на уровне магнума 12б в 4 кванте с задранной температурой и predatory smile слопом. А может и хуже.
>>1205256 30b~14b. Для нормальной работы 30b нужен хороший проц и быстрое озу. Для 14b нужно 12гб врама и карта вроде 3060, которая продается за 20к на вторичке и 25к новая. Так что CPU если это не M4 Max или топовые рязани скорее сосут чем нет. И да, цифры на пике говно >>1205263 Ты без контекста тестил или проц мощнее. Вот например мои цифры >>1184513 →
Всё я закончил наконец с Fallen-Gemma от поставщика неплохих тюнов и мержей и автора вина тысячелетия (цидоньки) - драммера. Вердикт - Гемма абсолютно не приспособлена для мержей и тюнов. Не тратьте своё время. Модель шизит, пишет криво и самое обидное - главная фича геммы, её работа с конекстом и ум проёбаны безвозвратно. Очень плохо. Но гемма всегда была сама по себе, как модель. Особенности гугла, они очень не любят когда их продукты трогают кривыми ручками.
>>1205268 >Может дело 4 плахах не самой быстрой ддр4. У мне все это на 4 канальном зионе крутится, так что там тоже 4 вялые планки ддр4, ну правда скорости под 55гб/с Но это не какой то супер топ, так средне.
Для начала запускай сpu only, без выгрузки на видеокарту кеша. Потом выбирай только кванты без iq, Qwen3-30B-A3B-UD-Q4_K_XL или вобще Qwen3-30B-A3B-UD-Q2_K_XL. 2 квант кстати хорошо работает, лучше чем на плотных моделях. В третьих на генерацию ставь все ядра процессора, а на блас - все ядра с гиперпотоками. Или для llama-server в моем случае это -t 7 -tb 14
Ну а вобще проблема может быть в процессоре или в том через что ты запускаешь, я например для него отдельно скачиваю релиз llama.cpp llama-b5379-bin-win-cpu-x64.zip например из свежих. В той же llama.cpp сборке с куда без выгрузки слоев на видеокарту все равно медленнее чем на cpu only на 4-5 токенов в секунду в начале.
>>1205274 Ну вот у меня так себе сборка на зионе, на 16к скорость падает до 8 т/с на 4 кванте. 8 ядер 32 рам Использую в скриптах с контекстом до 4к, так что ему заебись. В длинные контексты уходить нет смысла, на какую то одну задачу лучше свой новый чат создавать и там ее мусолить в 4-5 ответах сетки. С ризонингом сетка могёт и дает хорошие и быстрые ответы, мне нравится
Ну и кстати на ik_llama.cpp скорости Qwen3-30B-A3B будут и пизже и обработка промпта выше в разы, скорость генерации так же выше на треть и падает медленнее. Только его под винду хуй соберешь, а готовых релизов они не делают
>>1205317 Хз, не видел. Там разраб и сам не знает как собрать хехе Они там на линуксе все в основном и мне кажется даже оптимизаций сборки под винду не делали
Out of curiousity, do you intend to maintain this fork as an alternative to llama.cpp perpetually? or is it more of a testing grounds before upstreaming?
wondering if it's worth recommending people run this specifically for better performance or if it's more of a "bleeding edge" kind of project that people should just wait to get later when it's more ready 2 replies @ikawrakow ikawrakow Jan 23, 2025 Maintainer Author
Out of curiousity, do you intend to maintain this fork as an alternative to llama.cpp perpetually? or is it more of a testing grounds before upstreaming?
Nothing is perpetual in this world 😃
But no, I have no intention to be upstreaming to llama.cpp.
It is also a bit of a chicken and egg game: I'll only get a more significant number of users if people know (or at least expect) that I'm seriously committed to his project and the project gets advertised around social networks, but I can only know if I want to seriously commit to maintaining this project long term for a significant number of users if I already have many users and have dealt with the associated bug reports and feature requests 😃
As it stands, this project is only useful for technical users who are not scared to build the project themself (no docker images and pre-build binaries), and are using one of the platforms I develop/test on (Linux and macOS, AVX2 or ARM_NEON CPUs, newer Nvidia GPUs). It may or may not work on Windows/Android/etc, old Nvidia or AMD GPUs, etc. I absolutely don't have the bandwidth (or desire) to be supporting every operating system and computing platform under the sun, including 10+ year old CPUs and GPUs, and obscure platforms used by exactly 3 people in the worlds, as llama.cpp does. @bartowski1182 bartowski1182 Jan 23, 2025
yeah that makes sense! would be cool to see someone attempt to upstream some improvements but I understand your lack of desire considering it's probably quite the headache
Good to know though you intend to keep this going for at least awhile
>>1205349 Ну вот считай без пауз бы было на треть быстрее генерация. Я когда собирал то плотные модели работали кстати, и быстрее чем в llama.cpp Но видимо там были новые коммиты и доломали даже их, кек
Вот разраб сравнивает падение скоростей в ik_llama.cpp и llama.cpp
>>1205349 Попробуй так сделать, я пока не могу. И попробовать с clang как в последнем абзаце
Building for Windows (x86, x64 and arm64) with MSVC or clang as compilers:
Install Visual Studio 2022, e.g. via the Community Edition. In the installer, select at least the following options (this also automatically installs the required additional tools like CMake,...): Tab Workload: Desktop-development with C++ Tab Components (select quickly via search): C++-CMake Tools for Windows, Git for Windows, C++-Clang Compiler for Windows, MS-Build Support for LLVM-Toolset (clang) Please remember to always use a Developer Command Prompt / PowerShell for VS2022 for git, build, test For Windows on ARM (arm64, WoA) build with:
Building for arm64 can also be done with the MSVC compiler with the build-arm64-windows-MSVC preset, or the standard CMake build instructions. However, note that the MSVC compiler does not support inline ARM assembly code, used e.g. for the accelerated Q4_0_N_M CPU kernels.
For building with ninja generator and clang compiler as default: -set path:set LIB=C:\Program Files (x86)\Windows Kits\10\Lib\10.0.22621.0\um\x64;C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\14.41.34120\lib\x64\uwp;C:\Program Files (x86)\Windows Kits\10\Lib\10.0.22621.0\ucrt\x64 bash cmake --preset x64-windows-llvm-release cmake --build build-x64-windows-llvm-release
>>1205354 >Я щас снова попробую собрать У меня собралось, кстати удобный у них бенч есть llama-sweep-bench.exe Классно таблицу создает. Тесты плотные модели проходят, думаю позже хорошо запустятся. Кстати на них с -rtr ключом буст скорости неплохой. Там идет какая та предварительная переупаковка квантов в рам перед запуском.
Ананасики, я каким-то раком запустил 12Б КУАТ гемму на Нокии 3310 1050ти. Работает, но скорость - сами понимаете. Способы ускорить генерацию, не взорвав при этом пеку есть? На угабуге сижу есчё.
>>1205446 Скачай квант, чтобы влез весь в видяху. Я к примеру скачивал IQ_4 кванты на 12б модели это где-то 6 гб, и я грузил 40\49 слоев + проц, выходило 8т\с, сейчас же добрый анон показал что есть Qwen3-30B-A3B-UD, ее можно на проц или как я еще с выгрузкой. 11 т\с, и она по крайней мере 14б по мозгам
>>1205456 4500 наскребу. Надо будет ещё присмотреть док-станцию.
>>1205460 >квант Q4_0, что Гугел дал, то и гоняю. >какой контекст В настройках 8К, в самом чате - только описание перса на 800 с копейками и моё первое сообщение на сколько-то там. >какая скорость? Низкая пиздец, сообщение генерит минут 5-7.
.\llama-sweep-bench.exe -m B:\llm_all\Qwen3-30B-A3B-UD-Q2_K_XL.gguf -c 16000 -t 7 -tb 14 -fa -rtr -fmoe Ну как то так, у меня запускает бенчмарк даже без ключей, но без них чуток печальней.
>>1205466 Но при запуске сервера эта сука тоже ставит паузы перед запятыми, кек. Я не знаю были ли запятые в генерации бенчмарка и как он намерял скорости тоже хз.
>>1204868 Да, иногда он работает лучше без всякого ризонинга. Так все сильно от сценария и действий зависит, большой квен может эпичнейшие фейлы ловить, самого себя на них инструктировать. Наиболее рофловый пример: В начале переписываешься с чаров через сообщения в телефоне, стиль и спам эмоджами отыгрывает хорошо, заранее подметив что это хорошо. Потом встречаешься с ним лично - в перерывах между фразами тяночка продолжает тебе написывать и слать персики, уже подозрительно но может типа такой прикол. Стало интересно куда это может зайти, в итоге оно не перестало слать сообщения даже в процессе ебли, когда чар был в наручниках и повязке на глаза. Ни одна из моделей на диске не повторила этот треш даже в том же загаженном чате после свайпов, сразу начинали описывать процесс нормально. А эта дура в синкинге вспоминает незначительный элемент из начала и на него триггерится. >>1205015 >>1205047 Сразу проход в илитарность оформлять на ерунду, таки глубинные обиды вырываются наружу. > нет ни одной причины его избегать Скорость, проблемные кванты. А насчет альфы - ею можно оправдать редкие недостатки, которые могут проявляться, а не ставить в минус. Объективно, эта альфа по уровню как стейбл жоры если не лучше. >>1205108 > Квантованного? Фп16, там мало контект потребляет. > антитеслошиз Такую херню только больной со смайликами мог придумать, земля пухом.
>>1205219 Бля, я думаю, автор, к которому ты обратился, имел в виду «2 4090 были вдвое дешевле 1 4090 48». 2 раза по 100 = 0,5 по 400. =) Другое дело, что 96 по 24 набрать становится уже тяжело — и слоты, и бп… Так что, да, одной только дешевизной не возьмешь, тут я соглашусь.
>>1205308 Тестил на квене 235б — разницы вообще не было. И мой знакомый собирал так же — тоже разницы нет.
>>1205487 Все еще путаешь контекст и генерацию? Ок. =) Выздоравливай.
>>1205556 > И мой знакомый собирал так же — тоже разницы нет. Как собирали-то, под шин? Очень хочется попробовать тоже.
> становится уже тяжело — и слоты, и бп… Так что, да, одной только дешевизной не возьмешь Угу. Типичный случай: в лучшей бытовой мп 4 слота, вставить хорошо если 3 можно. Больше уже - только всякие мангалы собирать, что прямо оче не хочется
>>1205521 У треда три состояния: срач за модели, срач за железо, срач за инференсы. Ну ладно. Есть еще четвертое, легендарного статуса, самое редкое - приходят добрые аноны и делятся контентом и находками. Кстати, господа кумеры, помогите выбрать обложку для карточки. 1 или 2?
>>1205567 Сцепились по пьяни и испортили всем праздник. И так каждую пятницу...
>>1205583 А никак. Как только вышло более 1 модели и более 1 приемлемого средства интерференса, срачи стали неизбежны. Железо раньше вроде уже было, но не такой выбор, с выходом всяких там 5090 да версий с 48 гигами срачи в железе тоже стали неизбежны. Это великий фильтр такой.
>>1205588 Не соглашусь. Это проблема восприятия, а не наличия выбора. Каждому подходит то именно то, что ему подходит. Зачем здесь все пытаются убедить остальных в том, что правы именно они - непонятно. Больше всего меня поразило, когда анон пришел поделиться радостью и прислал фотографию новой видюхи, и началась новая ветка срача: "а вот ЯЯЯЯ за эти деньги собрал бы три рига, еще и на ремонт осталось бы" Хз, возможно, весь Двач такой. Сижу только на этой доске и еще одной. Там люди спокойнее.
>>1205562 Не, оба под линуксы. Я поменял винду на линь по другой причине, но раз уж накатил линукс, то и ik_llama.cpp решил скомпилить. Позапускал с разными флагами, разницы не увидел с лламой. Ее я тоже билдил, кстати.
Это было где-то дней 6 назад.
>>1205567 Поорал. =D Так-то, деды тоже анимешники. =)
>>1205156 Тут как в жизни, для хорошего общения и грамотной речи человек должен обладать рядом знаний, навыками и кругозором. С быдло-обрыганом или инста-девочкой общаться быстро наскучит. >>1205574 > помогите выбрать обложку для карточки Освой генерацию в соответствующем треде и сделай лучше, обе - хтонь. Или зареквести там анимублядский более лоялен к такому, но на быстрый ответ не рассчитывай. >>1205623 > деды тоже анимешники Лагуна блейд тебе в анус, или что там постарше из мезозоя. > поменял винду на линь по другой причине > но раз уж накатил линукс, то и ik_llama.cpp решил скомпилить > Ее я тоже билдил Пикрел, только примазывание к линуксоидам. Про компиляцию ядра еще забыл написать.
>>1205045 >ей видите ли нужна libcudnn.so.8, а не libcudnn.so.9. оказалось, что всё проще. libcudnn на дебиане можно поставить и от тестинга и от стейбла в одну систему. В смысле они не переёбывают дерево зависимостей. Держу в курсе. Очень хочу на себя лицо приттика натянуть и посмотреть как бы я выглядел если бы мне повезло.
>>1205676 > Освой генерацию в соответствующем треде и сделай лучше, обе - хтонь Прямо сейчас осваиваю, я в этом мало понимаю. Именно такой стиль и нравится. Понимаю, что можно делать лучше (особенно глаза-руки, позы, заапскейлить мб), но там кажется, еще более поехавший тред. Лучше сам.
> Или зареквести там Плохая идея. Не хочу ни с кем связываться и, думаю, много карточек буду делать. Правильнее освоить самому.
https://civitai.com Иди там в картинки, ищи те что понравятся, снюхивай промпты и негатив промпты в свой свой комфи, тыкай и учись Качай там модели с нужным тебе стилем, у них так же есть рекомендуемые параметры генерации, тыкай их комфи и генерация будет лучше
>>1205699 Вот эта уже выглядит лучше. Апскейл подразумевается по дефолту, косяки чинятся инпеинтом, детализация отдельных частей повышается им же но в другом режиме. Обычно сначала роллится удачная картинка, а потом или просто апскейл-улучшайзинг, или исправление проблем и то же самое. Базы тут слишком много чтобы в двух словах описать. >>1205705 > Но в те треды ни ногой. Зря, если просить вежливо то в худшем случае проигнорят или какой-нибудь шиз что-то отпишет, обычно наоборот помогают. Особенно если совпадешь с их фетишами
>>1205709 Уже на Комфи и сижу. Лору натренировал на изображениях, что мне нравятся, ибо похожего не нашел. Но спасибо.
>>1205711 > Зря, если просить вежливо то в худшем случае проигнорят или какой-нибудь шиз что-то отпишет, обычно наоборот помогают. Что ж, может быть, если безнадёжно упрусь во что-нибудь - рискну. Буду иметь ввиду. Благодарю.
>>1205644 А сколько? Давай затестим, сравним уж. Может рил у меня хуйня какая. Скажи квант, железо и скорость, подберем че-нить.
>>1205676 Покекал, но уже более 20 лет на линуксе на серверах, сорян. Просто дома их не ставил. Нет, нахуя мне ядро-то билдить, тащемта. Ты сам-то не примазывайся, ньюфажина. =D
>>1205623 >Позапускал с разными флагами, разницы не увидел с лламой. Ее я тоже билдил, кстати. Я тоже заморочился и собрал. Разница есть, генерация быстрее процентов на 20 (15+ против 12+ т/с c нулевым контекстом), скорость промпт процессинга +- такая же, но: пересчитывается этот контекст по любому чиху. Вот с этой самой скоростью. Видимо такая совместимость с Таверной, а куда без неё? В общем неюзабельно.
>>1205795 >Тут промпт процессинг разный, а токен генерейшен одинаковый. У меня скорей всего упор в скорость рам идет на генерации, поэтому не увеличивается выше 20. В вот промпт процессинг можно до 90 поднять если указать гиперпотоки. С 8 ядрами только 81 максимум видел при разных тестах
Вот вам кстати кучу ключей на выбор -mla 0,1,2,3 -fa 1,0 -rtr 1,0 -fmoe 1,0 -amb 0,512,1024
Только все сразу перебором в бенче не запустить максимум 3 пик Там например запущено с такими .\llama-bench.exe -m B:\llm-all\Qwen3-30B-A3B-UD-Q4_K_XL.gguf -t 8 -r 2 -mla 0,1,3 -fa 0,1 -rtr 1 -fmoe 0,1 -amb 0,512,1024 только получилось что fmoe был выключен, его явно нужно включать почему то
>>1205799 >-mla 0,1,2,3 Это же только для Дипсика. Мало кто может это сделать(с) >-fa 1,0 >-rtr 1,0 >-fmoe 1,0 Вкл/выкл? >-amb 0,512,1024 "max batch size for attention computations". По дефолту он 0, видимо тоже для Дипсика? Ставил на 512, для квена разницы не увидел.
>>1205799 >В вот промпт процессинг можно до 90 поднять если указать гиперпотоки. У меня такое ощущение, что он чисто на mainGPU идёт. Ядра процессора вообще не напрягаются.
>>1205815 >Это же только для Дипсика. Работает и на квене, 3 вроде чуть быстрее >Вкл/выкл? Да, там так указывается >Ставил на 512, для квена разницы не увидел. У меня в пару токенов разница на чтение в +
>>1205819 Это ты как собрал так? С make что ли? У меня весь процессор забивает на 14 потоках, на 8 половину
Первый раз вижу что гиперпотоки увеличивают генерацию. Короче из иклламы выжал максимум, на 14 потоках пик1. пик2 лламаспп на 14 потоках. Попробую с куда завтра собрать, но уже чувствую жопу.
ладно, я тоже по квену мое 235б отпишусь за кум. Пишет хорошо. Действительно хорошо. В thinking режиме даже если ты пишешь ему "я тебя ебу" - он будет сначала думать дохуя, а потом выдаст многогранный ответ. Другое дело, что этото thinking режим съедает все плюсы от того, что это мое модель. Он думает по 600+ токенов. И это действительно становится утомительно ждать. Вывод один - нужны карты лучше и нужно больше карт
>>1205881 >Вывод один - нужны карты лучше и нужно больше карт Самое смешное, что вышло обновление Угабуги и там добавили поддержку Квена-234В в Экслламе-3. Врама мне хватило для загрузки 2,25bpw. Так вот: скорость генерации хорошая для таких размеров и QTIP-квантования, 10т/с в начале. Только вот UD_3KX с частичной разгрузкой в РАМ мне 12 даёт. Промпт процессинг небыстрый - заметно, как задачи переключаются с одного ГПУ на другой, и неоптимизировано - жрёт не весь паверлимит. Конечно быстрее, чем ГГУФ с выгрузкой в РАМ, но сильно медленнее, чем во второй экслламе. Короче пока недоделано.
А вы понимаете, что это значит? Почему они говорят о расположении текста со словами "близко" и "далеко"? Текст же последовательно идет. Сначала одно, потом другое. Вместо того, чтобы написать в каком порядке что вставляется, они пишут близко или далеко. Это программисты такие?
>>1205915 потом что енкодере/декодере слова представляют собой векторы в многомерном пространстве, а механизм внимания (тот самый благодаря которому существует нынешний прогресс в ллм), подразумевает близко/далеко ли находятся эти векторы в этом пространстве, объединяя их в области признаков (?)
Нужно писать типа "Придерживайся спокойного и легкого стиля. Легкий юмор и легкое беззаботное настроение. Оставайся в текущей ситуации. Не торопи события. Только настоящий момент. Сейчас Пупа и Лупа сидят на скамейке и разговаривают." - нужно подстраивать промпт под сцену, чтобы модель меньше стремилась все перевернуть к чертям собачьим, а то персонажи только сядут срать, как вскоре встанут и пойдут на рыбалку, поймают крокодила и сошьют сапоги, весело смясь и подшучивая, но понимая, что теперь с новыми сапогами они смогут пройти любой путь, полный приключений и свершений.
Посоветуйте модели для сторитейлинга и для ролеплея (это же одни и те же, или разные?). Обязательно чтобы хорошо умели в русский язык. Желательное с поддержкой tool call и запускались через ollama.
Это что за хуйня ещё? Вторую неделю юзаю этот ваш ЖПТ. Пиздел без остановки. В худшем случае попускали до версии 3.5 на три часа. Вчера он стал тупить, теряться в контексте, игнорировать общую память (хотя если спросить про её содержимое - то зачитывает). Сегодня вообще отправил несколько запросов на генерацию пикч (постоянно генерил не совсем то, что надо).
В итоге сообщений через 20 выдало вот такую хуйню. Это какой-то теневой полубан, или что? Что вообще происходит с ЖПТ?
>>1205929 Реально, не пизжу, нормальная. Например, когда завтрак, если диалог хуярить, реплики может сопровождать, отрезая кусочек оладьи или отщипывая полосочку бекона. Рутинную поеботрию при оформлении диалогаов хорошо костылит.
>>1205995 Aw shucks, lil' buddy, y'all look like yer 'bout ready to bust a gut! Ain't no need to be all tense an' riled up 'bout that there tongue-waggin' business. Heck, life's a real doozy, ain't it? Gotta learn to just kick back an' let 'er rip, ya hear? Ain't nothin' worth gettin' yer panties in a twist over. Jus' take a deep breath an' let them shoulders drop, 'fore ya end up all knotted up like a pretzel. Ain't no use workin' yerself into a tizzy over somethin' like that. Gotta learn to roll with the punches, ya know? Life's too dang short to be all wound up tighter'n a new pair o' boots.
>>1206046 У Skyfall и правда есть свои почитатели. Мне не слишком зашла. Это как Кидонька, но жирнее. Все те же проблемы, но немного охотнее ведет и разнообразит нарратив.
>>1206093 Как понимаю, ты на Кобольде сидишь? Насчет него не знаю, там своя имплементация через АПИ Кобольда. На Лламе и Экслламе снижение заметное, особенно с ростом контекста.
По поводу лоботомизации - нужно понимать, как banned tokens/strings влияет на сэмплинг. С определенными настройками сэмплера это может быть и не так заметно, но если у тебя еще используются другие "ковровые" сэмплеры вроде top k, то отупление крайне заметное.
>>1206104 интересно, что это контекстная реклама, поэтому вопросики к тебе, а не к абу. И кстати, какого это - быть лоботомированным дебилом в 2025 году? (я про браузер без адблока по умолчанию) сдается мне ты и есть четырехкопытный, решил "русню потроллить" своей тупостью
>>1205934 >запускались через ollama Любая модель gguf запускается через ollama. Можешь качать хоть сразу с обниморды Для советов ты дал мало инфы. Напиши свое железо. И хотя бы рпшишь ты или дрочишь
>>1206181 Если бы эксперты кидали бы свои семлеры в тред, а не только выебывались, и оп наконец то бы обновил шапку и обновил список моделей и добавил к ним семплеры, то таких бы постов не было бы
Сейчас уже и я кусатьсяначну. Не поздоровится тем, кто сэмплеры выпрашивает постоянно.
Держите пресет для Коммандера 32b: https://pixeldrain.com/l/xGFnT1PY Пробуйте оба, я не знаю, какой из них лучше: DRY & RepPen или DRY & XTC. Одним сэмплером для борьбы с репетишеном обойтись не получится, особенно с тюном Star-Command-R, поэтому только так.
Как до конца разберусь с карточками - буду заливать их туда же. Жду анона, что обещал прислать карточки взамен на пресет. Но совсем не обещаю, что ему модель понравится. Каждому своё.
>>1206115 >контекстная реклама Хуйню пишешь. Хохлы в начале войны скупили и скупают до сих пор кучу рекламы уровня "Сдавайся, Иван!", поэтому эта хуйня везде. И это главная причина почему на русском и не только ютубе нет рекламы
>>1206170 Выглядит как типичный грант лев_очка для попила. Не могу представить сценария где подобная реклама могла бы сработать, кринж вместо гуманитарки для людей.
>>1206192 >Обновляй Тяжело. Это надо всем тредом писать. По моему два треда назад был список по 22-32b моделям от анона. Нужно что б кто то еще список до 14b и до 72 (235)b написал, а после все скомпоновать
>>1205934 > модели для сторитейлинга и для ролеплея > хорошо умели в русский язык > с поддержкой tool call > запускались через ollama Жир >>1206046 Выглядят как шаблонная херь из мемов про накрутку. >>1206177 Надо попробовать, вот бы магнума на него >>1206193 > Сейчас уже и я кусатьсяначну Разрешаю укусить без спроса, но не сильно. >>1206202 В треде мелькают отзывы, есть содержательные и подробные, их просто собрать и норм. Может когда-нибудь дойдут руки запилить парсер треда на предмет их поиска Что касается списка - базовых моделей немного и можно придерживаться того же формата что и сейчас, а тысячи шизомерджей смысла перечислять нет, только несколько штук упоминаемых. Или делать отдельный раздел для мелкомерджей мистраля где будет список из десятков-сотен, а там уже пусть юзер сам страдает.
Аноны, это правда? У Meta похожую картинку встречал, но новая модель оказалась калом, пикрил от гугла так что доверия больше, но всё равно как-то слишком хорошо и думаю о подводных.
>>1206189 Я кидал, правда на квк и на гемму. Коммандер у меня жидко срал под себя. Единственный коммандер который не срал - Star-Commander. Но он просто хуже, поэтому уже удалил.
>>1206186 Вообще я хочу написать программу чтобы несколько сетей между собой общались и тем самым генерили крнтент. Там долго рассказывать, но идея вроде как годная. Железо у меня для разработки гейбук i7 2.7, 32 озу. Есть ещё десктоп, там не помню какой проц, что-то примерно такое же, 64 ОЗУ, видюха 4070.
>>1206179 Оллама очень важна тк там нормальное апи и оно сука сразу работает, без заёбов.
>>1206238 Бля какие тебе семплеры нужны на него? Вручную покрути просто. >>1206230 Говной пахнет, слишком уже сильно хочет быть ассистентом. А так да, текст чуть нажористей чем у того же коммандера и сноудропа.
>>1206262 >i7 2.7, 32 озу >Есть ещё десктоп, там не помню какой проц, что-то примерно такое же, 64 ОЗУ Попробуй https://huggingface.co/unsloth/Qwen3-30B-A3B-128K-GGUF. Это единственное что возможно будет работать с нормальной скоростью и не будет говном >видюха 4070 unsloth/gemma-3-12b-it-GGUF Попробуй это, она в русик может и картинки распознает. А так любой тюн старого мистраля 12b, в шапке посмотри. А также можно все до 14b
>>1206278 >лламацпп Да, но надо настраивать. Ему мб нужен просто бэк с нормальным апи, который сразу работать будет >кобольд Ой, бля >>1206280 А что там можно делать того, что нельзя в lmstudio? Ну кроме смены бека
>>1206255 Это же эло арены с непойми какими условиями и участниками, там что угодно можно нарисовать. Но при этом гемма3 в целом хороша в ряде применений от чего может быть в лидерах. >>1206262 > Почему жир? Потому что несочетаемое и будто надергал всякого мемного с тредов. Писать истории/рп могут любые модели с разным качеством, ты не указал свое железо и хотелки. Иногда лучше это делают тюны разного качества, но в большинстве случаев они лоботомируют модельку. Функциональные вызовы есть считай в любой современной модели, но это не совместимо с последним. Оллама - подзалупная обертка llamacpp с кучей проблем и сложностей вместо "нормального апи", функциональные вызовы там работают через жопу и заявлены формально. Нормальное продвинутое апи - табби, или от того же дева есть для жоры. Начни с какой-нибудь геммы 12б, она неплоха, имеет документацию будет помещаться в врам и сможешь наладить основное. Потом уже смотреть в сторону большой геммы, квена, коммандера, glm и прочих. >>1206278 Ебать ты кобольд
>>1206262 Обычный оркестратор, пайплайн, можно n8n посмотреть, или что угодно, самому написать.
> Оллама очень важна тк там нормальное апи и оно сука сразу работает, без заёбов. Строго говоря, как раз оллама не «нормальное» апи, и работает сразу очень условно. Лучше выучить команды запуска (не супер сложно, поверь), и запускать llama.cpp или exl2/exl3 через tabbyapi.
Оркестратор подключается по стандартному OpenAI-like API и делает что хочешь.
Из моделей для сторителлинга и рп для русского, по стандарту: Saiga-Unleashed Neverending Story Instrumentality One-To-Rule-Them-All-MN-12B Darkness-Reign-MN-12B
>>1206193 > Жду анона, что обещал прислать карточки взамен на пресет. Пребываю в алкогольном делирии. Ориентировочная дата выхода - завтра. Заодно и пресеты посмотрю и карточки скину. Ничего не забыл, все помню. Пока пилил ванилу, меня унесла слоп река
>>1206303 Есть мнение что перечисленные в длинном списке модельки - посредственный компиум с точки зрения конечного перфоманса и слишком лоботомированы для выполнения четких инструкций или тем более чего-то продвинутого. Для рп поиграться норм, то что-то из них делать - мрак полный.
Такс, ну слонировал я ваш tabbyAPI. Запустил start.sh
> ModuleNotFoundError: No module named 'uvloop' > This error was raised because a package was not found. > Update your dependencies by running update_scripts/update_deps.sh
Ок, запустил update_scripts/update_deps.sh
> Dependencies updated. Please run TabbyAPI with `start.sh`. Exiting.
Запустил start.sh
> ModuleNotFoundError: No module named 'uvloop' > This error was raised because a package was not found. > Update your dependencies by running update_scripts/update_deps.sh
Ага, этому пидору нужно uvloop установить. Ясно, что установить нужно в вирутальное окружение. А как же у нас venv запускается? Делаю
> ERROR: Inference dependencies for TabbyAPI are not installed. > Please update your environment by running an update script (update_scripts/update_deps.sh)
Ещё раз вызываю скрипт апдейта. Снова запускаю. Опять ошибка
> ERROR: Inference dependencies for TabbyAPI are not installed. > Please update your environment by running an update script (update_scripts/update_deps.sh)
Короче говоря идите вы жопу, члены пердольного клуба любителей пердолиться в очко. Ollama у меня запустилась прямо сразу, а тут ебучие зависимости нужно резолвить вручную. Нухай и в пизду.
>>1206330 Тогда ничего страшного. Стоит в начале освоить промтинг и общее использование, понять как модели реагируют на разные инструкции, отладить общую схему чтобы работала корректно, а уже потом усложнять сценарий и улучшать качество описаний. Начни это с использованием геммы 12б или qwen3 14b, ванильные без тюнов. Они может и не дадут самого красочного описания, но будут работать адекватно и корректно, а не шизить как мерджи мистраля. >>1206347 Вроде линуксоид но не прошел интеллектуальный ценз. Ебись с олламой, всеравно потом придется пересажиться на что-то нормальное, лишь испортишь себе нервы и экспириенс гадая что же там серит, или как поменять примитивные настройки. >>1206358 > на винде было просто На прыщах сейм.
Гонят на кобальд, а потом новички обмазываются олламой. Да лучше бы он кобальд скачал и пошел вики его шерстить. Потому что в остальных бекендах уже слишком сложный вход для новичка.
>>1206358 Я буквально каждый свой шаг начиная с клонирования репы описал. Хз что не так. Мне иногда кажется что у меня какая-то аура не та. У других всё работает, а у меня то проект не собирается, то репа отваливается, то хуй знает что.
>>1206361 > Вроде линуксоид но не прошел интеллектуальный ценз. Какой в жопу ценз, вот что я не так делаю? Почему у всех работает, а у меня не работает? Я кстати сейсас на маке пробовал, к машинам с виндой и линуском доступа нет. Разве что может виртаулку с линуксом поднять, но хз.
>>1206368 > что я не так делаю? Почему у всех работает Как правило, в таких случаях там что-то совсем простое или странное. Что же до твоего случая: > на маке пробовал и на что вообще рассчитывал? Эксллама, и соответственно табби, дружат только с кудовским или рокмовским питорчем, на маке не взлетит, как и 99% подобного софта. Смысла поднимать линукс тоже никакого ибо железо совсем левое. Конкретно в этом случае тут вообще проблема в отсутствии конкретного модуля или его версии под маковский пихон, это норма.
>>1206385 Жора - llamacpp изначально разрабатывался под мак. Оллама - всего лишь всратая обертка жоры, в которой весь дизайн крутится вокруг философии простого первого запуска, а все остальное принесено в жертву. > недоступные разработчикам других беков Беков единицы - трансформерс, llamacpp, эксллама, афродит, и уже более редкие/старые. На маке (нормально) работает только жора, который под него делался, все. А обертки с интерфейсами собрать - не проблема. Так вообще весь эффективный и производительный инфиренс в нейросетях и ллм в частности - линукс и куда, самое популярное работает и на шинде.
>>1206484 Попробовать рп - да, если не искушенный то испытаешь восторг. А для задач, связанных с выполнением инструкций, следования контексту и тем более чего-то более продвинутого - слишком лоботомиты. Будет фейлить по ерунде из-за чего не получится реализовать нормальное.
Только начал играться с таверной поэтому нихуя не знаю. Скажите, свайпы как-то влияют на работу? А то я люблю посвайпать ответы ища наиболее интересные. И еще вопрос: в таверне можно что-то вроде ГМ прописать, который не только сюжет ведет, но и проверочки назначает, мобов с циферками прописывает?
>>1206555 > Скажите, свайпы как-то влияют на работу? Да, они позволяют найти более интересные ответы. Можно еще редактировать сообщения, исправляя то что не нравится или собирая из нескольких свайпов хороший ответ. > таверне можно что-то вроде ГМ прописать Нет (да). Есть адвенчур мод, где немного меняется формат, также потребуются другие промты ибо стоковый неоче. Есть возможность делать мультизапросы средней костыльностью с помощью плагинов, например stepped thinking. Есть регекспы в том числе на рандом. Построение системы довольно неудобно, но нечто сделать можно. Также функционал лорбука можно адаптировать под нужную модификацию промта. Под циферки есть аддоны (костыльный ужас), или можно заставить ллмку мониторить эти статы.
>>1206556 >Да, они позволяют найти более интересные ответы. Можно еще редактировать сообщения, исправляя то что не нравится или собирая из нескольких свайпов хороший ответ. Я имел ввиду не засирают ли они контекст или что-то вроде такого. >Нет (да). Сложно ли вообще заставить ллм следовать четким правилам и работать с циферками?
>>1206193 Эти семплеры для exl3 работают? Вообще как понять что работает? Я вот выбрал n сигму т.к его не было изначально и хз поддерживается ли он таби
Котаны, я верно понял, что по факту ультимативной модели для кума сейчас нет, и надо под свои вкусы экспериментировать с разными? Или таки что-то из протухшего списка в шапке актуально? Многое оттуда попробовал из моделей 22B-27B, ничего не показалось однозначно лучше других.
>>1206579 >>1206580 Спасибо, сейчас попробую. Пока что показалось, что chatwaifu 22B более-менее приличный РП выдаёт, хотя и не принципиально отличающийся от коллег по весовой категории.
>>1206562 В контексте только те посты, которые видишь. > Сложно ли Easy to lear, hard to master. > работать с циферками Вот это неоче. >>1206564 Часто в апишках семплеры не сем бек обрабатывает а внешний контур (например HF версии в убабуге), потому поддерживаются все, работают хорошо и не зависят от бэка. >>1206571 Да. Кому-то нравится мистралеслоп и шизокарточки, кому-то логичность и детальность геммы, кому-то слог qwq или кум коммандера. В качестве ультимейта можно посоветовать магнум на лардже, но все равно его не запустишь.
>>1206598 Лардж - это который на 123B? Теоретически могу, т.к. под рукой есть 256Гб RAM и 32 ядра, но он поди слоупочный на CPU и надо будет поебаться с настроечками лламы/кобольда для оптимизации?
Любители русика и кума - коммандер же ваш святой грааль, не? На английском тут цензуры - НУ ВООБЩЕ НЕТ, модель славилась своим русиком до геммы, так чего сидеть на соевом говне ради чуть лучшего русика?
>>1206600 Слишком слоупочный на проце, не стоит. Даже не сможешь его оценить, ведь он не даст вау эффекта слащавыми и чрезмерно детализированными описаниями в первых постах как некоторые. Насколько ахуенен понимаешь, когда замечаешь, что он единственный может сохранять правильное поведение и учитывать карточку, контекст и прочее даже после множество произошедших событий. И делать все точно, а не плодить копиум по ассоциациям на 5% контекста, прикидываясь умным. Тут бы хотябы 5-10токенов иметь, тогда будешь рпшить на одном дыхании наматывая сотни постов, только иногда отвлекаясь на суммарайз. >>1206602 Командер хороший, но на гемму говорить > на соевом говне признак неосилятора
>>1206612 Каждый желающий может конвертнуть в exl3. Проблемы будут только с огромными мое потому что там широченные слои, что не влезут в консумерские гпу. Хотя сейчас можно использовать мультигпу прямо при квантовании, может это не только ускорение дает.
>>1206613 >>1206604 Даже не надейтесь что он не проебет мозги, это анрил. Немотрон хорош тем что он вот вот дотягивается до 70б, файнтюн его опустит до 32б
>>1206615 Никто на чистой 70б Лламе не играет. Только тюны. Да, может и поглупеет чутка, но зато не придется играть с ассистентом, который притворяется, что он персонаж.
>>1206620 > Что это вообще значит? То, что у модели bias на ассистента, который прямым образом влияет на то, как ведут себя персонажи. Это же писал анон, который прислал свой пресет, много логов и написал полотно про Немотрон. Выходит, мы с ним биба и боба?
>>1206617 Ллама 70 совсем уж сухая и не может писать/сочинять, но текущие модели с этим хорошо справляются. Лоботомирует или нет - хз, может окажется еще сносно, но надежд не так много.
Попробовал немотрон с пресетом анона, хз что я делаю не так но он просто сосёт в куме. Буквально описывает блоуджоб в одном предложении уровня "она начала, она закончила и вытерла рот рукой" и двигает сюжет дальше. В то время как всё остальное, даже гемма наверное, опишет какой у меня толстый член, как его обхватывают рукой заглатывая яйца и тд.
Попробовал Qwen3-30B-A3B в llamacpp в этот раз эта MoEта заработала, и даже выдала 9.12 токенов в секунду, а я уже привык к скоростям в 3 т/с. Вот только если вчитаться, бредогенератор тот ещё. Слова вроде складываются в осмысленные предложения, но на деле выглядят как сомнабулический поиск неведомого Кадата и наносят неиллюзорный урон психике и здравомыслию. 3B, что сказать. Хотя не всё так плохо как показалось на первый взгляд. Также либерально относится к настройкам семплеров, не то что неженка-снежинка коммандер.
Рано обрадовался, перейдя планку в 4к контекста оно тупо сломалось. По видимости дело в UD кванте, обычный K_M нормально продолжил, хотя и с на треть меньшей скоростью, хорошо что две версии скачал.
>>1206650 >Также либерально относится к настройкам семплеров Оно вобще то работает только на рекомендованых хорошо, а на остальных щизеет как у тебя. Вроде самый важный топ_к 20 Хз, у меня норм на 14к отвечает
>>1206735 Схватили за яйца - начал крутиться. > Щас потестил не тюн и действительно зря его не включал На первом пикриле ризонинга нет, на втором есть. Присылаешь пикчи к посту, где делишься своими впечатлениями.
>>1206739 Если ты пришел рассказывать про базовую модель - покажи логи с базовой модели, а не чужие логи с тюна. В чем содержательная часть твоего поста? Немотронофаг уже на уровне свидетелей Геммочки.
>>1206754 Да и Немотрончик не виноват, что ему на борде достался один единственный фанат, который дрочит на мушоку тенсея и не может в причинно-следственные связи...
>>1206789 >Qwen3-30B-A3B-UD-Q4_K_XL.gguf Я 15 числа качал у меня вроде норм работает, но я его на llama.cpp кручу cpu версии Но у меня там чисто рекомендованные семплеры
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный Не совсем актуальный список моделей с отзывами от тредовичков на конец 2024-го: https://rentry.co/llm-models
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: