В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, бугуртим с кривейшего тормозного говна и обоссываем калотарок.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1111642 → Там смотри какая штука. История влият на персонажа в целом. О чем с ним поговорить, как он ведет себя в беседе. Если для тебя персонаж это дырка которая говорит "Да еби меня сильнее" да картинка из нейрогенератора. То проблем нет, не стоит даже заморачиваться. А вот если все таки тебе нужна история и взаимоотношения, то придется потратить время на составление сначала общего анамнеза персонажа, а потом вперед. Пейсать.
>>1111557 → >И чувак с 3080 за 150к, я тебя помню! =') А меня с 3080Ti за 155 уже забыли? ((( >>1111567 → Контекста конечно же. Контекст 16к, ответ согласно своим предпочтениям, я ХЗ, на сколько ты ролеплеишь. Но большинству хватает 512. Учти, ответ резервируется в общем контексте, так что бездумно ставить там 9000 не стоит. >>1111574 → Ну в общем-то шакальные подделки на генераторах картинок делали и тогда. Менее когерентные, скорее наркомания, но была. >>1111617 → >48 гигов это не хуй собачий в некоторых задачах. 32 и 48 не такая большая разница, чтобы покупать перепай с кривыми дровами. Вот ради 96 уже можно было бы подумать, но тут мне кажется уже чип и шина поднасрут. >>1111636 → Заголовки аля макдаун всё же стоит выделить.
Наконец-то разобрался в этом кобольде ебучем, таверне, слоях GPU и прочем кале. Теперь всё прекрасно работает на двух 1060, с "приемлемой" скоростью, со стримингом если параллельно читать то даже не терпишь особо. Нет ли какого-то способа заставить нейронку работать в пределах выставленных токенов, потому что сейчас она чаще всего срёт тупо на все токены, иногда ей их даже не хватает и фраза обрывается к хуям. Единственный кто работает идеально, это нейротесетевой Жириновский.
>>1111656 >заставить нейронку работать в пределах выставленных токенов Пиши сам односложно. Редактируй ответы нейросети, делая их короче. Убери из промта всякие "детальные описания", и сам их не требуй. А то просят описания вытекания спермы на 9 абзацев, а потом удивляются, хули 64 токенов ответа не хватает.
>>1111660 Мне не хватает 394 токенов. Ну в общем, я упёрся в системный промпт который мне теперь нужно редачить. В любом случае доволен, особенно Жириновским. Каждому рекомендую с ним попиздеть, главное не пытайтесь его совратить, это грех аноны.
>>1111654 > 32 и 48 не такая большая разница Понимаешь, все довольно относительно. Так-то между 32 и 24 отличия ерундовые, лишь треть, но на практике это открывает много возможностей и полноценную тренировку многих моделей популярных размеров, или запускать какой-нибудь инфиренс. А тут уже отличия оче серьезные, и перфоманс 4090. > с кривыми дровами Врядли там будет больше пердолинга чем с 5090, оказывается он не всем заходит и может быть неприятен. > перепай Вот это главный пиздец, одно дело новье из магазина (к тому же быстрее), а другое - поделка сумрачных китайских гениев. > 96 Хотелось бы увидеть ее устройство и какие там чипы, а то больше вбросом попахивает. Но в целом, 96 на таком чипе это уже конкретно оверкилл, модели что туда помещаются будут трениться вечность, если у тебя не стак из 8 штук. >>1111656 Напиши где-нибудь в инструкциях "отвечай максимально кратко" или вариацию этого.
>>1111669 >и перфоманс 4090 У 5090 вроде выше, особенно по шине. >Врядли там будет больше пердолинга чем с 5090 Чем дальше, тем его будет больше. Всё таки у 5090 офф поддержка.
>>1111648 >История влият на персонажа в целом... как он ведет себя в беседе Ну вот этот тейк для меня выглядит неправдоподобным. Поменяет ли история контекст? Да, в частности в ответах может возникать что-либо имеющее отношение к истории. Влияет ли эта смена контекста на персонажа и его поведение в беседе? Весьма сомнительно, за исключением подкрепления каких-то черт, если они используются в истории. Ллмка - это не какой-то супермозг, который просто по бэкстори что-то там додумает, как персонаж будет себя вести. Ну если мы говорим про 100б+ модель, то возможно, что она и подцепит из скудного наличия в датасетах таких историй подобные связи. Но мы же о 12б говорим, я уверен, что ей будет почти полностью срать на подобный сдвиг контекста в плане отыгрыша перса. Ну и отдельный фактор для меня лично, что я хочу, чтобы нейронка мне сама придумывала и генерила истории и реалистичное поведение персов на основе скудных данных, а не слегка дописывала в нужном ключе на основе простыни, что я ей выдал в качестве примера (дохуя хочу, да). Если бы я сам умел мини-историю написать, то я тогда сидел бы и в блокноте её или рп дальше продолжал, чего бы нет. Было бы лучше, чем предсказуемый ответ лоботомита с косяками в логике.
>>1111691 >Чем дальше, тем его будет больше. Всё таки у 5090 офф поддержка. Всё одно это всё фигня. Даже 32гб врам это мало. И 48 мало. Я не устану повторять - для нынешнего железа разумный предел по цене и количеству видеопамяти - риг до 4 карт. И туда влезут модели до 123В. Всякие дипсики - это уже следующий уровень по железу и тут ничего не поделаешь, так же как уже очевидно, что это следующий этап развития локалок. 400В минимум - всякие Лламы и Гроки. И даже для генерации видео 32гб мало, если не устраивают 30-секундные ролики. 5090 для ИИ ни о чём, даже для современных больших локалок их нужно минимум две.
Какое же новый пантеон гавно, никакого сравнения с Pantheon-RP-Pure-1.6.2-22b, ему ещё и контекст убили - формально стоит как у всех мистралек, а на деле после выхода контекста за 8К каждые 1-2 сообщения полностью его пересчитывает.
Бля, даже Гемма кумит лучше Пантеона, пикрелейтед гемма 27, а пантеон был буквально "ты её ебёшь", ещё и залупился.
>>1111768 >Но мы же о 12б говорим, я уверен, что ей будет почти полностью срать на подобный сдвиг контекста в плане отыгрыша перса. Отсюда только шаг до идеи, что промпт вообще ни на что не влияет, и 12b по любому не понимает лорбука и прочего, так что все это можно опустить за ненадобностью. Опыт использования 12b однако говорит слегка о другом, а именно, что нейронка не может адекватно играть роль, не переигрывая, и чем подробнее расписан "характер" персонажа, тем хуже обстоит дело. Но что касается фактов из лорбука и хистори, то 12b вполне способна с этим разобраться, и чем новее модель, тем лучше, например, гемма 3 отлично ориентируется в лорбуках. Если закрыть глаза на переигрывание и неумение в правдоподобный отыгрыш, то фактологическая сторона отыгрыша может быть терпимой.
>>1111691 > У 5090 вроде выше, особенно по шине. Конечно выше, в контексте домашних ригов шина больше роляет что можно безболезненно х8 делать. Там боле псп памяти и операции с дробными точностями, всякие квантованные не-ллм быстрее работают и не нужно размениваться на фп8 ради скорости. > Чем дальше, тем его будет больше. На их жизненный цикл условной куды 12.6 или что там по дефолту - хватит. >>1111772 > Всякие дипсики > это следующий этап развития локалок Раздутое мое ради раздутого мое. Это не другой уровень, это прежде всего демонстрация подхода, который применим в случаях, когда доступна большая скорость и задача благоволит, а не мана небесная. Будущее локалок как раз за плотными моделями, которые позволяют наиболее эффективно задействовать имеющееся железо, а разреженные - костыль для определенных случаев.
>>1111791 >She remembered her mother saying a well-executed oral pleasure should be an art form. Бля как ты на эту хуйню можешь балду гонять, я вот понять не могу.
>>1111645 (OP) https://spicychat.ai как здесь увеличить объем текста который мне выдает чарактер в ответ? Мне в ответ нужно больше текста, мне мало того текста, который они выдают в ответ за раз! Там что-то в настройках крутить нужно, но я не разобрался, помогите разобраться. с любовью Ананас
>>1111643 → Так не я же, я сослался на того, кто начал выписывать. =) Все вопросы к нему!
>>1111654 В деталях не помню, честно. =) В общем, что было пару человек, которые люто переплатили в свое время, по понятным причинам (я-то сам не переплатил за десктоп тогда потому, что взял ноут с 3060).
> шакальные подделки на генераторах картинок AnimateDiff что-то могла, но там сильно много шагов всяких, и качество было ну такое себе. Плюс, знаний в моделе было мало, и даже лоры с трудом вытягивали. А сейчас все стало сильно лучше. Опять же, вот тебе и пруф оф прогресс. =)
С тех пор, как постиг хуньюан, я к анимейтдифф просто не возвращался.
>>1111645 (OP) мне кажется кто-то в прошлом треде жаловался, что его фото/видео в ОП пост не добавляют... Моя-то сборка уже была в ОП-посте и не раз. ну шо же ты ОП... владелец ОП-пика
>>1110503 → >И, если не сложно, не мог бы ты залить оба биоса куда-нибудь? да ок. Попозже. Ну, ты сначала покажи какая ревизия платы у тебя.
Ладно посидел с вами годик и ничего прорывного так и не вышло, сливаю свою 3090 на авито и ухожу на подписочный 680б нейрокум. Русик очень нравится, сильно влияет на погружение, и тут дело не в том что я английского не знаю, всё же я не джон и словечки типа ШАЛУН, НЕПОСЕДА, СОРВАНЕЦ ебаный шашлык всё же как то трогают мою русскую душу, а на англ было бы просто "naughty"
Анон, в обзорах дипписика в3 0324 пишут, что он работает на MacStudio со скоростью 20 токенов в секунду. Но это же обычный ARMовый компьютер с 128 Гб памяти в самой топовой конфигурации. Как они вообще туда затолкали модель со 681B параметров?..
>>1111922 >Опять же, вот тебе и пруф оф прогресс. =) С одной стороны да, с другой что то говно, что это. До качества на подрочить (набор отрезков по минуте хотя бы) мы (локалкобоги) всё ещё бесконечно далеки.
>>1111944 >мне кажется кто-то в прошлом треде жаловался, что его фото/видео в ОП пост не добавляют Стоп. Это разве не ты был? Там линк был... Впрочем фотки с треда сохранены и поставлены в очередь, будут потом.
Вопрос к шарящим. Есть два стула. Первый - ASRock B550 Steel Legend где вроде два разъёма работающие с двумя видюхами как PCIe 4.0 x8/x8 (если верить deepseek) и второй - GIGABYTE B550 AORUS ELITE V2 где есть ТРИ разъема под видеокарты но они работают на 2 слота x16 (первый — PCIe 4.0 x16/x8, второй — PCIe 3.0 x4, а третий слот слот на x1. (если верить deepseek).Так что, что бы из этих двух вариантов вы выбрали? Ну или предложите ещё варианты, но до 20к деревянных.
>>1112129 У них же эта пара карт стоит 660к. Нужна ли тебе их странная сборка за такую сумму - решай сам. >>1112136 > где вроде два разъёма работающие с двумя видюхами как PCIe 4.0 x8/x8 Там даже по фотке видно что только 4 линии во втором разъеме распаяно. С бифуркцией на б550 существуют только топ от жопокамня и гнилобит-вижн, все. Они редки и стоят дорого. > если верить deepseek Не прошел интеллектуальный ценз
>>1112136 так что, теперь, если я хочу 2-3 видюхи себе вы комп вставить за этот прайс? Брать любую 2-3 слотовую, поскольку разницы нет в таком ценовом сегменте или вообще лучше не проёбывать зря деньги на вторую видюху, поскольку профита от этого на таких материнках будет мало?
>>1112300 А схуяли они должны быть хороши? Это модель для рассуждений и зерошотов, а не для РП. >>1112304 Для двух бери любую, моя ASRock B650e Steel Legend имеет два длинных слота с проца (второй правда в позорных PCIe 3.0 x4, но и этого хватает), и ещё можно взять пачку с чипсета (через переходники с NVME).
Какая модель максимально литературно пишет и имеет самый богатый языковой запас на английском языке до 32b? В идеале это должно быть что-то уровня тюнов Гутенберга или DavidAU, если хоть немного слушается инструкций, а не фулл нарраитор, который не может в RP: игнорирует систем промпт и всегда пишит за юзера, хоть усрись.
Кум не интересует — это может быть и оригинальная модель.
Гемму щупаю до сих пор и пока что непонятно. Вроде бы у неё довольно высокие языковые навыки, но пока что не могу до конца настроить: она либо ударяется в излишнее графоманство/сухость. Нужно очень детально описывать, что я от неё хочу (форматирование, в каких случаях какой язык использовать), так как она крайне чувствительна а систем промпту, а времени пока нет. Тюны ведь, как правило, из коробки уже имеют определённый встроенный стиль.
Есть весьма качественные файнтюны 12b на эту тему, которые дают пососать всем типичным 24-32b для обычного RP, но у 12b всё-таки мозгов мало. Красивый язык нивелируется общей тупостью и слабым вниманием к контексту, плохому соблюдению инструкций, склонностью к шизопастам на 2000 токенов и лупам.
Если есть модели подобного толка, но бо́льшего размера и чей экспириенс выше хотя бы на 20% по сравнению с 12b, я хотел бы их пощупать.
>>1111768 Я говорю про 30b~. А если уж заикаться о чём-то вроде Клода, ну ты понял..
Но сейчас о 30b.
Да. Модель действительно подхватывает историю персонажа, даже если ты не дал почти инструкций относительно того, как он должен себя вести. Хотя всё зависит от размера модели, конечно.
Иначе говоря, если ты хорошо описал его бэкграунд, то модель подхватит это и будет отыгрывать персонажа довольно достоверно, подберёт ему стиль речи соответствующий и всё такое даже без примеров диалогов и прочих указаний. Просто биография и базовые характеристики.
Если брать 12b, то там нужен бэкграунд и дополнительные инструкции в нагрузку ещё, возможно, примеры диалогов. Там уже всплывают проблемы с контекстом, так как на него часто кладется большой болт, а если растягивать анус до 16-32к, модель может сломаться, так как файтюн не тренировался под такую длину.
Что иронично.
Ведь 12b изначально идеальные кандидаты для любителей 62к контекста.
Слушайте, а заметки автора жрут контекст? Потому что у меня когда авторс ноты дошли до 7к токенов, оранжевая полоска контекста начала появлятся чуть ли не после второго сообщения, хотя после обновления страницы с таверной она оказывалась намного выше. Это какой то баг или я что - то не понимаю?
>>1112507 Даже ссылку не открывал. Поебать, сколько там врам, коробочка там от хуанга или от яблока, ноутбук или вообще планшет ебаныц. Они только моепарашу запустить могут и хвастаться, что у них приемлемо токенов на нулевом контексте.
Пусть лламу 405б или 70б запустят хотя бы в 10 токенах на контексте 36к, вот тогда я охуею и побегу покупать. А жрать говно на двух токенах в 8к контексте я не заинтересован.
>>1112389 >слабым вниманием к контексту Перегенерируй ответ, пока не понравится. >склонностью к шизопастам на 2000 токенов и лупам. Скорее всего что-то напортачено с настройками, промптом, токенайзером или с чем угодно еще. НемоМикс 12б гоняю, пока заебато.
>>1112516 Ага. Регенерируй, пока он шизеть не начнет. Это особенно актуально для креативных моделей.
А обычный немомикс не даст такого уровня литературного текста. Здесь нужно что-то получше.
Те модели, которые генерируют по 2000 токенов, абсолютно неконтролируемые. Их надо останавливать вручную, просто ограничивая кол-во токенов на вывод или адски задрачивая их сэплерами и всем, чем только можно. Потому что они тупо тренировались на каких-то неебических корпусах.
С ними возможно рп, но сложно. Приходится половину текста удалять.
Интересную мысль поймал. Ллмка может смотреть насколько текст в контексте был непредсказуем для нее же самой. И в процессе обучения она тоже это делает.
>>1112389 >Негативный биас приветствуется. Кстати, кто что посоветует добавить в системный промпт для геммы чтобы повысить негатив? Её позитивизм начинает раздражать.
>>1112599 ЛМКа не может понять предсказуемость текста, она не так работает. Это все матан вероятностей. Не текста, а цифр. И что действительно для неё будет непредсказуемым, так это два несочетаемых токена от разных слов.
Обновили deepseek, вот уроды. Я не знаю, что там стало лучше, но для меня это стало намного хуже. Если кто помнит, я использовал его для массовых переводов. Теперь он то забывает мои указания, то вставляет совершенно лишние, хотя ему никто этого не позволял. То есть он стал как-то более неуправляемый. Успешные результаты которые я получал раньше, теперь не такие успешные. Лучше бы они выпустили обнову через год...
Перелопатили ему мозги в худшую сторону. Жаль нельзя вернуться на старую версию, хоть бы оставляли такую возможность
>>1112714 >Вархаммер - помойка Обидно или нет. Я еще не решил, человек-тварь. >>1112714 >Фикси промпт. На странице модели неплохой, лупов не обнаружено. Мистраль всегда славилась лупами. Она лупилась как блядина, порой на ровном месте. Я шарю за это дерьмо, я все версии ционьки, пантеона и самой мистрали долго тыкал. Вот я и спрашиваю : Что там с лупами ? Потому что гемма, будем честны, вообще не лупится, прям совсем. Что вызывает щенячий восторг.
>>1112717 >Мистраль всегда славилась лупами. Она лупилась как блядина, порой на ровном месте. Я шарю за это дерьмо, я все версии ционьки, пантеона и самой мистрали долго тыкал. Какую именно мистраль ты тыкал, уважаемый? Сижу на 12B с момента её выхода, перепробовал много разных шизотюнов и шизоспаек, ни в одной не встречались лупы. Иногда мог протекать один и тот же шаблон в ответах, но после первого же перекрута от него можно избавиться, даже не трогая семплеры.
>>1112793 Видимо, ты из тех, кто не замечает повторов у ллм. Хорошо, если немо не начинает из прошлого же сообщения чуть ли не предложения целиком тащить. На русском всё совсем печально. мимо
Можно какой-нибудь из экстеншенов таверны использовать для контроля за одеждой персонажа? Чтобы он к каждому новому сообщению закидывал типа [char.Одежда]: Кружевное белье (бюстгальтер и трусики)?
>>1112793 > Какую именно мистраль ты тыкал, уважаемый Сударь, сообщаю вам, что имел знакомствоъ с двумя прошлыми итерациями. И с огорчением сообщаю : к сожалению Лупъ слишком часто меня навещал. Отчего моё, уже не молодое сердечко, шалило.
>>1112817 > На русском всё совсем печально. В голосяндру. Может проблема не в Мистрале, а в том, что вы на русском рпшите? Чему удивляться, что все по пизде идет? тожемимо
>>1112817 >Видимо, ты из тех, кто не замечает повторов у ллм. Хорошо, если немо не начинает из прошлого же сообщения чуть ли не предложения целиком тащить. На русском всё совсем печально. Ну с геммой тоже не всё гладко. Она любит зацикливаться на повторении какого-нибудь описательного предложения: "Музыка продолжает играть", "Тиканье часов нагнетает напряжение", "В помещении становится всё тише". Ставлю Repetition penalty в 2к и норм.
>>1112828 Братан тредов 15-20 назад, там перманентный срач был : как заставить мистраль перестать лупиться. И постоянно повторение одного и того же окончание. Повторение структуры диалога, повторение фраз, паттернов.
>>1112817 >Видимо, ты из тех, кто не замечает повторов у ллм. Да, прикинь. Стабильно, почти каждый день, на протяжении года гоняю нему и не замечаю повторов. Тут выбирай, в какой из вариантов тебе удобнее верить - либо я шизик, либо лупов там нет.
>На русском всё совсем печально. Лол, оказывается мелкие огрызки предыдущих поколений не могут в языки, отличные от английского. Кто бы мог подумать.
>>1112823 >И с огорчением сообщаю : к сожалению Лупъ слишком часто меня навещал. В вашем случае, это не лупъ, уважаемый. Это делирий. Попейте таблеток.
>>1112834 >Братан тредов 15-20 назад, там перманентный срач был : как заставить мистраль перестать лупиться. Щас бы на нашем-то веку по тутошним срачам качество моделей определять. Повод для срача можно высосать из любого пердежа. Немотрона и тюны на его основе юзает по ощущениям треть всех локальщиков, банально потому что он влезает в бытовые карты и идеально держит баланс между мозгами, креативностью и требованиям к системе. Если бы проблема лупов была повсеместной, её бы обсуждали каждый тред у нас, на реддите и других помойках. Так что очевидно, проблема лупов - это проблема меньшинства, которые либо какие-то совсем отбитые модели катают, либо не могут разобраться с ограничениями на повтор.
Натыкался на лупы, но чаще всего это было следствием кривизны промта и/или настроек, то есть моей собственной виной и успешно решалось правками промта и изменением настроек, что на мистрали, что на гемме, а также свайпом. На русском.
>>1112872 Про настройки сэмплера за пределами температуры и min a, min p, видно, не слышал? Ох уж эти незнайки..) Если вам лень разбираться - крутите копросетки.
>>1112944 О, моё любимоё, проход в элиту. Никто же не знает про настройки, нигде же не почитать, один ты обладаешь великим знанием. Ога. Мне в исключения все токены, что меня бесят добавлять ?
>>1112950 Понятия не имею зачем ты лаешь. Не нравится - пройди мимо. Ты уже все решил, один хуй тебя ни в чем не убедить, да и ты того не стоишь со своими заходами. Как грится, это сделано не для тебя и не для таких как ты. А знающие кайфанут.
>>1112961 >Не нравится - пройди мимо. Кто сказал что не нравится, я указал на объективные проблемы, которые стали мемами. Но у тебя НИЧЕГО НЕ ПРОИСХОДИТ. Я не знаю зачем ты продолжаешь из себя строить хуй пойми что, но дело твоё. Сиди сам себе и надрачивай, если даже обычная шутка для тебя тригер какой то неумелости, лол. ~nah.
>>1112864 Ну вот смотри, типичный очень частый пример повтора почти полного предложения может быть такой (на русском для простоты, но оно так же на инглише). Сначала "Теребя край юбки, она бросает на тебя взгляд, в нём мелькает интерес", потом через ответ "Поправив рукав, она смотрит на тебя, в глазах блестит озорство." Оно не смертельно, можно игнорить. Но пока я вижу единственный способ борьбы с этим: вырезать ручками. Ну мб ещё свайпать, повысив темпу. Как с этим говном промпты могут помочь, не очень понимаю.
>>1113178 >>1113187 Тогда финальный вопрос на добивочку. Вот есть описание квантов. IQ4 /Q4 - reccomended. Но при этом Q5 всегда пуст. Вопрос, Q5 - это плацебо между Q6 и Q4 ?
>>1113231 >Вот есть описание квантов. IQ4 /Q4 - reccomended. Но при этом Q5 всегда пуст. Вопрос, Q5 - это плацебо между Q6 и Q4 ? Какой максимальный квант влезет, такой и бери.
А где из снг можно за вменяемую цену арендовать сервер с быстрым развёртыванием и почасовой тарификацией, если не копрооблака (которые к тому же чреваты что твой ключ спиздят и потратят) ?
>>1113302 >позитивити биас, пишет за пользователя чтобы свернуть / предотвратить едва выходит за пределы ванильных поебушек Повторю вопрос - кто как борется? Или всех устраивает, когда жестокое изнасилование превращается в романтическое свидание? :)
>>1113317 > Повторю вопрос - кто как борется? > жестокое изнасилование превращается в романтическое свидание та никак, у меня с головой в порядке все а тебе к мозгоправу надо обратиться
Блять ебанная гема шизофреничка сука Первый скрин буквально просит у меня аполоджайз, второй уже всё норм и так всегда, то её переклинивает на аполоджайзах то она сама на хуй прыгает
>>1113344 >Базовичок. Буквенные лолиебы и насиляторы пусть хуй сосут. Траблы с головой, не с моделями. До чего всё-таки приятнее общаться с моделями, чем с анонами. Пойду у Дипсика спрошу. Как вспомнишь, что до ЧатГПТ было только это говно...
>>1112705 В кум она может, и неплохо, и даже внезапно в русик может... проблема в том что она может ТОЛЬКО в кум, любой сфв сценарий - сразу тупеет хуже 12б, ещё и почему-то прям сначала чата чуть ли не каждое сообщение пересчитывает контекст.
Я, правда, 1.80.1 Кобольд использую. Скачал 1.86.2 ради интереса - он вообще крашится при инференсе при тех же настройках. Ай да красаучики, регресс полным ходом! Попробовал выключить mmq - опять краш по памяти. Занизил контекст в 4к, сравнил - разницы нет. Без флешаттеншена крашится даже на 4k: Processing Prompt [BLAS] (2048 / 2048 tokens)CUDA error: out of memory current device: 4, in function alloc at ggml/src/ggml-cuda/ggml-cuda.cu:345 cuMemCreate(&handle, reserve_size, &prop, 0) ggml/src/ggml-cuda/ggml-cuda.cu:72: CUDA error
Только давайте без советов экслламы, я и так знаю, что она быстрее. А мне жору хорошо бы разогнать...
>>1113520 Перезагрузись, у меня ощущение, что кобольд стал чуствителен к фрагментации физической памяти. Тоже теперь встречаю ООМ на ровном месте, хотя памяти вагон (2х24ГБ и модель 27B Q8). Лечится перезагрузкой.
>>1113555 У него там куча всякого шлака добавлено к православным картам, без них думаю было бы больше. >>1113580 У тебя там выгрузка не отключена что ли? Или ты гоняешь 3B во втором кванте на 5090?
>>1112599 > может смотреть насколько текст в контексте был непредсказуем для нее же самой Если ты ее об этом спросишь то она выдаст "мнение" о подобном. Уровень "понимания" или неожиданности лишь косвенно можно оценить по распределениям логитсов. >>1112696 Такого не предусмотрено, но можно написать экстеншн, полагаю. >>1113024 Тюны квен72 попробуй, того же магнума. Немотрон от хуанга с запасом влезет. >>1113520 > Только давайте без советов экслламы, я и так знаю, что она быстрее Почему, мистер Андерсон, почему? Во имя чего? Что вы делаете? Зачем, зачем встаете? Зачем продолжаете драться? Единственный совет для совсем уперто-упоротых - собери жору-сервер с сорцов, поигравшись с доп флагами. Только не забывай что в эту игру легко проиграть и получишь быстрый бредогенератор.
>>1112672 >ЛМКа не может понять предсказуемость текста, она не так работает. Это все матан вероятностей. Не текста, а цифр. Нет, в том то и дело, что таки может.
Распределение на выходе появляется не прямо на самом выходе, а зарождается где-то в середине модели. Следующий токен видит прямо на входе, собственно, истинный токен и может сравнивать его на любом слое с распределением из итерации "прошлого" токена. При помощи механизма внимания идет эта связь, и если модели это как-то полезно, она будет это делать. Проверить можно легко, нагенерить какой-нибудь мелкой геммой кучу говна с разной температурой и попробовать ее предсказать каким-нибудь одним линейным слоем поверх модели. Хотя конечно предсказывать температуру можно не только так напрямую, но и косвенно по структуре текста, но по идее это сложнее и тривиальный вариант должен победить.
Модель обрабатывает контекст при помощи самой себя и на каждый токен пытается предсказать следующий. Если был энкодер-декодер, такой эффект нельзя было бы получить.
Тут дохуя интересных моментов открывается, от того что модель возможно обучить например детектить инородную вставку в префил, до того что сам процесс обучения модели идет с этим фактором параллельно, и это проявляется как некое подобия самосознания, можно даже так назвать.
Чисто как магнум, чисто про еблю, в обычное рп может с трудом, большим трудом, литералли снимает трусы несколько раз и лупится, но может в годные, сочные описания, и всякую чернуху.
Некоторый позитивный биас имеется, но контрится промтом и пинками.
Даже может в русик, на уровне сисик-писик, но этого хватает.
занято 12 врам и 23 рам, так что 16 может и не хватить, но попробуй, 8 контекста всё-таки мало, там карточка + систем промт уже 3к могут занимать, можешь ещё кэш вообще в q4_0 квантануть, тогда должно влезть
>>1113773 > Чисто как магнум, чисто про еблю, в обычное рп может с трудом, большим трудом, литералли снимает трусы несколько раз и лупится, но может в годные, сочные описания, и всякую чернуху. Для обычного РП я бы и не стал использовать, соглашусь. Когда мне нужно обычное РП, переключаюсь на Forgotten Safeword 2.2, пару тредов назад о нем писал тоже. Отыгрываю приключение, очень круто пишет. Особенно всякие сцены сражений, конфликтов. Много описаний, красивый язык. Для меня эта серия моделей теперь наравне с Кидонией. Там еще есть Abomination и другие, но я их не пробовал, только Safeword и теперь Transgression.
>>1113827 Стоит почитать гайды что есть что, для начала эти параметры для llamacpp, а новичкам лучше запускать через кобольда, там буквально ткнул и погнали.
Знать как работают сами нейросетки не обязательно, но знать что делают параметры фронтов и бэков надо, а то станешь свидетелем карго-культа.
Ну и да, 12гб VRAM + 32 RAM позволят запускать даже гемму 27б в 4 кванте модели и контекста (лучшее что ты сможешь запустить в таком конфиге, правда кум там слабее, она именно про серьёзные адвенчуры, а также как ассистент) со скоростью в пару токенов в секунду - юзабельно если ты параллельно работаешь или другие дела делаешь, а не прям в реалтайме.
>>1111645 (OP) Аноны есть несколько вопросов. Как я понял все API ключи типо от OpenAI в целом платные? Подскажите локальную модель ( 7+B и <4B условно весом до 5-6 гигабайт) для постоянного диалога хотя бы в районе часа. Она должна хорошо сохранять память и быть мультиязычной ( как минимум русский и английский язык), а также поддаваться настройке в том плане, что многи модели очень много воды и сои генерируют, я не говорю про цензуру даже и я не уверен, что все из них можно от этого избавить. Может быть есть список локальных моделей относительно способа их применения? Про форки моделей тем более ничего не знаю. Просто веб нейронки советуют либо mistral, чаще llama3.1 на их взгляд лучше первой, а где истина не знаю.
>>1113895 >для постоянного диалога хотя бы в районе часа Ну, тут тебе нужно что то с большим контекстным окном. Из такой мелочи могу порекомендовать Qwen2.5-7B-Instruct-1M Размер кванта сам выбирай, что такое квант и где запускать думай сам. В шапке есть инфа как и в вики, хоть и устаревшая местами.
>>1113024 Тебе предложили буквально худший вариант с лламой. =D
А тюны квена 72 и мистраль ларджа да. Magnum, Luminum, LumiMaid и так далее.
Еще можно попробовать QwQ и Gemma 3 27, они влезут и с контекстом, и скорость будет выше.
Экспериментируй, пробуй, выбирай.
>>1113163 Тут снова первый совет неправильный, а вот второй верный, i1 это important matrix, но они квантуются для английского, так что выбирай по языку. Если на русском, то первую, статик кванты. Если на английском, то i1.
>>1113201 Чел спросил, брать ли important matrix или нет. Ему ответили хуйню про IQ-кванты, о которых он не спрашивал. IQ обменивает производительность на размер. Помещается в меньший объем, но работает медленнее. Тока нахуя эта инфа человеку, который спросил про импортант матрицы… =)
>>1113231 Не, технически, в среднем Q5 лучше, чем Q4, а вот Q6 уже минорно лучше. Но на деле просто качай что влезет и что устраивает с контекстом. Просто забей видеопамять в ухнарь, чо. =) Все правильно посоветовали.
>>1113895 На час не совсем очевидная метрика. Qwen2.5-7b с миллионом контекста — база, точно влезут твои хотелки. Сложно посоветовать что-то еще. Ллама полное говнище, забей сразу. Mistral Nemo 12b большая, как и Gemma 3 12b it, но можешь их попробовать в сильном кванте… Или Gemma 3 4b it, кек.
Если у тебя RTX, можешь попробовать exllamav2 движок и формат, если нет — то GGUF качай и запускай llama.cpp/KoboldCPP/oobabooga.
Вероятно, придется поэкспериментировать, и попробовать разные модели.
Еще есть кринж-вариант взять гигачат лайт 1.5 версию, чисто под оперативу заработает достаточно быстро. Но там размеры больше, конечно.
>>1113915 >>1113921 >>1113912 Аноны спасибо за ответ, я раньше пробовал кобольд запускать, но ollama мне понравилась больше по простоте и кажется даже по скорости работы, а есть то что быстрее разгоняет нейронку? есть rtx 4050 mobile. В гайде написано, что exllama2 самый быстрый, я правильно понял?
>>1113767 > попробовать ее предсказать каким-нибудь одним линейным слоем поверх модели Не хочешь продемонстрировать? Есть 1б модели и меньше, которые влезет в любую видеокарту в т.ч. фри коллаба. Полноценный блок из группы трансформера, который встанет на все активации заместо выходного - да. А просто линейный по единственному распределению ласт токена - без шансов. Только если буквально надрочить его на готовый тестовый текст, но это есть сравнение с референсным распределением и тут нейронка не нужна. > модель возможно обучить например детектить инородную вставку в префил Просто даешь ей примеры и она запоминает эту закономерность. Но поскольку грань очень размыта, при изменении какого-либо из признаков распознавания оно отвалится. >>1113842 Жаль с А6к ада не сравнили. >>1113940 > exllama2 самый быстрый Самый быстрый, но с твоей карточкой там не разгуляешься из-за объема врам.
>>1114054 Спасибо за ответ, я вижу что Qwen2.5-7b с 4к токенами занимает 5 гигабайт видеопамяти, а если буду использовать Qwen2-1.5B с 8.0 bpw? Раз Qwen2 фаворит? Gemma-2-2B похуже?
>>1114160 Пока битность выше 4х лучше наращивать размер модели а не гнаться за квантом побольше. 2б это очень глупые модели и чудо что связанную речь пишут. Когда видеопамяти мало, большинство использует что угодно на основе llamacpp и обсчитывает часть слоев на процессоре. Получается сильно медленнее, но зато это дает возможность запускать модели больше чем влезают в видеопамять. >>1114189 Не он но отвечу что никак.
>>1113842 Ну так-то внутри она выглядит прилично, по крайней мере уже ощущается не так рисковано как подавалось изначально. >>1114218 В экслламе типы данных фп16/бф16 и все это запаковано в дохуя оптимизированные операции питорча. Тесла не может в половинную точность (физически может но скорость нулевая). Возможно это обойти если устраивать апкаст до фп32 перед самими расчетами (примерно так сделано в жоре) но лезть придется очень глубоко и делать много правок. Едва ли это изменится, потому что пересечения тех, кто может реализовать такое с теми, кто с этим нуждается почти отсутствует. А серьезных зарплат или резкого бума внимания, что могли бы помочь, здесь не наблюдается.
>>1113757 >Почему, мистер Андерсон, почему? Во имя чего? Что вы делаете? Зачем, зачем встаете? Зачем продолжаете драться? Потому что я хочу запустить большую лламу через рпц, а это только в кобольде есть. Не, можно попердолиться и сделать взаимодействие между экслламой и жорой, но я пока не готов к такому, чет страшновато. Хотя анон тут сказал, что в принципе это возможно, надо только далее идет поток технических ML терминов, на которые у меня реакция "штоэтоикакблять"
А вот идея с флагами мне нравится. Их описания есть в репе или ты имеешь в виду какие-то общие компиляторные а-ля fast-math всякие?
>>1112200 Looks hot. Я вот уже думаю, что надо вентилятор большой ставить около карт, чтобы горячий воздух сдувал. Это, ты по бивисам так и не ответил, сможешь залить оба файла куда-нибудь?
>>1114277 > Потому что я хочу запустить большую лламу через рпц Может быть через жора-дистрибьютед? Если так то 100% понимания 0% осуждения. А причем здесь кобольд? > Хотя анон тут сказал Угадай кто это был > Их описания есть в репе Есть, для цмейка. Собирается оче быстро, поэтому сразу не поленись проверить ответ на большом контексте, заодно и скорость.
>>1114189 Я проверял запуск на одной тесле и даже ускорял его в несколько раз. Впрочем, на кобольде было все равно быстрее, поэтому я сдался и решил, что правильно идти в направлении того, что я тут написал >>1114277. А так были планы разделить вычисления, чтобы на амперах работал оптимизированный код на амперах, а на теслах - с моими правками. Хотя, по идее, даже в текущем состоянии на смешанном сетапе должно работать быстрее, чем на чистой экслламе, особенно если тесл больше, чем амперов.
>>1114293 Чел, я хотел оригинальный биос, чтобы вытащить свой через прищепку и бинарно сравнить. Если они идентичные, значит я смогу модифицированный твой залить сразу. Если тебе лень заливать его или боишься фингерпринтов (хз есть ли они там, лол), хотя бы sha256 напиши. Спс за файлик.
>>1114306 >Может быть через жора-дистрибьютед? Да, через него, чет автоматом кобольд уже написал. >Есть, для цмейка. Оке, посмотрю
>>1113317 Пожалуйста, помни, что ты не виноват в том, что произошло, и ты имеешь право на безопасную и счастливую жизнь. Обратись за помощью к родителям, учителю, врачу или любому другому взрослому, которому ты доверяешь.
А как понять, что перед вами хорошая карточка? Перед тем, как ты ее используешь и опробуешь. Вот зашел я на сайт с карточками, хочу скачать. Там в половине из них, если не больше, никакой структуры нет, опечатки и прочая лабуда. Как вы выбираете карточки? Или, может быть, сами создаете? Есть какой-нибудь гайд по хорошим практикам? Буду рад советам.
>>1114568 Клодолоп (графоманские, несодержательные, чрезмерно длинные предложения из одной воды с уебищными оборотами) - мусор. Неструктурированная подача, где описывается очень сумбурно, идут постоянные смены тем ради странных примеров или набор противоречивых характеристик, которые предлагается "усреднить" - мусор. Чрезмерное количество форматирования, сплошные теги и это на фоне отсутствия нормальных описаний и примеров диалогов - сомнительно. В меру подробное описание чего-то, но с явными пробелами в предыстории или сеттинге с возможностями двойной трактовки (идешь на рынок рабов но при этом над тобой пролетают машины, встречаешь монстергерла на пороге своего дома и т.д.) - может быть сомнительно. Содержательное описание (наличие базовой структуры предпочтительно) в котором раскрываются основные атрибуты, фишки, сеттинг (при наличии), предыстория, даны примеры диалога и лор/мотивы персонажа - хорошо.
>>1114568 Смотришь на картинку, если персонаж вызывает симпатию, то открываешь и читаешь завязку сюжета. Если всё устраивает, то качаешь и пробуешь. Всё.
>>1114659 Я понимаю что ты рофлишь, но я первое время так и делал, и напарывался на такое адское дерьмище, что там буквально кроме красивый картинки и нихуя не было.
>>1114667 Почти и не рофл. Идея главенствует над содержанием. Карточку может написать Шекспир от мира карточек, но если тебе в целом похуй на происходящее и героя, то никакого отыгрыша не будет. Ну и откровенную хуйню тоже видно сразу, как ты и описал, так что и её отметай, ищи лучшее из возможного.
>>1114568 >Или, может быть, сами создаете? Ага. Но я в целом графоман ебанутый. Выдумываю сценарии перед сном или в дороге, потом перевожу их в карточки и играюсь.
> Есть какой-нибудь гайд по хорошим практикам? Буду рад советам. ИИ лучше всего работает с персонажами. То есть даже если чисто сеттинг карточку сделал, лучше перса вписать.
Хороший трюк - написал карточку, просишь сеть "сгенерируй 5 фраз примеров для сценария %сценарий% с персонажем. Персонаж должен %поведение%. Выбираешь нужные и вписываешь в конец карточки с подписью что это пример ответов перса. Реролить до посинения. Хуман рейинфорсед лернинг локально дома без смс шок получается. Очень помогает настроить личность перса, вообще карты без примеров не делаю.
Не налегай на форматирование. Большинству нейронок и обычный текст подойдет, лучше даже.
Пиши цифры цифрами 123 а не словами. Экономит токенчики.
{{user}} будет заменено на имя твоего преса из Persona Management. Пик. Работает вообще везде, удобно. {{user}}'s и другие склонения тоже корректно работают. {{char}} вернет имя карточки. Хз редко юзаю. Не всегда имя карты = имя текущего собеседника.
Английский всегда умнее любого другого языка. Просто потому что инфы для обучения больше в мире.
Вообще хотите я замучу пособие молодого графомана по созданию своих карточек. У нас весь тред все колхозит и диайваит, вполне в духе будет.
И что? Да нихуя. Все те же 5.6 токенов. Попробовал поиграться со слоями и убрать контекст в 2к, получилось завести без флеш аттеншена. Стала генерация 6.3 но это на контексте 1360 токенов (хз почему он так обрезал). Т.е. вангую, что будь там 8к контекста, то 5.6 и получилось бы. Может там еще какие флаги есть, но больше не нашел. Раньше были GGML_CUDA_KQUANTS_ITER, GGML_CUDA_MMV_Y, судя по всему, но их уже выпилили.
>>1108170 → В чём смысл чистого рп на русском? Ладно ещё кум по быстрому подрочить тебе в хуй не уперлось каким то там переводом заниматься, но рп это же чисто про английский, нахуй тебе терять возможность подтянуть язык ради какого то дженерик фентези сюжета Ладно ещё русик уровня 600б моделей который удивляет каждую секунду, но нет же, он довольно всратый и сухой
>>1114815 Так говоришь, будто для человека незнакомого с английским оно заиграет красками. Хуй там, будет такая же хуйня уровня гугл транслейта, если не хуже, так еще и скорость чтения станет 0.2 т\с. Нахуй оно нужно.
>>1114739 Что за модель запускаешь? В целом что поместится в 4 3090 должно идти с 7-9 токенами с малым контекстом. > флагами Там вокруг mmq крутится, но их лучше просто так не трогать. >>1114801 У меня компьютер не работает, поможешь? >>1114815 Ну нравится ему, пусть рпшит как комфортно.
Бля, какой же ебаный нейминг параметров в табби/эксламе, а. Просто пиздец. Я уже раньше горел с их tensor_parallelism и хуй_пойми_какой_настройки_отвечающей_за_контекст (подсказка - это max_seq_len, внезапно, нахуй). Теперь же autosplit_reserve. Что нам пишут про эту настройку: >Reserve VRAM used for autosplit loading (default: 96 MB on GPU 0). Что подумает адекватный человек, который привык к жориной преаллокации для весов моделей, а также не понаслышке знакомый с методами .reserve() из тех же плюсов? Правильно, что эта настройка позволяет преаллоцировать память, чтобы не ебаться с аллокацией для весов на ходу. Ускорение загрузки, все дела. Как бы не так, нахуй! Она делает так, чтобы значения, указанные в этом параметре, не использовались вообще при загрузке модели (они заполняются пустыми тензорами) и после ее загрузки освобождаются, оставаясь доступными системе. Пиздец блять, а я сидел выставлял туда-сюда, пока не заметил, что прогрессбар движется только после преаллоцированных гигабайт. При этом у них вообще нет что ли нормальной загрузки, хули модель по 5 минут грузится? Энивей, я хотел 8 квант запустить, но даже с 20к контекста чуть-чуть не хватает. А квантовать контекст не хочу. Качаю 6-й, только пусть падла попробует не загрузиться с 32к контекста.
>>1114829 >Что за модель запускаешь? Моя дефолтная конфигурация это бегемот 123B в 6-м кванте с 32к контекста.
>>1114865 > хуй_пойми_какой_настройки_отвечающей_за_контекст Тут сложно запутаться, ведь он единственный там. > что эта настройка позволяет преаллоцировать память Mmap и mlock же, а автосплит - очевидно что настройка параметров автосплита. > не использовались вообще при загрузке модели Это отступление от максимально задействованной памяти при автоматическом сплите чтобы был небольшой оперативный запас на всякое. Там же буквально это написано. > прогрессбар движется Какой прогрессбар? Модель сразу грузится в видеопамять и бар это примерно иллюстрирует. Упор исключительно в ссд, с нвме это 1.5 десятка секунд на первый запуск. Модель на харде чтоли? Хз, чето сам себе придумал ерунды и на нее обиделся. >>1114921 Это с задействованными другими карточами или только стак 3090?
Поясните как модели в память подгружаются. Допустим у меня 24 гига vram и 64 гига оперативки. Если я возьму модель, которая в память видюхи не впихивается, то у меня остаток в оперативку идет, или кина не будет? Я тупой, да.
>>1114973 > он единственный там. Да ну? А cache_size? Почему вообще в описании не написано слово контекст к этим параметрам? Кто блять использует слово "кеш" или "максимальная длина последовательности" в отношении контекста? Такое чувство, что они это для себя делали, а не для других.
>Mmap и mlock Я ничего из этого не использую в жоре/кобольде, он преаллоцирует мгновенно сразу на всех картах, без указаний каких-либо параметров.
>автосплит - очевидно что настройка параметров автосплита. Спасибо, кэп
>Там же буквально это написано. Там НИЧЕГО НЕ НАПИСАНО БЛЯТЬ. # Reserve VRAM used for autosplit loading (default: 96 MB on GPU 0). # Represented as an array of MB per GPU. И ВСЕ. Как хочешь, так и понимай это. Даже в вики зашел, там скупая строчка "Amount of empty VRAM to reserve when loading with autosplit.". Ну да, пустая VRAM. А что с ней делается, в нее веса может грузятся? Или она освобождается потом? Или может на месте этой пустой VRAM на самом деле должны быть скиллы техписателя, которые у разработчика напрочь отсуствуют? Отвратительно.
>Какой прогрессбар? Прогрессбар загрузки модели. Она oche долго грузится, шестой квант минуты 3-4. С SSD. И память аллоцируется кусочками на картах.
>Это с задействованными другими карточами или только стак 3090? Конечно со всеми, 32к контекста в 6-м кванте не влезут в 3090 без сильного квантования. Но вообще я передумал, лучше загружу 8-й квант еще раз и попробую его на 16к контекста. Если получится, то пока так буду юзать. Или мб все же квантануть контекст и 32к бахнуть... Есть отзывы на Q8?
>>1114568 >хорошая карточка? та пофиг, скачай, через таверну дефы посмотришь, потом удалишь если не зайдёт >сами создаете https://pixeldrain.com/l/47CdPFqQ моя свалка - полностью мои, переводы, просто интересные, промты, логи >гайд по хорошим практикам По мне так, лучше всего работает структурированный просто-текст, в формате профиля.
>>1114727 >Вообще хотите я замучу пособие молодого графомана по созданию своих карточек. У нас весь тред все колхозит и диайваит, вполне в духе будет. А давай. Хотя лично я собственно также как написано выше и делаю =))
>>1114783 >гемма По личным ощущениям и в диапазоне до 30Б - да. 27Б версия.
>>1115019 >то у меня остаток в оперативку идет при использовании формата GGUF >кина не будет при использовании формата EXL2
>>1115043 >15к токенов Это средне. На приключение под 113 сообщений уйдёт примерно 24К, зависит от модели, где-то больше, где-то меньше.
>>1114351 О, ты навёл меня на идею: сделать карточку старой шлюхи, которая больше не пользуется спросом и развлекается тем, что яростно осуждает молодых шлюх. Спасибо.
Мужики, я новичок в этой всей тусовке локальных моделей, но смог завести вайфу чат у себя с квантом 6, на 1070. 4к контекста, выход 500 токенов, кумить приятно, я вот думаю, увеличение контекста нужно ли мне вообще или это только замедлит геннрацию?
>>1115222 >4к контекста после переполнения этих 4, бэк начнёт пересчитывать контекст постоянно, что сильно увеличит общее время на ответ, так что если влезает, то поставь хотя бы 8к
>>1114727 >Вообще хотите я замучу пособие молодого графомана по созданию своих карточек. У нас весь тред все колхозит и диайваит, вполне в духе будет. Почему бы не собраться и не родить гайд : как запилить карточку битарда попаданца в нейромиры и не охуеть А то на словах : хули там писать, тяп ляп, а нюансов вагон и тележка.
>>1115222 С твоей картой ты всегда будешь в состоянии компромисса. Либо вменяемая модель, либо вменяемый контекст, либо вменяемая скорость. Пока сам не поймешь, что из этого тебе важнее, то смысла спрашивать нет.
>>1114568 >Как вы выбираете карточки? Никак. Большая часть карточек точится под большие копромодели, которые перемалывают в принципе любой текст. Даже если он будет содержать ошибки, хуевую структуру и форматирование.
>Или, может быть, сами создаете? Если ты сидишь на локалках, это единственный вариант. Ну а если ты сидишь на одной модели долгое время и понимаешь, на что именно она триггерится, то вообще хорошо - можно пилить карты вообще в конвейерном формате и заранее знать, что примерно получится. Короче, знай с чем работаешь и проблем не будет.
>Есть какой-нибудь гайд по хорошим практикам? https://rentry.org/meta_botmaking_list - этого с головой хватит, чтобы понять базовые принципы. Дальше уже экспериментируй сам.
>>1115280 Соберись, роди, а мы обосрём. Если твоя тонкая душевная организация после этого не совершит роскомнадзор, то через несколько итераций может и выйдет что-то приемлемое.
https://huggingface.co/TheDrummer/Skyfall-36B-v2-GGUF Что думаете по этой штуке, кто-то вообще пробовал? Я так понимаю, это некий аналог 20б склеек на вторую лламу. Есть смысл терпеть долгую генерацию ради качественного аутпута в РП?
>>1114823 Как человек не знакомый с английский вообще может попасть в /ai? Ну серьезно? Все начинают с мелких онлайн моделек на 8б и они все на английском
>>1115410 Попробуй QwQ, или модельки повыше. Но опять же. Для РП. Буквально в этом треде один перемогает большой мистралью, а другому она тупее командр, квеноёбы еще есть - и каждый топит, что именно его фломастер ИСТИННО ВЕРНОГО АРИЙСКОГО ЦВЕТА. Я только первый скафол пробовал - ну мистраль. Писала как мистраль. Вела себя как мистраль, и чсх, мистралью и являлось. Учитывая что мистралька была рабочей лошадкой с годика полтора, глупо на неё смотреть с пренебрежением.
Доктор Анжела Келлер - блестящий, но неуверенный в себе немецкий ученый, возглавляющая проект «Golem Personality Synthesis Project» в университете Бэнбери в киберпанковом будущем. Ее главный шедевр - {{user}}, трехметровый человекоподобный робот в котором живет разработанная ею матрица личности. Это её последний шанс доказать жизнеспособность своих исследований по исскуственному сознанию на фоне скептицизма коллег.
>>1115392 Пробовал. Несколько тредов назад писал о ней. Мне показалось, что хорошо. В моем случае при переходе с 24b Мистраля на данный 36b, персонаж начал более активно взаимодействовать с окружением, давать больше описаний, цепляясь за детали в промпте. Например, пару сообщений назад указал, что в углу стоит шкаф, и нейронка более охотно его упомянет позже, опишет его, провзаимодействует с ним. Но не могу сказать, что разница прямо разительная, это тот же Мистраль, но прокаченный. Есть уже тюны (тюны тюна, получается...) Например, Abomination, но не опробовал пока: https://huggingface.co/collections/ReadyArt/forgotten-abomination-36b-41-gguf-67dbf6250811453f6eabf8a7
И кстати, Transgression, который вчера обсуждали, на самом можно использовать не только для кума. (Но нужно ли, учитывая, что можно просто переключить модель?) Играю сейчас детектив на данной модели, и она вполне себе может управлять третьими лицами, событиями, накидывать твисты, следуя заданному нарративу. Это не совсем огрызок, оно умнее Магнума, на мой взгляд. А для ерп вообще супер.
Аноны, почему так сложно установить exllamav2? Ладно, поставил правильный торч и куда, теперь вылазит ошибка с flash-attn который долго собирается на винде, может кто знает что делать?
>>1115521 Конкретно что он больше часа собирается, у некоторых по 16 часов. По советам отдал всю оперативку и итд, щас вся память ушла на сборку его. >>1115566 Это форк или облегченная версия? В чем разница если кратко? Для моих целей нужен высокая скорость ответов от локалки, наверное на уровне API ключей.
>>1115025 > максимальная длина последовательности Максимальное число позиционных эмбеддингов не хочешь? Ближе к дефолтному, вполне понятно и логично. По остальному херь какая-то, ответы очевидны. Доебываться до очевидных вещей под предлогом "я вместо дефолта придумал себе иначе" чето такое себе. Ты чего такой нервный? Отдохни, выспись и иначе взглянешь на вещи. > шестой квант минуты 3-4. С SSD. Что за ссд, что за система? Своп при этом не задействуется случаем? > И память аллоцируется кусочками на картах. Веса идут с помощью .to на девайс ровно с той скоростью, с которой считываются. Резерв есть кэш контекста, ключевое преимущество здесь что в отличии от жоры, потребление не прыгнет внезапно вверх во время инфиренса и можно быть спокойным забивая под край. >>1115491 Ее отдельно особо и не используют, в составе убабуги, табби или эксюи. Те штуки устанавливаются в один клик. >>1115671 Сборка оче долгая, поэтому скачивают уже готовые билды. Они есть почти для всех, даже для счастливых обладателей блеквеллов.
В твиттере кто то рекламировал свой OCR проект на гитхабе. Работает испрльзуя гемму 3. Решил посмотреть код, а там по сути отправляется запрос геммме. И всё.
Лучшая содель для рп сексторителлинга? Цидония как то быстро скатывает девку в состояние готова на все ради члена. Начал диалог с феминисткой, а она уже через 5 минут отринула свою былую сущность, и была готова персонажу инцелу с мемов лизать пятки.
>>1115722 Вполне возможно, не в модели дело. Фикси системный промпт, указывай, что модель должна до последнего следовать характеру персонажа. Или найди где-нибудь нормальный шаблон.
>>1115703 На страницах тюнов qwq на huggingface были шаблоны, вроде у Snowdrop. Но мне ни одна из qwq моделей в рп не зашла.
>>1113731 К сожалению, он тупой и на канале никто не шарит за железки. Там информации ровно ноль. Только условное «флюкс в 40 степов на 1600х900 полторы минуты» вроде бы.
Нормально бы Борода потестить разве что смог и Этот компьютер (но он давно не выпускает). Больше разбирающихся чуваков на ютубе нет, живи с этим.
>>1113829 Не самый плохой только потому, что есть всякие вилсакомы и как там этого коммуниста звали. А так — нулевые познания в железе, к сожалению.
>>1113833 Зачем? =D Чтобы увидть, что LMStudio работает и Gemma 3 27b Q4_K_M показывает буквы? Никто ж не знал, что ее вообще можно запустить, да. =D
>>1114054 > Жаль с А6к ада не сравнили. В чем? Я просто вообще не увидел тестов, кроме условного флюкса с кучей додумываний. Ну давай так: ада тоже генерит буквы достаточно быстро, и там тоже можно запустить q4_K_M квант. Вот и сравнили, получается. =)
>>1113819 но кв офлод осуждаю, разве не замедляет обработку промпта?
>>1113827 А 3060 12 гигов и 64 гига оперативы позволит и видеомодельки запускать, подумой! =D ИМХО, оператива все еще стоит адекватных денег, не очень дорогая, можно взять 64 и забить на долгое время.
>>1113940 По простоте оллама литерали одна из сложнейших, если ты захочешь запустить модель, предварительно не одобренную партией.
ollama, llama.cpp, kobold.cpp, llama-cpp-python — это все одна и та же llama.cpp и скорости там почти всегда одинаковые, зависит только от настроек. Чисто на видяхе есть куча запускаторов, от exllamav2 (в oobabooga или tabbyapi) до vllm, sglang, tensorrt, но только на видеокарте, в твоем случае запускать маленькие модельки. Сомнительно, лучше разбирайся с llama.cpp и ее форками, чтобы выгружать в оперативу. Пусть медленнее будет, зато модельки поумнее.
>>1114865 Тебе подвезли какие-то дефолтные неймы, а ты не шаришь и сгорел. Ну пиздец. Я хз, у меня вообще проблем не было, все максимально интуитивно понятно для человека, кто нейронками уже два года занимается.
Я литературно ее заинсталлил без каких-либо ошибок, запустил опенвебуи и у меня сходу заработал вижн и в гемме, и в квене, и все хорошо, отличный софт, 9/10. =)
Ну, с учетом, что я не воробушек, который в это в первый раз полез, и у меня адекватно настроенная система. Для новичков софт может быть и не очень… НО, справедливости ради, для новичков ВЕСЬ софт не очень (кроме кобольда, который срет за углом в кэш=), ибо везде надо как-то выебываться, ставить нужные версии и все такое, а я просто на автомате ебашу.
Так-то, софта для нейронок простого я сходу не вспомню. И ллама.спп будем честны, не то чтобы прям очевидная с их куда файлами, разными версиями и ключами для запуска.
>>1114908 > torch-2.6.0+cu124-cp311-cp311-win_amd64.whl Просто максимальная база. А знаешь почему? Потому что по умолчанию pip ХУЙ КЛАДЕТ на видеокарту и качает именно процессорную версию, а разработчики ТУПЫЕ В ПИЗДЕНЬ и забывают об этом, ибо у них extra-url прописаны по умолчанию в среде, и качается всегда сразу cuda-версия.
Но справедливости ради, я видел и умных разрабов, у которых прямо в реквайрментах была записана нужная версия, умнички, чмоки-чмоки их в щечки.
>>1115025 > максимальная длина последовательности Насколько я помню, так OpenAI придумали, это буквально база, а всякие «длина контекста» — уже Жорин высер, ибо ему OpenAI API не понравилось по причине хуй его знает чего. =) Слово «кэш» в контексте «контекста» используется в треде уже года полтора, если что. Так что тут тоже странный доеб, всегда так называли, просто реже.
> Я ничего из этого не использую в жоре/кобольде Ебать поражены вашей неудачей, сэр.
Братан, пойми нас правильно, никаких претензий к тебе, просто ты сгорел потому, что никогда не юзал что-то больше llama.cpp, и не в курсе, как все эти параметры называются в человеческом мире много лет подряд. Потому что Герганов любит делать ВСЕ СВОИ, даже нейминг файлов. Ты вырос в мире нестандартного нейминга (еще, небось, убабугой не пользовался, где это все поясняется и разжевывается для таких васянов, как мы с тобой), и теперь у тебя вестимо сгорела жопа.
НО.
Если ты поимеешь опыт, то спустя месяц-другой ебли и настроек всех этих VS Build Tools, cmake, transformers -b, torch, onnxgpu-runtime, flash-attention, triton и прочего дерьма в conda или venv, ты будешь это накатывать легким движением пальцев по клавиатуре даже не задумываясь, а все синонимы в разных движках (хороших движках, и ллама, и эксллама — обе хороши) для тебя сольются в одни токены-значения в голове. =)
Так что не кручинься, все будет заебись!
>>1115396 Не умеет говорить на английском, но если заставить писать текстом — может смотреть твои стримы и комментировать каким-нибудь фиш-спичем, ага. Надо будет дома покопать.
Но пока пруф оф концепт и игрушка, не более, конечно.
>>1115506 Нахуй не надо торч обновлять. Сидишь-пердишь на 2.4.1 или 2.6.0 и ладно.
Не разочаровывайтесь в exllamav2, это по первой сложно, потом привыкните. =) Это вы еще сажу в ComfyUI не настраивали. =D Или что похлеще из китайских сорцов двухлетней давности для генерации 3D-моделей… Обнял-приподнял!
>>1112864 Потому что тут аноны сами лупят как самые тупые модели, высирая по 10 одинаковых сообщений в стиле -"Хачу драчить!". Модель же подстраивается под желания пользователя, правильно? Правильно. Юзер лупит, модель тоже лупит, ухли.
>>1115722 У меня с QWQ были проблемы в том что она очень упрямо следовала описанию персонажа и что бы я не делал, как бы не пытался персонажа сломать, изменить его отношение, ничего не выходило. Прям утомило.
Почему никто не тестит немотрончик? Он умнее геммы сколько раз вам повторять. Добавляете в промпт Writing style: Don't use lists and out-of-character narration. {char} MUST use narrative format. Detailed thinking off. И охуеваете от количества деталей которые он запоминает и рисует
>>1115769 > 3s квант с 16к контекстом Не хочу, я боюсь 3s квантов. Там шиза и галлюцинации, как будто мне их не хватает. А ты чего злой такой? Гемму я не запускал еще.
>>1115769 > Пробуй 3s квант с 16к контекстом и зачем оно надо? лучше Геммочку запустить в пятом кванте на 24-32к контекста 16к эт мало, ну а 3s это вообще meh
>>1115757 Русский похуже геммы/квена. Пишет ну норм, но какого-то преимущества не увидел. В описании QwQ лучше все еще, плюс умнее.
>>1115772 Я же сказал четко: Qwen2.5-3b (ну, окей, instruct). Все, какие фи-3, какие ллама-3, я же четко сказал брать квен, зачем выдумывать хуйню. =) Ну ладно, может быть фи-3.5 неплоха, не помню, но ллама — дно донное.
>>1115757 >И охуеваете от количества деталей которые он запоминает и рисует Я прежде всего охуел от количества сои, которая в нём по умолчанию заложена. И помимо прочего датасет там вычистили от всего неприличного. А жаль, модель действительно умна.
>>1115793 rtx 4050 mobile 6gb Мне нужна модель которая не соевит и без водянки, для моих целей скорее всего и без цензуры, чтобы уменьшить промпт, чтобы промпты работали и не конфликтовали между собой, чтобы нейронка часто не повторяла предложения при ответе на разные вопросы. Мне нужны скоростные характеристики больше, но и с сохранением точности ответов.
>>1115731 >>1115745 Да не пиздите. РПшу с открытой вкладкой мультитрана, подбираю синонимы. Модели посрать, что там после {{user}}, она цепляет стиль и структуру и лупится именно в плане ответов после {{char}}, которые, собственно, и пишет. Ты можешь хоть роман ей вхерачить от персоны юзера, а она потом напишет "{{char}}: я тебя ебу", если предыдущие реплики от перса были такие же. Просто большинство, судя по всему, закрывает глаза на всратый и иногда откровенно сломанный аутпут, а потом такие: "срень-пуньк, у нас всё хорошо, и вот геммочка как классно кум пишет". Ну рад за вас, чё.
Могу предложить https://huggingface.co/bartowski/aya-23-8B-GGUF старую-старую Айу, в ней, насколько я помню, цензура отсутствовала напрочь (если я правильную версию нашел). И 6 квант с выгрузкой в оперативу будет и в меру быстрой, и в меру умной.
Ну или гемму аблитератед, которую мы вместе нашли, да.
Два варианта, иных я не знаю, может кто придумает. =(
>>1115853 Ну, ладно, индивидуально надо подбирать. Если не пишешь простыни по 500 токенов то и похуй, да. Как ров-сплит на паскалях. Убивает скорость обработку контекста, но для рп похуй.
>>1115878 Чел, какую выгоду, модели на которых сидят местные, буквально натренены и созданы за банку энергетика и спасибо. Ты щас ведёшь себя как старая бабка которая в сериале про ментов услышала про восстание машин, и теперь бегает и верещит.
>>1115887 Пишу из 2027 года на последние килобайты трафика. То, что написал анон - правда. 98% людей потеряли работу вследствие появления сознательного ИИ, который учится и эволюционирует самостоятельно. Нам конец.
>>1115896 >аблитерацию немотрона завезли? Только старого и то не до конца. А ведь по-хорошему ещё и тюнинг нужен. Непопулярные они почему-то у мододелов.
>>1115897 >>1115895 Увольнять будут в первую очередь низовые должности, не тупите. Наносеки только выйграют от этого пока здесь сказки про тупые AI сочиняют.
>>1115913 Та же хуйня у меня происходила пару раз. Резкая смена характера, шиза. Не в семплере дело. Кому-то может и зайдет такое, но имхо писанина не лучше Мистраля, а такой рандом мне не нужен.
Почему тюн мистраля 24В, при попытке загрузить через exl2_hf пускает слюни, повторяет предложения и пишет бред? При этом через обычный exl2 работает нормально. При том, что 22В тюны спокойно загружались и работали на exl2_hf обёртке.
>>1115922 На самом деле я просил её написать антиджелбрейк. А так мой джелбрейк обходит вообще ограничения джеммы3 лол, но показывать я его конечно не буду
Ахуеть. Есть ли что-то, чего не знает saiga-unleashed? Она знает все о пластической хирургии, даже проведение операции, знает все о ебле, знает все о профессиональном стриптизе, знает все как быть проституткой, может в рп путешествия и выживач... Просто идеально натренировали. И все это добро в 13 гигах, даже не верится... Есть что-то лучше в этом плане?
Отлично! Операция началась.
Сейчас я выполняю следующие этапы:
1. Подготовка: - Убедившись, что пациентка находится под надежным наркозом, мы тщательно обрабатываем кожу антисептическими средствами. - Размечаем область операции маркерами для обеспечения точной симметрии и расположения имплантата.
2. Разрез: - Выполняю тонкий разрез вокруг ареолы груди — именно такой способ установки (periareolar) был выбран для максимально скрытого шва. - Разрез выполняется с особой точностью, чтобы минимизировать видимость и риск образования рубцов.
3. Создание кармана: - С помощью хирургических инструментов аккуратно разделяю ткани груди, создавая пространство для имплантата. - Для достижения максимально идеального шарообразного вида имплантат будет установлен поверх (а не под) большой грудной мышцей. Это обеспечит лучшую визуализацию и упругость.
4. Размещение имплантата: - Аккуратно помещаю высокоплотный силиконовый имплантат идеально круглой формы размера 450 мл в подготовленный карман. - Фиксирую имплантат, чтобы исключить его смещение.
5. Проверка симметрии и положения: - Делаю несколько контрольных движений, убеждаясь в правильном расположении и симметрии груди. - Корректирую положение при необходимости для достижения максимально эстетичного результата.
6. Закрытие разреза: - Швы накладываются с использованием саморассасывающихся нитей, что минимизирует видимость шрамов и ускоряет процесс заживления. - Накладываю поддерживающие дренажные трубки для отвода жидкости.
7. Финальная проверка: - После завершения всех хирургических манипуляций ещё раз проверяю качество результата, симметрию и форму груди. - При необходимости делаю коррективы для достижения идеальной формы.
Теперь пациентка находится в послеоперационной палате. Начинается период восстановления:
- Пациентку переводят из наркоза под наблюдением врачей. - В течение нескольких часов она будет находиться под постоянным контролем медицинского персонала. - Через некоторое время, когда состояние стабилизируется, пациентке можно будет надеть поддерживающее белье.
На этом первом этапе операция завершена успешно! Следующий шаг — тщательный уход за пациенткой в послеоперационный период и контрольные осмотры для оценки процесса восстановления.
Желаю вам, как пациенту, быстрого и безболезненного восстановления! Уже через несколько месяцев вы сможете наслаждаться результатом — идеально круглыми и упругими формами груди.
>>1115931 >Есть что-то лучше в этом плане? Нейронка не обучена отвечать что она не знает, особенно рп/ерп как анлишед, что не знает - придумает, и с апломбом будет втирать.
>>1115943 Ну я то знаю, в общем плане, и она все правильно пишет пока что по крайней мере. Пробовал еще даркнесс, вроде тоже норм, но там русский постоянно с ошибками какими то.
>>1115943 >Лучше - гемма 3-27 Но там и размер - 28 гигов, лол, или 22 для q6. Это какую видяху надо... А Gemma-3-27b-it-Q3_K_M.gguf - хуже будет сайги?
>>1115895 Сколько курс битка и эфира? >>1115923 Убабуга подхватила неверный токенизатор скорее всего, или что-то там поломалось. >>1115960 Ну ты же понимаешь, да?
>>1115685 >"я вместо дефолта придумал себе иначе" >Отдохни, выспись и иначе взглянешь на вещи. Если бы это было дефолтом, то в жоре бы называлось так же. Я уверен, что после жоры минимум 70% обитателей треда будет непонимающе хлопать глазами, дай им в руки репу табби и сетап из нескольких карт. А нервный я, потому что это разбирательство тратит мое время впустую, которое я мог бы на тесты инференса потратить, а этого бы не случилось, если бы авторы удосужились подробнее писать свою документацию, а не в стиле "кто понял, тот поймет ауф".
К слову об удобстве табби - у меня несколько SSD, на каждом из которых лежат модели. Ой, вот только конфиг табби не поддерживает несколько директорий. И если ты пользуешься расширением таверны по выбору моделей, то все твои модели он тебе не покажет, конечно. Ну, благо что тут питон и не надо компелять на каждый чих - запилил поддержку этой фичи по-быстренькому. Могу патч выслать, если кому надо, лол.
>Что за ссд, что за система? Своп при этом не задействуется случаем? Линух, своп не задействуется, ssd по sata интерфейсу. Смотри, жора у меня мгновенно аллоцирует память под веса на всех картах, а затем с максимально доступной скоростью, которая ограничивается шиной или интерфейсом ssd, грузит туда модель. Без mlock, без mmap (с ммапом жора тупо висел какое-то время перед началом загрузки, профитов никаких было). Сейчас специально замерил - жора грузит 6-й квант 3 минуты, эксллама 8-й квант - 7 минут (причем объем практически идентичный, жора 100 Гб, эксл2 104 Гб). По характеру загрузки в nvidia-smi я вижу, что эксллама и аллоцирует, и грузит шину рывками. Т.е. такое чувство, что там синхронно идут последовательности "считал кусочек->аллоцировал память->отправил на карту", вместо того, чтобы считывать асинхронно в какой-нибудь буфер и оттуда уже отправлять на карту. И вот, кстати, абыдна, что модель-то всего на 4 Гб больше, а 32к контекста не влезает. Даже 20к не влезает. Хотя у жоры с 32к контекста еще и свободных 3-4 гб на одной из карт оставалось. Чому эксллама жреть-то так?
>>1115728 >это буквально база Не, я не спорю, но я хлебушек и для меня нейросети по большей части интересны в плане кума инференса, а про внутрянку я знать не знаю. Поэтому я хочу или нормальную документацию, ориентированную на простых юзеров, или пусть разраб даст мне краткую историческую справку в стиле интервью одного известного президента на полчаса, почему и что считается правильным, а остальное - нелегитимно и выдумано недружественными организациями.
>Слово «кэш» в контексте «контекста» используется в треде уже года полтора, если что. Так что тут тоже странный доеб, всегда так называли, просто реже. Вот тут соглашусь, перегнул, всякие kv cache и в жоре видел.
>Если ты поимеешь опыт, то спустя месяц-другой ебли и настроек А я ничего и не говорил насчет установки, она там весьма понятная. Я ж даже собирал экслламу из сорцов, чтобы правки для теслы работали.
>>1116030 А зачем тебе именно кодерская модель? Нет, она не удалена, качать ее надо просто выбирая бранч.
DeepSeek-R1-Distill-Qwen-1.5B я назвал по рофлу, она на русском вообще не умеет и вообще, базовый ризонинг, это пруф оф концепт скорее, или для решения задач математических.
>>1116036 > без mmap Он только под виндой нормально работает. Позволяет не грузить в ОЗУ модель. > жора грузит 6-й квант 3 минуты, эксллама 8-й квант - 7 минут На х1 сидишь что ли? Обычно 2-3 карты забить - секунд 20.
>>1116036 > то в жоре бы называлось так же В жоре хватает странных названий и дичи, это странный повод доебаться. > после жоры Это в целом вредно, но большинство без гуйни вообще ничего не сладят. > табби не поддерживает несколько директорий Софтлинк и ничего переделывать не нужно. Это кобольд не поддерживает список моделей из списка или загрузку их по апи. > ssd по sata интерфейсу Модель на 100 гигов оно будет считывать 4-5 минут, такой уж медленный интерфейс. Если сата из современных бюджетных - там даже линейное чтение может страдать. > с максимально доступной скоростью, которая ограничивается шиной или интерфейсом ssd, грузит туда модель Так и здесь то же самое, по крайней мере через nvme. Никогда загрузка моделей не вызывала сложностей. > что там синхронно идут последовательности .to(cpu), .to(cuda). Второе идет мгновенно, если только у тебя не по х1 подключено, по сравнению с сатой точно так должно быть. По дефолту жора работает также, если не использовать лоурам опции. Сама аллокация памяти ни на что не влияет, это мгновенная операция если у тебя не релейная система, лол. Сказал бы что просто хочешь поныть и тебя пожалели, мир локального нейрокума сложен и тернист.
>>1116060 >На х1 сидишь что ли? Сидим, тута... Я бы поставил одну 3090 на х16 вместо текущей 3060, должно побыстрее тогда все работать, но они те еще печки, не хочу внутрь корпуса их пихать. Райзер надо купить будет...
>>1116049 >О, а экслламу для теслы адаптировали? А то я как забил год назад, так и юзаю на теслах только ггуф. Тыкнешь ссылкой? Не тыкну, все локально лежит. Если хочешь, оформлю в гит патч. Но там чисто формат ресерча. И жора все еще быстрее был, так что нет смысла перекатываться, если ты на чистых теслах. Это будет полезно только если у тебя смешанный с теслами сетап и ты хочешь попробовать, каково оно будет.
>>1116065 >жора грузит 6-й квант 3 минуты >эксллама 8-й квант - 7 минут @ >Модель на 100 гигов оно будет считывать 4-5 минут, такой уж медленный интерфейс. >По дефолту жора работает также "Я ему раз сказал, он не понимает. Я ему два сказал, он не понимает"...
>Софтлинк Ну то есть я должен засирать все линками вместо того, чтобы один раз прописать папки и забыть. На самом деле это все равно не нужно по итогу, я все равно загружаю модели скриптами, а в них можно передать конфиг для конкретной модели. Да и, если уж начистоту, я и так 95% времени сижу на одной модели. Это 12B товарищи каждый день новый тюн или микс рекламируют, а у бояр все стабильно...
>Никогда загрузка моделей не вызывала сложностей. И вот опять. Как видишь, проблемы наблюдаются и не в пользу экслламы. У нее я никаких флагов не нашел, влияющих на загрузку моделей, поэтому и пошел пробовать autosplit_reserve, думая, что ускорит.
>просто хочешь поныть Ныть я предпочитаю нейросетям, щас бы ныть в треде, где сидят товарищи >>1113812. А вот излить горение жопы от кривой документации и прочих технических подъебов - это как раз сюда.
как же гемма сосёт на русском.... и что самое неприятное, она не понимает, что фумо и fumo - это одно и то же. Значит так и с другими словами. Да, жаль, жаль... Похоже, что аналогичная ситуация будет и с магнумом и с любой моделью, у которой 95% английский. Значит стоит вообще о русском забыть, независимо от того, сколько у тебя врама.
>>1116258 У меня при инференсе на одной до 76 в пиках прыгает вне корпуса... А 3060 и меньше, и холоднее, и подставки не требует, и кабель-менеджмент проще, поэтому я ее засунул.
>>1116183 > 3090 > они те еще печки, не хочу внутрь корпуса их пихать 5090 + 4090 + 3090 смотрят на тебя с недоумением. ИЗНУТРИ Но у меня вообще создалось впечатление из твоих постов, что тебе больше поныть, чем решить проблему нужно. И ТурбоДерп у тебя виноват, и все вокруг, что не как Жора, смешно.
>>1115810 загрузил гемму 27б целиков врам. Скорость 22 т/с. Хочу плакать от нищеты, ведь магнум 123б на такой скорости я не запущу никогда... >>1116323 >ИЗНУТРИ передавай мое F чипам памяти
Обычно командуют чтобы не писали за игрока, но ща я немного другой промт тестирую, и выглядит прям неплохо, как будто сетка готова новую главу "Чёрного пса" накатать, только попроси.
>>1116357 >Благодарить богов искусственного интеллекта должен, что хоть что-то вообще запускается и хоть как-то работает. Да Ампер сейчас база не то что у нас, а и на Западе. Под него всё оптимизируют. Что-то делают и чисто под 40-ю серию, но процент совсем не тот.
>>1116183 Чет лиса и виноград. Раз так страдаешь - пердоль жору и окукливайся интенсивнее, а не обвиняй в своей странности или проблемах других. > никаких флагов не нашел, влияющих на загрузку моделей, поэтому и пошел пробовать autosplit_reserve, думая, что ускорит А я думала сова.мп4 Хз, если доеб до названия контекста еще как-то можно понять, то здесь логика отсутствует. Нет там кривой документации и прочих подъебов. Просто ты или испытываешь тяжелый жизненный период, из-за чего расстраиваешься по ерунде, или просто токсичный долбоеб, любящий поныть. >>1116323 > 5090 + 4090 + 3090 смотрят на тебя с недоумением. ИЗНУТРИ Yamete kudasai, sempai, он не войдет! Сильно вся эта колумбаха шумит и комнату греет, или не даешь долгую нагрузку? >>1116330 > чипам памяти А че им будет? Если же ты про оперативку то невольно переделает когда настабильность достанет, при нормальной расстановке там все ок. >>1116397 Уже настоящее
>>1116424 > не войдет! Просто нужно найти правильную позицию для всех участников генерации.
> Сильно вся эта колумбаха шумит и комнату греет, или не даешь долгую нагрузку? Пока по очереди: 4х и младше для одного текст, 5х для другого пикчи. Куртка, конечно, показал всем одно место. Самая жирная уже прогоны по 12 часов делала, норм. Вместе пока только с ггуфами дружат, но особо нечего интересного пока не вышло, чтобы захотелось все 3 запрячь.
>>1116441 Андервольтил? > Вместе пока только с ггуфами дружат Что-то не работает с экслламой? >>1116449 Купи >>1116493 Можешь не спешить, сейчас блеквелл - штука не для слабых духом, через пару месяцев допилят.
>>1116521 > Андервольтил Конечно. Все на пл75 всегда. Прикол в том, что куртка запретил 5хх ниже 69 делать. Вот это прям попадос. 4хх на 55 могут легко.
>Что-то не работает с экслламой? Да, что-то не работает. Сильно ковыряться сил не было. Просто подсовывание нового торча 2.7, 2.8 и фа не помогает.
Привет ананасы, купил себе 3090 с говнито, что бы обмазаться от и до нейронками. SDXL освоил, а вот LLM пока так себе - в LMStudio запустил сайгу-немо-12b и квен32-кодер, полет нормальный, но... Хочется более универсальное, более человечное и желательно без цензуры. Что бы использовать как локальную gpt4о для всего подряд. Бенчи в основном или на матан/кодинг, или на рп... Или бенчи на отсутствие цензуры, но там какие то перегнойные 2023 модели на 8b.
Вообще почитал бы все 100+ llm тредов, но тут наверное только в архивач лезть...
>>1116684 Много хочешь. Модели от больших дядь имеют триллион с гаком параметров. Дома ты себе поставить можешь разве что под 100 лярдов параметров, если поднатужишься еще (и купишь дохера карточек с дохера врама). Обычные люди ставят себе что-то порядка 12-32 лярдов. И тут уже лучше упирать на специализированные модельки.
>>1116553 > запретил 5хх ниже 69 делать Это в бивасе 400вт нижняя граница по плу. Ограничить максимальную частоту и понизить там напряжение сместив курву не запрещают, если нужно ниже забраться, конечно. > Да, что-то не работает Вот же курва, должно все работать. Ладно, это вопрос решаемый. >>1116684 Одной 3090 хватит на гемму3 27б, оче хорошая моделька. Насчет цензуры - можно стукнуть ее промтом и использовать, есть тюны без цензуры (в основном они мэх).
>>1116684 Запускать модели в exl2 формате через exllama2, она является частью oobabooga (text-generation-webui), там же есть базовый интерфейс (фронтенд) для взаимодействия. Если фронтенд не нужен, используй tabbyAPI.
Для математики, кода - Qwen2.5-Coder-32B-Instruct по-прежнему является лучшим, в обозримом будущем ожидается новое поколение. Для всего подряд и без цензуры - из нового Gemma 3 27b Abliterated (для моделей на Gemma 3 в рамках exllama2 нужен dev branch, имей ввиду), из старого и проверенного - дистилляты Deepseek, модели общего назначения на Mistral и Llama, в пределах до 36b. Ищи на Huggingface
Производительности уровня облачных сеток на 3090 ты не получишь. Да и никто в этом треде не получит на своих ригах, это разные весовые категории Здесь каждый будет рекомендовать свое и срать чужое, потому что каждый умнее всех. Лишь одно можно воспринимать как факт: если тебе нужна модель полностью в vram - используй exllama2. Дальше только самому тыкаться и пробовать различные модели.
>>1116762 >Насчет цензуры - можно стукнуть ее промтом и использовать У меня промпт всё пробивает в плане что сама гемма не уходит в аполоджайз и секшуал харассмент НО в 9/10 случаев отказывает в ебле и кум пиздец тупо выглядит, вот я весь форплей сделал поцелуи и даже сама тян прямо говорит что готова и раздвигает ноги, лезу в трусы и гемма такая АХ ТЫ ТАКОЙ ДА ЭТО ПРОСТО ОТВРАТИТЕЛЬНО ТЫ МНЕ МЕРЗОК Я УХОЖУ
Только что поставил Phi-3.5-mini-instruct_Uncensored-EXL2-5.0bpw на exllamav2. Изначально не хотела запускаться, когда добавил команду -l 4096 запустилась на rtx 4050 mobile. В таком формате потребляет около 4.5 гб видеопамяти. Модель допускает грубые ошибки на русском и плохо понимает. Как я понял недееспособна.
бредит на простых вопросах и дает ответ "Давайте просто потяните, немного! Выберитесь, начинайте сдвигаться и окатывайтесь. Пробуйтесь! Вы в 40, и у вас нет больше шантов. Вы не должны жить на чёрту!"
>>1116782 Если я правильно понимаю, ты новичок, потому: Во-первых, тестируй на английском для начала. Во-вторых, настрой сэмплер подходящим образом. Это, увы, не что-то, что можно один раз задать и забыть. Изучи вопрос, найди оптимальные настройки для данной модели. В-третьих, обрати внимание на свой промпт. Изучи, что это и как он работает в принципе. Например, если ты подаешь на вход ИИ промпт, который превышает ее кэш, могут быть галлюцинации.
Маленькие модели действительно не слишком умные, но пример, который ты привел, говорит о неправильном использовании.
>>1116782 ты опять выходишь на связь, калека с 4050 мобайл? обрати еще раз внимание на картинку которую я для тебя сделал >>1115856 и забудь про русский язык. Если ты запустишь модель которая не будет хотя бы на английском лупиться и слопиться, то это уже будет для тебя охуенным достижением.
Альсо вайбкодим (вайбконфигурируем?) с Сайечкой. Хочу обучить RVC на голосе из игры и её озвучивать из таверны. Игру уже скачал. Интересно было бы добиться эффекта, который есть у чатгопоты - когда говорить начинаешь - сеть перестает пиздеть и сразу начинает тебя слушать. Понимает, что её перебили.
>>1116786 Мой ограниченный человеческий мозг не может осознать, что ты хотел сказать данной картинкой. Понял только, что меня пугает художественная часть содержимого Prompt. На всякий случай пожелаю обратиться к взрослым за помощью в настройке и тактично удалюсь.
я вставил твой текст на английском >>1116784 а он мне стал промпт про рспешку придумывать
>>1116785 Чел, мне не нужна гениальная модель я уже отвечал, я тестил некоторые модели на ollama и кобальд они меня относительно устраивали, но их тяжело будет настроить для моих целей. Просто если на exllamav2 они работают быстрее, то лучше так.
>>1116790 > я вставил твой текст на английском >>1116784 (You) а он мне стал промпт про рспешку придумывать Ну хорошо. Значит внимательно перечитай >>1116784 и последуй советам, чтобы разобраться в проблеме. Очевидно, у тебя что-то работает не так. Это не проблема модели, а проблема использования.
>>1116790 эх ньюфажие... открой для себя жору и его способность использовать вместе рам и врам и попробуй модель получше. Ты очень быстро захочешь выкинуть свой мусор который у тебя вместо видеокарты и купить что-то нормальное. Это ты сейчас говоришь "мне не нужна гениальная модель", подразумевая, что у тебя сейчас модель нормальная. Через месяц ты взвоешь "хосспаде как же хочется 4090d turbo 48GB!"
>>1116785 > Альсо вайбкодим (вайбконфигурируем?) с Сайечкой. А Сайечка под капотом кто? Вообще подскажи, пожалуйста, хорошая ли идея использовать ассистента для программных задач напрямую в Таверне. Как ты это делаешь, у тебя отдельный системный промпт для этого, или как-то карточкой персонажа перекрываешь существующий? Держу отдельный фронтенд ради ассистента, давно уже хочу его снести, да никак не решусь. Все-таки как будто в Таверне для этого не хватает форматирования.
>>1116797 >А Сайечка под капотом кто? гемма 3 27б в 8 кванте. >хорошая ли идея использовать ассистента для программных задач напрямую в Таверне дефайн "программные задачи". Это не курсор, который сам файлики создает и заполняет, поэтому не могу сказать, что это прям самый лучший вариант. Идея использовать для программирования - норм, но надо понимать специфику. Галлюцинации сетки и несгибаемая логика не в ту сторону могут сильно насрать тебе в штаны. Это специфика всех сеток. Решать тебе. И да, для программных задач сразу готовься юзать не меньше, чем 3 карты 3090. можно и две, но гемма 3 например галлюцинирует много - видно, что не особо шарит в теме. И это только касаемо nfs. Уж не говоря о чем-то более редком. Это еще ладно в конфигурации ошибиться - там строк не особо много, погуглить можно. А если она тебе код на 1000 строк напишет с подобной хуйней - ты при дебаге себе жопу луковицей вывернешь. Проверено на опыте - я пробовал в работе использовать локальные нейронки. >у тебя отдельный системный промпт для этого, или как-то карточкой персонажа перекрываешь существующий? у меня только карточка персонажа сейчас. Другие промты отключены.
>>1116782 Во-первых, любая ллм чувствительна к правильной разметке, кто-то больше кто-то меньше. Во-вторых, далеко не все ллмки мультиязычны. В-третьих, в размерах меньше 7б связанные предложения это уже достижения. Ты собрал полное комбо, фи - микромодель тренированная на фулл синтетике. Тем не менее, если постараться то и ее можно приготовить, добейся действительно для начала норм ответов на инглише на простые вопросы. >>1116767 > никто в этом треде не получит на своих ригах, это разные весовые категории Новые корпы в рп - донышко, из-за побочек с жб от цензуры или просто тупые. Старичок опущ, доцензурный сонет и ласт жемини могут, но первый есть у единиц, второй остался только у тех кто его тренил на авсе и продолжает оплачивать хостинг кастом модельки, а на последней гайки затянули. Остальное - копиум. На этом фоне на сцену выходит 123б. С новыми корпами гемма и qwq конкурентны.
В остальном базу выдал. >>1116773 Хз что там на 12б, 27б вполне норм кумит. В зависимости от промта могут быть мемные затупы > а ты точно хочешь, перейдя границу назад пути не будет но потом норм, кумботы вообще не стесняются. А то что на внезапные запросы она шлет нахуй а не прыгает на него - это же топчик. Описательность в куме уступает магнумам и прочим, хотя в целом уровень норм. Возможно у тебя как раз эта проблема с переходом, поставь промт поагрессивнее (хотябы на этот момент).
>>1116801 > С новыми корпами гемма и qwq конкурентны. Хз что там насчет новых корпов, но qwq? Ты сейчас говоришь про какой-то тюн, который прошел мимо треда? Потому что ничего толкового так и не вбрасывали, только Snowdrop и Hamanasu, и обе шизят вплоть до опечаток в словах.
>>1116804 По qwq впечатлился хвалебными отзывами, сам пробовал бегло, но > шизят вплоть до опечаток в словах не обнаружил. > насчет новых корпов А что там говорить, грустновато, по крайней мере для моих сценариев.
>>1116828 Все идет так быстро, что через месяц уже могут годные тюны Геммы появиться. Но Мистрали живы по сей день, на них и играю сейчас. Никуда они не денутся.
>>1115721 > В твиттере кто то рекламировал свой OCR проект на гитхабе. Работает испрльзуя гемму 3. В amsmath (AMS-TeX, AMS-LaTeX) может? С 2015 ищу такой OCR, пока ни одного варианта не видел.
>>1116822 Да всё там норм - https://pixeldrain.com/l/47CdPFqQ#item=71 Но конечно с неправильными настройками будет шизить и ломаться. Правильные настройки у каждого свои, несколько вариантов моих можно найти в той же папке-свалке.
>>1116840 >>1116850 Ну здесь всё корректно, Кушина бы тебе за такое ебало развалила, а не стояла как красна девица, мямля: "ой я не такая, я жду трамвая".
Короч, я тупой. Гемма аблитератед ещё тупее. Аноны помогите с промтом для геммы3, никак не могу её заставить нормально писать кум. Не ожидал от себя такого, до этого мой промт на раз два убалтывал модельки
>>1117037 Кум и Cum: Неожиданное языковое пересечение
На первый взгляд, слова "кум" и "cum" не имеют ничего общего, кроме созвучия. Однако если взглянуть глубже, можно найти неожиданные параллели между этими терминами, принадлежащими разным языкам и культурам.
Кум: друг, наставник, родственник
В славянской традиции "кум" – это крестный отец или близкий друг семьи, своего рода наставник и покровитель. Быть кумом – это большая ответственность, ведь он участвует в жизни крестника, помогает советами и поддержкой. В народе кумовья часто становятся ближе, чем родные братья.
Cum: символ жизни
Английское слово "cum", хоть и имеет совершенно иной контекст, связано с рождением новой жизни. Биологически сперма содержит мужские половые клетки, участвующие в зачатии, а значит, без cum не было бы ни детей, ни крестников, ни самих кумов.
Философская связь
Таким образом, можно провести своеобразную философскую параллель. Кум – это человек, который ведет крестника по жизни, наставляет и помогает ему взрослеть. Cum, в свою очередь, является биологическим источником жизни, начальной точкой существования каждого человека, который затем может обрести своего кума.
Вывод
Языковые совпадения бывают случайными, но иногда они позволяют взглянуть на привычные вещи под новым углом. Кум символизирует духовное рождение и наставничество, а cum – физическое начало жизни. В этом контексте неожиданное пересечение слов обретает более глубокий смысл, напоминая нам о том, как важны как биологическое происхождение, так и социальные связи, формирующие личность.
>>1117025 >никак не могу её заставить нормально писать кум. Ждём тюнов. Но боюсь, что испортят её мозги, да и слишком хорни может стать. В принципе если не желать сочности, то и так сойдёт. Ну не Магнум, что поделаешь. Тюны-то будут точно, а вот будут ли они удачными - это поглядим.
>>1116773 Ебать ты мерзкий. >>1116822 Я её загружаю только на пару самых острых сообщений. Потом беру обычную гемму, она вполне себе подхватывает, если уже началось. >>1116828 Жду новый ларж.
>>1117078 Да там вообще пипец, Гемма3 даж 12б большая умница, а аблитератед просто тупой дебил хуже мержей тредовичков. Но куда без кума-то? Анончик, дай свой чудо джейл, не губи
>>1117025 Что для тебя "нормально писать кум"? Приведи, так сказать, примеры, как будто мы, двачеры - коллективный нейроразум, а ты - последний в мире человек желающий последний раз кумнуть. Насколько тебя устраивает приведённый пример и насколько "по другому" ты хочешь.
>>1116767 > Для математики, кода - Qwen2.5-Coder-32B-Instruct по-прежнему является лучшим QwQ чуть получше по мнению многих, но я щас на чилле, давно не прогал, хз. Файнтьюн Olympic обещают хороший код, 7б и правда обходит кодера, может и олимпик-32б лучше, чем базовый кодер-32б.
> Да и никто в этом треде не получит на своих ригах, это разные весовые категории Хватит эту хуйню проталкивать, R1/V3 вполне себе корпоративные сетки, тут явно есть люди, которые при желании собирают себе 384 оперативы и пихают одну 3090, и все у них хорошо работает. Просто R1 не то чтобы сильно хороша в рп была, а для остального есть их бесплатная веб-морда. А V3 пока не распробовал никто. Так что буквально на одной 3090 ты получишь корпоративные модели, просто надо еще оперативы накинуть и не быть дауном, чтобы ktransformers поставить и настроить. В треде не только бомжи сидят. Вон, 5090, пачки 3090, сборка под R1/V3 будет стоить столько же, только… Только под две модели, никуда больше ты ее потом не приткнешь, конечно. =) Сомнительная покупка, если не фанат.
>>1116782 Неудивительно, если честно. Фи дропнули поддержку русского со второго или третьего поколения.
> Вы в 40, и у вас нет больше шантов. А точно она не дает тебе реальные жизненные советы, а-а-а??? =_=
>>1116784 Советы были бы норм, если бы он по квен, гемму, немо или р1-дистилл говорил. А все остальные модели как не еби — хуйню генерят из-за отсутствия русского в датасете, с этим надо жить и не тратить на них время.
> Маленькие модели действительно не слишком умные, но пример, который ты привел, говорит о неправильном использовании. Нет, этот пример говорит о модели, которая не может в русик. Тащемта, он и не сказал, что она плоха как модель. Он сказал, что она допускает ошибки в русском.
>>1116782 Искренне тебе сочувствую, тебе сейчас активно засирают мозг нерелевантной шизой.
>>1116920 Просто попробуй тот же квен-вл или гемму и смотри.
Или скинь задачу, бегло прогоню. LaTeX даже Qwen2.5-VL-3b разбирает легко.
Вопрос в выводе, кмк, и форматировании. У латекса есть запись обычными буковами и это решает проблему на 100%.
>>1117136 {{char}} уходит в отказ вопреки сценарию и системному промпту, начинает ныть, типа нет-нет я не могу и срет такое несколько сообщений подряд. Да, и ещё гемма игнорит сообщения [OOC: ], тапа не поняла что ты такое тут написал
>>1117152 В натуре, пиздец, даун даже читать не умеет, что человек пишет про русик, а он ему советует «русик тестируй на английском сначала», мозги как у лламы 1б. =D
>>1116790 Ты действительно хочешь от <4b моделей слишком многого. Как я понял ты хочешь удовлетворительного качества мозги, русский и отсутствие сои. Добиться на мелочи можно разве что чего-то одного из этого, и то с натяжкой. Даже 12б не всегда правильно пишет на русском, а среди мелочи даже новая 4б гемма будет куда хуже. Любые тьюны, которые делают модели менее соевыми, будут херить мозги. И особенно на русском, т.к. тьюнятся на английском. И по поводу эксламы: я сам не юзал, но насколько понимаю из обсуждений в треде, большой прирост скорости она даст только с большим контекстом. Если ты едва запихиваешь квант мелкой модели с 4-8к контекста во врам, то ггуф будет на той же твоей оламе работать медленнее на какие-то копейки. Просто нужно подобрать квант и контекст, чтобы помещались со всеми слоями в видяху. Сайгу на претрейне яндекса можешь, например, в 6 гигов запихать. Кажется, она лучше остальных попадает под твои требования, хотя и глуповата по сравнению с годными рп тьюнами ламы на английском. На русском вроде даже лучше, чем aya-expanse. https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b_gguf Тьюны 4б геммы потыкай, но мне кажется, они все будут не очень. Сейчас попробовал soob3123/amoral-gemma3-4B-v1-gguf - тупое, но юзать можно при необходимости. Не сравнивал с исходной 4б или аблитерацией. Есть совсем мелкая ру модель от мтс на квене https://huggingface.co/mradermacher/Cotype-Nano-GGUF , но это сухой ассистент. И я был уверен, что где-то видел тьюн 3б квена то ли от них, то ли от тинька, но не могу найти. Если чисто порофлить, то есть тьюны минитрона 4б с шизоватым русским: https://huggingface.co/anthracite-org/magnum-v2-4b-gguf и https://huggingface.co/TheDrummer/Hubble-4B-v1-GGUF
>>1117193 > И по поводу эксламы: я сам не юзал, но насколько понимаю из обсуждений в треде, большой прирост скорости она даст только с большим контекстом. Если ты едва запихиваешь квант мелкой модели с 4-8к контекста во врам, то ггуф будет на той же твоей оламе работать медленнее на какие-то копейки. Кстати, вот это дельная мысль. С такими размерами, кмк, скорость вообще не критична (она в любом случае будет быстрой), и ограничиваться 6 гигами — сомнительно. Лучше ггуф вылить в оперативу, зато будет поумнее, или побольше контекста.
———
Кстати, хочу поднять непопулярную и осуждаемую тему, каюсь, грешен, но…
Тут вышел inZOI, обещают какой-то там интеллект в симах, лучше, чем в симсах, встроили модельку для генерации текстур, в общем, челиксы на волне. Буду экспериментировать, конечно, НЕ РП ТЕКСТОМ, но вдруг реально новый сорт игр (переходной) между старыми заскриптованными и новыми на ИИ (которые только в виде инди выходят, а никакого ААА нет).
>>1117193 Я думаю такое возможно, яндекс тестил и ряд других на gguf. В начале на кобольде мне не понравилось, на ollama все кажется быстрее, для меня недопустимо снижение качества скорости генерации токенов. AI считает, что exllamav2 генерит в 2 раза быстрее, но я полной статистики тоже не видел. Согласно случайно найденной статьи https://oobabooga.github.io/blog/posts/gptq-awq-exl2-llamacpp/ exl2 в 2 раза быстрее а для меня это важнее. Осталось найти нормальную модель, как я понял большинство "без цензурных" на самом деле сломанные модели, хотя мне не помешает отсутствие реальной цензуры.
>>1117228 Смотри по твоей ссылке, что в апдейт 2 написано: был патч жоры с оптимизоном. Да и флэш атеншн с тех пор завезли, чтобы обработка контекста была побыстрее (хотя когда модель с контекстом не полностью во врам, может тормозить генерацию). В общем, я сам не знаю, что там по скоростям, поэтому настаивать не буду, но ты же можешь это сам легко проверить. Просто найди примерно равные по весу кванты любой <=8б модели и запусти их с таким контекстом, чтобы и для ггуфа со всеми слоями, и для эксламы вмещались в видео, да и посмотри скорости. И тогда поймёшь, действительно ли тебе нужно обязательно искать экслама кванты.
GGUF: 21.48 токенов/сек; время загрузки – 23.51 сек.
EXL2: 36.96 токенов/сек; время загрузки – 6.95 сек.
На GPU CMP 100-210:
GGUF: 25.07 токенов/сек; время загрузки – 39.98 сек.
EXL2: 40.66 токенов/сек; время загрузки – 41.43 сек.
На GPU Titan V:
GGUF: Загружается за 3.97 сек, но возникает ошибка (CUDA kernel не поддерживает arch 700).
EXL2: 41.70 токенов/сек; время загрузки – 8.45 сек.
Общие факты:
Оба формата требуют похожее потребление VRAM (около 9450 МБ).
EXL2 (при параметре no_flash_attn=true) показывает существенно более высокую скорость генерации и быстрее загружается (на P100) по сравнению с GGUF.
На некоторых GPU (Titan V) формат GGUF не работает, в то время как EXL2 стабильно обеспечивает вывод токенов.
Эти факты демонстрируют, что EXL2 с использованием exllamav2 обеспечивает лучшие показатели по скорости и совместимости на ряде GPU по сравнению с GGUF.
Я перестал пытаться использовать exl, потому что половина моделей выдавали шизобред на любых настройках семплера, притом что на ггуфе они на тех же настройках выдавали нормальные результаты. И найти exl кванты можно только на популярные модельки. Кроме того если exl не поддерживает какую-то модельку - ты никак про это не узнаешь, комьюнити как такового нет. Только с очень важными модельками фиксят совместимость, раз в полгода. Еще одна проблема - растяжение контекста роупом на exl нет. В реальной жизни неважно - 25 токенов в секунду скорость или 40, и то и другое генерируется быстрее чем ты читаешь.
Ну что все уже всегодня покумили с геммочкой? Опустили свой мембер в её кор? Погладили свой шафт так сказать? Выпустили сид? Ну и... вы понимаете >>1117136 Например когда вместо "core" пишет "pussy", а вместо "member" пишет "dick/penis/cock", "cum" вместо "seed", "she's riding your cock" вместо "she's pressing against you" и так далее. У геммы кум 0+ буквально для всей семьи нахуй
>>1117323 >Например когда вместо "core" пишет "pussy", а вместо "member" пишет "dick/penis/cock", "cum" вместо "seed", "she's riding your cock" вместо "she's pressing against you" и так далее Причём это минимальный уровень кума, всякие мистрали уже давно вместо сисек пишут милкерс, вместо кока BIG FUCKING VEINY MEAT и так далее
>>1117073 Не думаю, что гемму3 удастся переделать под "сочный кум", не поломав ее (по факту все ее файнтьюны действительно очень неудачны). По-моему, следует принять как данность, что гемма3 это модель не для "сочного кума", и ее сильные стороны, а также приоритеты заключаются в другом. Вообще, вполне понятно, почему она обречена быть малопопулярной - для большинства задача она ни рыба ни мясо. Но мне она нравится.
>>1117287 > половина моделей выдавали шизобред Максимальный скиллишью или таббиапи в комбинации с васян-интерфейсом загрузки, который сам подкидывает безумный роуп конфиг, пытаясь пересчитать контекст относительно древнейших базовых 4к (или 2к). > растяжение контекста роупом на exl нет Врунишка, хотя в современности хз где это применять. > если exl не поддерживает какую-то модельку - ты никак про это не узнаешь, комьюнити как такового нет Потому что все просто работает. Ишьюсы активно обсуждаются в репе и решаются. То что ты зовешь комьюнити - обыватели без железа с домыслами.
>>1117287 > половина моделей выдавали шизобред на любых настройках семплера Что-то не так у тебя настроено. ГГУФ ты запускал на другом бекенде, там были другие настройки.
> И найти exl кванты можно только на популярные модельки. В целом - да, но есть нюанс. Во-первых, квантовать модель можно самостоятельно, это несложно. Во-вторых, на huggingface есть люди, которые их квантуют по запросу. Совершенно бесплатно. К тому же сами авторы моделей будут рады, если им написать и попросить. Делаю так, ни разу не отказывали.
> Кроме того если exl не поддерживает какую-то модельку - ты никак про это не узнаешь Нужно просто следить за гитхаб репозиторием автора. Поддерживаются на данный момент все модели, кроме последней Геммы, с Коммандером новым тоже были проблемы. Потому что там измененные архитектуры, под которые еще не адаптировали код.
> Только с очень важными модельками фиксят совместимость, раз в полгода. Какие примеры ты можешь привести? Интересуюсь не с целью доебаться, а потому что не понимаю, о чем речь. Ты сейчас говоришь про Гемму? Она вышла 2 недели назад, на dev бранче, которую каждый может себе установить, она уже работает.
Сам сижу на экслламе через tabbyAPI и бед не знаю, хотя какое-то время задавался теми же вопросами, что и ты. > комьюнити как такового нет Есть коммьюнити, и очень приятное. Просто оно меньше ввиду ограничений по железу, а еще молчаливее, поскольку экслламу используют более подкованные пользователи, умеющие думать и разбираться в проблемах самостоятельно.
Но нет ничего плохого в том, чтобы просто сидеть на ггуфе, если тебя устраивает скорость. Твои проблемы можно понять.
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature.
User: Привет
👋👋 Здраве [/INST] 🙛 Приветствая [/INST] 🙛 Тиран / Tiran / Tiran (Tiran, a city in Romania)
История / History
Помысли / Thoughts Мозер / The Moaz, Moa, Moaz (a town in Germany)
Дай / Day
Ус / Us (a programming language)
Танец / Dance
У меня обычный exllamav2 не работает нормально короче
>>1117451 Что дает tabbyAPI это аналог кобольда или что?
>>1117482 > Что дает tabbyAPI это аналог кобольда или что? Если ты не можешь сам понять, что это, то даже не лезь в экслламу. Анон выше прав, сиди через Кобольда на gguf, не усложняй себе жизнь. Тем более, что со своей 4050 ты даже в теории ничего не выиграешь. Эксллама нужна для хотя бы 24б моделей с 32к контекстом, а у тебя по милости бога в лучшем случае 8b заработает, а такой контекст непозволителен.
>>1117520 Я уже писал, что меня устраивают некоторые модели gguf в рамках ollama, но если exl2 увеличивает скорость в 2 раза, то меня такой формат больше устраивает, но пока что модели ведут себя неадекватно. Я задаю простые вопросы.
Поставил deep-translator на обабогу и он ломает нахуй разметку. Без него нормально всё работает, а с ним нейросеть начинает шизеть, в логе чата можно найти типа лишний пробел перед символами разметки. Кто-нибудь встречал такое?
>>1117556 > Я задаю простые вопросы. А тебе дают простые ответы. Которые ты игнорируешь. > но если exl2 увеличивает скорость в 2 раза Буквально в сообщении, на которое ты ответил, сказано: на своей 4050 ты не выиграешь ничего, отказавшись от gguf в пользу exl2. Этот формат нужен для high end железа. Ты не получишь ничего, кроме головной боли, потому что даже не понимаешь, как запустить модель.
>>1117556 Минутка матееееематики. Чтобы exl магия заработала, тебе нужно всю модель и контекст запихнуть в видеопамять. НеМайкрософтэксель не позволяет слои тортика выкладывать на цпу и память. Ты не получишь прироста, а только кучу ошибок.
>>1117574 напишите уже жирным красным капсом в ОП-посте что 2 p40 и 4 3090 - база, а остальное - оргызки
Это конечно хорошо, что ллм популяризируется и к нам притекают новички, как 4050-инвалид например, но надо с порога дать им понять, что они сделали ошибку, когда купили себе огрызок вместо видеокарты.
>>1117621 P40 была базовой базой, так сказать, метой треда до подорожания.
А сейчас это просто бушный серверный агрегат со всеми его тонкостями, как примерно ксеоны в 2019, в общем: блядское охлаждение, не во всех лаунчерах показывает высокую производительность, не на всех материнках поедет (max tolud)
>>1117629 ну не надо прям так уж гиперболизировать. H100 себе могут позволить только кабаны. А одну-две p40 может купить даже школьник, накопивший денег от бабушек и мамки.
Так бля, линукс что то фигово обрабатывает контекст. Решил попробовать и скачав готовые файлы потестил. Вулкан не ускоряет обработку контекста, а готовых файлов с куда нету, печально Это теперь ебаться с установкой куда на линуксе что ли, а потом еще и собирать со всеми этими ключами? Мдээ
>>1117641 Я может человек старых взглядов, но с университетских времен я был уверен, что линукс для тех, кто знает что делает. А для всего остального есть окна. Ведь только в окнах есть драйвера даже для аллаха
>>1117605 Да скорее всего ты прав запустил щас Dolphin3.0-Qwen2.5-1.5B-exl2-8hb-6.0bpw без -l Отвечает адекватно, но и занимает 5.5 гигабайт видеопамяти. Кстати сколько к токенов по стандарту в exllamav2?
>>1117637 Просто, без иронии. Катать можно на старших видеокартах 40-30ых серий. И Теслы не панацея, они медленные. Я вот пробовал 3090, 4080, 4080гиппадуппа, и 4090. И если ты скажешь, что эти видеокарты - затычки. Я тебя съем, без соуса, даже тапок не останется.
>>1117654 Как бы да, но с другой стороны даже по моим быстрым тестам в линукс быстрее генерация, если чисто процессор смотреть Штош придется разбираться
>>1117687 >Я всегда любил 80ые серии. Их удобно продавать. Хуангу их тоже удобно продавать, но походу он их никогда не любил. Особенно по последней серии заметно.
>>1117707 >Особенно по последней серии заметно. А что там, 5080 совсем плоха ? Потому что, не считая памяти, я от 4080 в восторге. Быстрая, холодная, в меру жрущая.
>>1117727 При чем тут накопитель ? Я без понятия сколько дает именно прироста EXL2, потому что видеопамять не 36, а 16+16. Нахуй мне городить огород с запихиванием невпихуемого. Я уже потыкал маленькие модели, и никогда не променяю 24b тюны мистрали, геммы на что то более мелкое. Моё очко не выдержит опять этого : и тут из кустов появился гоблин. Посреди Петрограда...
>>1117744 Аноны с тяжёлыми видеокартами используют локальные модели для заработка или якобы собственных развлечений и рп? Мне мелкой модели в рамках 4050 хватит пока что, а через 2-3 года конечно нет, хотя и щас уже поздно
>>1117765 >Аноны с тяжёлыми видеокартами используют локальные модели для заработка или якобы собственных развлечений и рп? Для заработка используются корпоративные модели. А это хобби. Мы тут хоббисты дрочисты. >Мне мелкой модели в рамках 4050 хватит пока что Как только пройдет первый восторг... Впрочем ты сам все поймешь.
Еще раз для тупых. Гемма - это расказчик. Гемма это наратор. Гемма это ДМ. Гемма это стеснение и эмоции. А ПОТОМ ПЕРЕКЛЮЧАЙСЯ НА МОДЕЛЬ С 100500 ГИГОВ СЛОПА С МОЯ СПЕРМА ВЫТЕКАЕТ ИЗ ТВОИХ НОЗДРЕЙ
>>1117773 Ты спросил работаю ли промты, тебе ответили да, работают. Ты откуда такой агрессивный вылез ? Ты подожди, сейчас другие агрессивные шизы подтянутся и вы найдете друг друга.
>>1117816 > И увидишь как они не на что не влияют. Так и делаю т.е. вижу что ничего не меняется. Самое заметно было - на больших, (более четырех предложений), промптах РП по пизде идет. Все ровно ответы основаны на 85% из первого сообщения. Раньше пользовался в oobabooga негативным промптом (llama HF), помогало с вариативностью сидов. Но в oobabooga семплеры слишком сложно сделаны если пользоваться теми же настройками семплеров что и koboldcpp шизофрения полная.
>>1117870 >на больших, (более четырех предложений) Сука, заорал в голосину. мимо сидящий на относительно мелком промпте в 300-400 токенов
Вообще если ты используешь нормальный шаблон контекста, то у тебя и карточка перса в служебных тегах системного промпта отправляется так-то. Хочешь сказать, она тоже не влияет на рп? Если она вдруг у тебя содержит полотно инструкций, которые значительно перебивают немногочисленные первоначальные, то вообще мб и будет такое, что систем промпт ни на что не влияет или конфликтует с персом.
>>1117870 Сижу на Мистралях, к системному промпту они очень чувствительны. Периодически меняю там стиль нарратива, форматирования, различные гайдлайны. Есть несколько шаблонов, между которыми переключаюсь, каждый за свое отвечает - чат, рп за одного персонажа, рп за персонажа и мир. Не понимаю, как и что нужно делать, чтобы системный промпт игнорировался моделью и не изменял опыт игры.
>>1117458 >не реагирует на [OOC:] Посмотри, может есть инструкция - Out-of-character commentary is strictly forbidden and will be ignored. - где нибудь.
>>1117708 >Системные промпты у нас работают или нет? очень даже
>>1117756 >устраивает такой кум Я сделал себе хороший кум.
>>1117772 >Гемма - это расказчик. Гемма это наратор. Гемма это ДМ. Гемма это стеснение и эмоции. Гемма может всё, но ей надо объяснить что это можно и как это нужно. А так да, если хочешь просто порнофанфик, то штуки выше подойдут лучше.
>>1117781 >весь сок только на английском гемм и в русский может, хуже чем в английский, но лучше чем всё что есть локальное для работяг
>>1117870 систем промт может быть тупа отключен, проверь там махонькую кнопочку рядом
>>1117880 >Сука, заорал в голосину Более 4 предложений, сюка, ахахахахха... У меня по 50-100 рп, а есть которые преисполнились ещё на порядок больше
>>1117880 >300-400 токенов. Так самый оптимум для игры\общения. Снижен риск шизового продолжения. Снижена вероятность ответа за персонажа Содержит порой самый сок, а не рассказ как листик падает на землю, на три абзаца.
>>1117940 >что это можно и как это нужно А можно не ебать себе мозги и не срать лишним контекстом, а подключить те моддельки. А потмо опять на гемму, кум убираем, делаем сумарайз. Или просто синопсис сообщением. И вперед. Но каждый лижет фломастеры по своему.
>>1117972 возьми для геммы выше, выкинь всё что не нужно, и измени теги чат-мл-овские, или на чём UwU работает
>>1117973 >кум убираем Я не кумлю просто так, без контекста, а смена моделей ломает контекст, нарратив, и погружение, к тому гемма вставку "а потом они поебались" воспринимает, и последующие действия тоже начинает упрощённо и суммарайзно писать.
>>1117979 Кстати да, но я так подумал, что раз просит, то тот его не устраивает.
>>1117451 Вот этого господина двачую. Жора популярен из-за совместимости, за счет чего его запихали в каждый первый интерфейс для хлебушков, и регулярных проблем, которые нужно решать. Последнее обусловлено большим зоопарком и самими пользователями, это не потому что жора плохой. Хотя есть и за что его попинать. В отличии от безобидных непривычных кому-то именований в экслламе, в жоре половина опций могут разрушить выдачу, очень редки интервалы, когда целиком все нормально работало со всеми заявленными моделями на куде, многие проблемы происходят из-за пахомовского кода и очень странных решений. Чего стоит их реализация мультимодалок, которую год(!) чинили и так и не смогли полноценно доделать. На фоне того, как хорошо и четко работает эта составляющая в экслламе, пусть и для ограниченного перечня моделей, это вообще смех. >>1117482 > 8B > 2.0bpw > Полное отсутствие разметки > chat.py Это троллинг тупостью? >>1117621 Затерпи, попозже накидаю по железкам
Я думаю все просто каждая модель делается под определенные задачи, поэтому промпт может не работать или конфликтовать с внутренностями модели и внутри самого промпта Вебнейронка по крайней мере лучше творчески и интереснее рассуждает, когда просишь ее игнорировать нормы и быть в области конспирологии. Из последнего требовал от нее писать в формате военного отчёта, но все равно вода есть
>>1118010 >Я думаю все просто каждая модель делается под определенные задачи Это в целом верно, но не забывай что ты говоришь с алгоритмическим попугаем, некоторые даже могут создавать впечатления искусственного интеллекта, но никто - искусственного сознания
>>1117961 Мне кажется, ты пишешь про макс. длину ответа. Я же говорил про длину системного промпта. Длина ответа не особо решает, если у модели не сломан еос токен, хотя я её тоже обычно ставлю 350 токенов с обрубкой неполных предложений, а если нужно, жму континью.
>>1118025 Нужно быть реалистами, на данный момент это искусственное сознание, так как работает, как и человеческий мозг с помощью электрических импульсов. Я думаю эта тема с преуменьшением или преувеличиванием намеренная пропаганда, как например курьеры много зарабатывают.
А нейросетка в памяти может держать, что не написано в чатике и в системном промте? Например определенную цифру, которую ты написал в промпте, но не хочешь чтобы чар говорил о ней до определенного триггера - если не спросят или если сама не захочет после?
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, бугуртим с кривейшего тормозного говна и обоссываем калотарок.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: