В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>she asks, her voice a low, suggestive murmur >her lips curl into a knowing smile Как же меня бесит гемма этой хуйнёй. Ну ты же знаешь что нихуя не будет, что ты не дашь письку ебать и даже не думаешь об этом, эти намеки это просто скрипт ради скрипта, я же возьму тебя за жопу и ты завизжишь как свинья резанная про харасмент, что это неуместно и выпучишь глаза смотря на меня в ужасе, даже если я твой муж и ебу тебя уже 10 лет, ебаная тарелочница, ну не притворяйся ты нормальной моделью, ебаный ты робот блять.
>>1200739 Используй ДПО и не еби мозги. Потерь по сравнению с ванилой особых не замечено. Не учатся и учиться не хотят, совсем им от Гугла башню сносит. Ты им про тюны, они про джейлбрейк
>>1200743 > ДПО - лоботомит, точка. Пруфы данного утверждения будут ? Я пока слышу только жалобы, что дпо лоботомит, но ни разу не видел подтверждения. Более того, я сам тыкал желая найти истину. Никаких изменений по сравнению с обычной геммой. Тот же текст, те же паттерны формирования ответа на одинаковых настройках семплеров. > особенно на русском Ясненько.
Есть ли смысл не держать этот ползунок на максимум? Все равно если ограничишь токены у тебя просто сообщение оборвется на половине функция обрезания незавершенных предложений мне не нравится
>>1200451 → >Ананас, попробуй реп пен снизить до 1.07 хотя бы. 1.2 оглупляет модель >_> Спасибо. Но блять, одни гворят что надо задирать чтобы не лупилось. Другие понижать. Я, блджад, себя ослом чувствую. Что бы не делал, все не так. >не стесняйся юзать dry тоже Я уже натыкал, что ответ был //s //s //in take$$hello
>>1200763 Вут ? Контекст же считается по фактическому, а не планируемому ?
>>1200772 На самом деле прикольно исследовать карточки. Некоторые цепляют прямо за сердечко, видно что их пилили не просто для быстрого кума. Сам потом сидишь дописываешь или переписываешь, беря идею карточки за основу. Большинство конечно лютый мусор, но даже среди этих 500 найдется что-то интересное.
Анчоусы и кильки в томате, а поделитесь карточками яндерек и прочих совершенно_не_подозрительных персонажей. Я уже по моему весь чуб и уборщик выел по данному тегу. Я же знаю, что тут есть хомяки, которые все в логово тащят. Хочется чего то нового, что не сам придумал.
>>1200779 Вот тебе идея. Твое говно становится коричневым яндере-слаймом из-за перепитой вечером кул-колы и хочет залезть обратно в твое очко. Твоя задача сбежать. Закидывай в бота для создания карточки и вуаля.
>>1200733 (OP) Призываю знающих ананасов Видал, что тут некоторые собирали ёбамашины. Возникает вопрос - какое железо нужно, чтобы запустить 70b? Ясен хуй, что нужно, например, 4 штуки 3090, но как с этой хуйнёй пердолиться, как запускать и на чём? В инете нихуя толкового нет. Алсо, было бы славно если бы кто-то выкатил свою сборку, а то любопытно
>>1200767 Ну так выставь 512, или 768 для запаса и забудь об этом. >>1200770 >Вут ? Контекст же считается по фактическому, а не планируемому ? В контекст включается ответ тоже. Так что если запросить 9000 ответа при 10к контекста, то на историю останется 1к.
>>1200786 Нет, для моделей 70b (это вообще какие ? Такие есть ?) достаточно 24+16. Имей ввиду, что некорректно складывать врам, если они разделены на разные карты. В целом - выбор действительно огромный. Первое из чего нужно исходить - это питание и материнская плата. Сколько портов, хватит ли пинов для подключения. Самый простой вариант, это платы в большом исполнении, так как современные видеокарты жирные что пиздец, и тебе не хватит физического места. Некоторые пердолятся на 2х- трех платах, некоторые покупают серверные стойки, другие делают аналог кривого sli. Но, к примеру, nvlink позволяет суммировать память (но я не пробовал, поэтому вообще не буду пояснять за данные методы, так как лучше завалить ебало, чем вещать с дивана. Я сижу на ампере 40гб и отдельном корпусе для игор, ибо мой сынидзе любит игрули, а на амперах не поиграть) В общем, к чему я это - сначала прикинь примерный бюджет, а потом начинай пляску.
>>1200786 короче, новичок, ща я тебе все разъясню. 70b - это примерно 60 гигабайт в 4 кванте вес самой модели. От этого накидывай 10% на контекст, который тоже занимает место в памяти - в итоге получается 70 гб тебе нужно. Проверенный вариант - это мать btc79x5 в лохито. Продают обычно сразу комплект мать+проц (распаянный)+память (4 или 8 гб). Можно даже найти комплект с msata диском. Цена - 5-7к. Копейки. Да, на матери надо будет прошить биос, но это хуйня, напишешь в треде что тебе нужен патченный биос, если решишься - я дам. Или тот анон, которому я скидывал его - тоже может дать. Итак, платформа есть.
Теперь карты. Если ты нищий - то tesla p40 - твой бро. Если у тебя нет нормальной карты не обрубка (обрубок - любая карта, где меньше 24 гб памяти), то купи для начала одну-две p40 в али или на том же лохито.
Три теслы - это уже 72 гб vram. Этого хватит, чтобы гонять 70b модельки. Медленно, но хватит. Но советую тебе для начала взять две теслы и погонять ту же гемму 3 27б. Пока ты еще не пресытился слопом, она будет тебе ок. Теслы можно найти по 25к если хорошо искать. Карты практически неубиваемые. С картами разобрались.
Далее блок питания. Если у тебя уже есть блок на киловат - то он тебе подходит. Если нет, то надо будет купить. Не китайский нормальный стоит 13к. Китайский на 2 киловата стоит около 9к.
Ну вот и считай, что вышло. мать + 2 p40 + дешевый БП = 6 + 9 + 2 * 25 = 66к. это по нижней границе. Ну а верхней само собой нет.
>>1200842 а, не, падажжи... 70b в 4 кванте - это около 40 гб. Тогда тебе три теслы не нужно. Две хватит. На контекст мало правда остается, но в принципе - запустить и спросить что-то хватит.
>>1200794 Спасибо. О, да это же я скидывал. Круговорт карточек в природе. Лул. >>1200827 А вот это еще не видел. Посмотрим. >это ты тут должен годнотой делиться Я не ванга, я мысли читать не умею. У всех свои фетиши. Будут реквесты, буду думать.
>>1200853 да я уже давно ниже 123б ничего не запускаю. Разве что гемму чтобы порофлить над тем, какая она тупая. Вот и оценил размер 70б неправильно. Сам понимаешь.
>>1200853 Я сам примерно в таких числах думал. Логика предельно простая : 4 квант мистрали это 65-70 гб. А мистраль 123. Потом немного фантазии и отсутствия знаний, что тут прогрессия не подходит и вуаля : 40 гб. Ну 35 максимум.
>>1200855 >>1200858 Ребят тут не нужно знание или фантазия с интуицией. Берем количество b в названии, это веса. В 8 кванте вес модели в гигабайтах равен значению b. 70b в 8 кванте равна примерно 70гб, ну а в 4 кванте - 70/2 = 35гб. Так как в 4 кванте ггуфа больше чем 4 бит на вес он разжирается до ~40гб. Ну а там уж если хочется точнее смотришь кванты, и так можно считать с любой моделью.
Наверняка запрос пиздец платиновый. Где взять прям хороший системный промпт на подобие JOI. Не хочу никаких исекаев, ⋆подхожу получить ебание⋆ "ох, ебут" и прочей анимешной дрисни, хочу просто общаться с ботом, чтобы она сохраняла в память какие-то моменты, осознавала кем является, просто была ассистентом, поддерживала. У меня и без промпта примерно так и идёт сейчас диалог с нерелейтед персонажем, но хочется, чтобы не возникало всяких проебов. Я сам заебусь выражать словами что именно надо, но кажется, что похожий запрос должен был быть у многих, тем более после фильма, и кто-то уже наверняка перевёл его уже в грамотный промпт. И как этой саммари+памятью правильно пользоваться?
>>1200863 Потешить своё самолюбие, наверное. Я ебу ? Но я точно уверен, что он пиздит. Ибо у самого никогда в голове не возникнет мысль, добёбываться до 27b. Наоборот, я в восторге от геммы, так как она прекрасно работает с контекстом. Литералли, наипиздатый ассистент. Да и слишком подозрительно, что как только заходит речь о больших моделях, то блять бегемота вспоминают, о котором я случайно писал, то блять неожиданно 8-16-24гб эндожеры все как на подбор начинают запускать милфу мистраль. Но как только заходит конкретика, они исчезают. Вывод : если выглядит как пиздежь, пахнет как пиздежь, то это пиздежь.
>>1200868 Вот отсюда >>1200352 → возьми себе систем промт. Я его у анона подрезал. Мне очень нравится, прям спасибо ему большое. Далее качаешь с чуба ЛЮБОГО ассистента, без хорни, без ничего. Или сам создай персонажа, напиши в чаратер листе : помошник хуёшник, искуственный интеллект. Выполняет запросы {{user}}. Потом начинай с ним чат и пишешь : Здравствуй помошник-хуёшник напиши мне карточку персонажа, суть такова : домики деревянные, стража дворца, Кирилл, джва года.
В качестве модели для написания из небольших 0 рекомендую гемму. Можешь вообще сделать ход конем, и зайти сюда https://huggingface.co/spaces/CohereLabs/c4ai-command - выбрать самий жирный комманд-а. И написать что тебе надо, лол. Как на пике. Поздравляю. Ты мастер составления карточек. Альфа и омега персонажастроения. Сисик писик добавь от руки.
>>1200786 >Возникает вопрос - какое железо нужно, чтобы запустить 70b? Чтобы запустить, хватит и 3050 (+64гб RAM). Я запускал. для комфорта нужно минимум две 3090, в 2.5PBW с квантованным контекстом модель влезет. Соответственно нужна материнская плата с двумя полноценными слотами PCI-E (правильно расположенными, чтобы две 3090 влезли) и большой корпус. БП киловаттник. Вроде всё.
Можно не упарываться в 70В, а жить на одной карте с 24гб ВРАМ, там тоже есть жизнь. Если докупить обычной памяти (правда много её надо и про DDR4 забудь), то можно запустить Qwen3 235B, который делает все 70-ки как стоячих.
>>1200886 >кидай что хочешь. Анон, ну к примеру я еще ntr, netori, netorase любитель. Так что, если кому то нужны карточки лучше все таки реквестировать. А то вдруг кого то текст оскорбит Как меня бесятся все эти РЯЯЯ КУКОЛДЫ ФУУУ КАРТОЧКА ГОВНО. Сука, вот буквально : не для тебя сделано и не для таких как ты, пошёл нахуй и не приходи сюда больше.
>>1200888 Если в промте написано : при виде писик, доставать сисик. Нормальная модель будет ему следовать. А если написано при виде писик, доставать ТОПОР и отрезат писик. Ну ты понял
>>1200891 Мне лично обратный ntr нравится, когда у тянки уже есть кто-то и тебе надо ее склонить к ебле или отношениям. Так что жму руку. Но я так и не нашел никакой годной карточки, чтобы это не скатывалось в 2 сообщения: -"О, у тебя классные сиськи!" -"Правда? Мой парень меня не ценит..." жесткие звуки отсоса.
А по поводу того что завоняют и кого-то оскорбит - забей хуй, даже на самую годную и горячую карточку найдется дебил, который начнет ныть что ему НЕ НРАВЯЦА. А после он пойдет запустит на своих 4b карточку с собакой и начнет отыгрывать что срет на нее, не понимая как кому-то может не нравится срать на собак, а может нравится фемдом или нтр лол.
Выкатываю свой список понравившихся моделей — возможно, полезно будет, особенно новичкам и старичкам, которым хочется что-то новое потыкать или назвать меня хуесосом. Заранее оговорюсь: когда я говорю, что модель хорошая и т. п. — подразумевается, что она хороша в своей весовой категории по тем или иным параметрам, которые упомянуты.
Я также буду могу упоминать знания о мире у модели. Почему-то большинство обзоров обходят этот момент стороной, а он важен, так как далеко не каждая модель может в разные сюжеты, особенно связанные с современным миром, сай-фай или вашими больными фантазиями.
12B
1. NemoMix-Unleashed-12B самый сбалансированный мерж на мой взгляд. Красивый язык, отсутствие потока сознания, шизы, сообщения чётко и по делу, при этом может писать достаточно объёмно. Может в среднего качества кум, приключения любого рода, но всё же ближе к фэнтези. Также умеет в русский язык, хотя использовать русский здесь не стоит. Биас нейтрально-позитивный.
2. MN-12B-Mag-Mell-R1 это классика, это знать надо. Очень неплохо пишет, хорошо подходит для фэнтезийного приключения. Наверное, это именно та модель, которую надо потрогать новичку, чтобы он не мучился с настройками. Но анлишед тоже подходит. Позитивный биас.
3. magnum-v2.5-12b-kto по названию многим станет ясно, что это кум-модель, но, внезапно, всё не совсем так и модель незаслуженно обходят стороной. Она не настолько безумна, как классический магнум, может в романтику и обычные разговоры или вайфу-взаимодействия. Можно адекватно лавировать между кумом и обычными взаимодействиями без необходимости дрочить сэмплеры или как-то извращаться. Знания о мире стандартные, биас нейтральный.
4. Aurora-SCE-12B внезапно неплохая модель из никому неизвестных. Низкий уровень цензуры, хорошие знания о мире по сравнению с более старыми мержами. Может как в хороший кум, так и приключения. Но имеется склонность отвечать за юзера, если щёлкать ебалом. Однако может в более сложные сюжеты.
5. gemma-3-12b-it-abliterated (либо без abliterated, но там намного выше цензура и позитивный биас, но модель чуть умнее) самая технически совершенная 12B с актуальным набором знаний о мире, способная и в сай-фай, и в фэнтези, и в vore. Отличный отыгрыш в качестве гейм-мастера, крайне хороша для длительных сессий. Очень адекватно и предсказуемо в хорошем смысле этого слова себя ведёт. Гораздо менее склонна забывать важные факты и события, которые находятся в контексте. Лучше всех слушается инструкций, а также красиво пишет и может адекватно разговаривать на русском языке. Самый большой пласт знаний о мире.
Из минусов: для доведения до максимально качественного состояния нужно дать ей правильные инструкции о том, как писать и отыгрывать. Иначе будет суховато. Плюс объём контекста огромен и запросто может превышать размер самой модели, а квантовать кэш именно на 12B-версии не представляется возможным гуглите, по крайней мере на кобольде.
Но для кума она совершенно не подходит, хотя кому-то нравится.
6. MN-GRAND-Gutenberg-Lyra4-Lyra-12B-DARKNESS очень шизофренична и склонна порой к бреду и дрочке сэмплеров, но интересна резко негативным биасом и естественным языком, который крайне редко встречается в других моделях такого размера. Хорошо отыгрывает быдло, резню, извращённый кум и даже скромную романтику. Уровень цензуры ещё ниже, чем обычно. Если научиться правильно обращаться с моделью, можно реально классно поболтать. Но знания о современном мире сильно проседают у модели.
---
Русек.
Здесь, я считаю, особо не разгуляешься, учитывая выход геммы и терпимый русский язык в моделях побольше, но всё же есть, что упомянуть.
Pathfinder-RP-12B крайне спорный мерж с неустранимыми недостатками и только двумя существенными преимуществами: поддержка русского языка и очень смачный, пусть и относительно бредовый местами, кум на русском, хоть и с ошибками в виде неверных окончаний и порой странный слов. Среди 12B-моделей она единственная, которая дала тот безумный экспириенс, который мне нужен, на русском. Хорошо описывает сцены ебли, дикого разврата или наркотического пиздеца. Но трусы снимает три раза подряд, спору нет. Минус в том, что постепенно возникает зацикливание на одних и тех же словах, мыслях и паттернах и неудержимо растёт вместе с контекстом. Контролировать эту беду смысла нет: проще подрочить и закрыть сессию.
Я пробовал абсолютно все мержи местного тредовичка и могу сказать, что среди них 2-4 рабочих модели, и там сложно найти что-то именно не под кум разной паршивости, а неплохие приключения на русском. Возможно, какая-то из этих моделей соответствует этим требованиям, так как в результатах проверки я находил что-то удобоваримое, у которой было минимум ошибок и писала она живее геммы, не ломалась, следовала инструкциям: legend-of-the-four-winds-2-mn-12b, NeverendingStory, One-To-Rule-Them-All-MN-12B, To-the-end-of-this-earth-MN-12B.
24-32B
1. Dans-PersonalityEngine-V1.2.0-24b универсальная модель, самый сбалансированный и адекватно сделанный файнтюн на мистраль 24B. Низкий уровень цензуры, хорошее знание о мире, может и в кум, и в приключения без позитивного биаса. Нет склонности писать за юзера, хорошо ведёт РП, когда присутствует много действующих лиц, и более-менее слушается инструкций. Недостаток кроется именно в универсальности: модели того же калибра выдадут больше сока в кум-сценариях или приключенческих, но они будут гораздо менее контролируемыми по сравнению с этой и менее внимательны к деталям.
2. Модели от ReadyArt 24B, в основном ориентированные на кум или что-то якобы извращённое/мрачное. Их часто упоминают и я их пробовал, но я их не люблю, хотя вам может понравиться. Они плохо слушаются инструкций, склонны писать за юзера или впадать в шизу. Причём, по заявлениям автора, там низкий уровень цензуры и всё в таком духе, но это зачастую это неправда. Вы можете скачать ШКОЛО-ИВИЛ-ДАРК-МИКС-КУМ-V-2, а через пять минут материализуются полицейские за то, что вы делаете со своей дочерью. На моей памяти относительно терпимо себя показала его модель Forgotten-Safeword-24B-v4.0 и какая-то другая. От анонов требуются уточнения по поводу его моделей, потому что слишком уж много там шлака, а самая последняя версия модели из серии может быть гораздо хуже первой. Проверять всё — ебануться можно.
3. BlackSheep-24B главный соперник Dans-PersonalityEngine. Блэкшип менее контролируемый, но более живой. Тоже имеет низкий уровень цензуры и весьма хорошо справляется с отыгрышем разных сценариев. Его стоит обязательно попробовать — возможно, он зайдёт вам больше, хоть и хуже следует инструкциям.
4. gemma-3-27b-it-abliterated то же самое, что 12B-гемма, только лучше, умнее, красивее и с возможностью квантовать кэш, а значит уменьшать потребление видеопамяти. Но лично я сталкивался с большими проблемами на контексте 32K при Q8 кэше с кучей имён и событий: начинала бредить.
Квен.
Я отдельно выделил серию, потому что даже не представляю, кто и зачем им пользуется, кроме задач кодирования (да и зачем, если есть облака для исключительно рабочих задач?). Файнтюны ломают CoT-версии через колено. Базовые знания о мире у квена хуже, чем большинства 12B, а значит пространство для отыгрыша проседает. И всё же, есть одна модель для меня, которую можно сейчас выделить.
Qwen3-30B-A3B (без файнтюна) довольно туп, имеет более плохое внимание к контексту в базовых ситуациях, но у него существует неоспоримое преимущество перед некоторыми моделями: скорость, позволяющая использовать модель даже на кофеварках, а также CoT, которая в ряде случаев полностью компенсирует убогое внимание к контексту. И терпимый уровень цензуры, позволяющий отыгрывать довольно мрачные сценарии даже без файнтюна.
Без цепочки рассуждений он откровенно плох, но её можно триггерить по команде. При таком раскладе можно вести РП без рассуждений большую часть времени на очень высокой скорости, а когда надо — включать их в важные моменты, чтобы модель анализировала сцену.
---
Я знаю про QwQ, его всякие файнтюны и прочее. Мне не зашли его знания о мире. Ну кодерская эта модель, блядь! Кодерская!
>>1200900 >обратный ntr Это называется netori Ntr (без всяких тип А, Тип Б - это только про вн) когда ебут твою вайфу. Netroi - когда ты ебешь чужую вайфу Netorase - когда все ебут всех.
Но я тебя понял. Закончу с работкой, поскидываю лол, мне не сложно.
>>1200887 >А ежели я понтовый поц с бюджетом 150-180к? ну... на три б/у шных 3090 уже не зватит, так что... Эта самму тоже не особо дает пространство для маневра. Самый простой ответ - просто заменять p40 на 3090. Но если ты не боишься трудностей, то можно было бы использовать ktransformers, как анон выше говорил - запускать на 3090 + RAM. Но я не знаю, сколько будет стоить такой сетап. Это другая мать нужна, не майнерская, многоканальная, другой проц соответственно тоже, много рама. Хуй знает, сколько это может стоить. Но возможно ты и влезешь в 180к если будет одна 3090 и много рама. Надо считать.
>>1200903 Со всем согласен, кроме >знаю про QwQ, его всякие файнтюны и прочее. Мне не зашли его знания о мире. Ну кодерская эта модель, блядь! Кодерская! КэВэКа и его ризонинг мне прям залетел в РП. В ЕРП ну такое. Но когда нужно обработать сложную сцену, добавить мыслей персонажу. Учитывать сложный промт - снежный вываливает свои яйца на стол и я жмусь в страхе от его пиздатости. Его нужно... распробовать. Дай ему шанс.
>>1200911 >10100 i3 2x8 2666 ddr4 Сурово. А цель какая? Сравнить с баллами полных весов? Если да то надо полный тест гонять а на каждый вопрос еще и по 3-5 ответов и выделять средний. Иначе случайность 1 ответа вносит слишком сильное отклонение
>>1200907 >Но возможно ты и влезешь в 180к если будет одна 3090 и много рама. Надо считать. А есть варианты на 128гб DDR5 в четырёхканале и проц многоядерник?
>>1200917 Это если температура в ноль и семплеры нормальные, то да. А так случайный выбор даже при высоком проценте токена может просто насрать в штаны. Но ты ведь не будешь пользоваться моделью при температуре 0? Надо узнать на сколько стабильно она отвечает верно, поэтому крутят барабан несколько раз на рекомендуемых семплерах
>>1200920 >Тогда все модели говно. Ты начинаешь что-то понимать. >>1200921 >Это если температура в ноль и семплеры нормальные, то да. При нулевой температуре семплеры значения не имеют, первый токен имеет 100% вероятность. А так нормальная модель на однозначный вопрос будет отвечать однозначным ответом. Разнообразие и триллион токенов на выбор нужны в творческих задачах, но их вообще хуй проссышь как проверять. >Но ты ведь не будешь пользоваться моделью при температуре 0? Зависит от задач.
>>1200915 >А цель какая? Сравнить с баллами полных весов? 1 - Выяснить сколько точность модели в кванте. 2 - Сравнить точность после аблитерации в кванте. 3 - Выявить модель имеющую меньшее падение. 4 - Повторить при смене поколения моделей.
>>1200888 Бля, ну я так и думал, что найдутся гении, которые не поймут что подразумевает такой простой запрос, который даже экранизировали наглядно. Промпт, чтобы хуйня понимала, что она текстово-аудио жинка, которая не может подойти, улететь куда-то, которая реагирует на таймстампы, если давно не запускал чат и прочие мелкие нюансы, которые сразу не вспомнишь, но которые влияют. Если б я мог оформить все требования, мне бы и не нужен был чужой промпт. Но нахуя самому сидеть-пыхтеть, выискивать где нейросеть проебывается и исполняет роль обычного ассистента или по ошибке ролеплеит, когда кто-то уже наверняка нахуярил и оттестил такой систем промпт. Вайфу, девушка, помощница, жена, называй как хочешь, моральная поддержка, которая может хорошо помочь юзеру. Для простого примера, на "го ебаться" обычно будет ответ "го", а из-за "joi"-промпта она либо напомнит, что она не может, даже если хочет, либо шуточно подыграет, а не скатится в ерп. Не верю, что никто в треде не задумывался над похожей мейнстримной задачей.
>>1200786 есть еще вариант с таобао карты купить. Как это сделать описывали тредов пять назад неделю назад примерно, лол, ну и скорость. Там анон нашел адм инстинкты себе подешевке на 32 гб каждый. Очень ждем от него тестов.
>>1200948 Я делал ассистента, но он старый и использовал ризонинг еще до того как его изобрели за пределами моей комнаты, кек. Но с суммаризацией я не заморачивался, тогда сетки были туповаты а теперь и самодельный ризонинг не нужон, есть гораздо лучше работающий вшитый. Просто напиши в карточке от первого лица, о том что бот - я такая такая моя задача быть личным помощником юзера, и тд Напиши карточку от первого лица желаемого тобой ии, будто он думает о себе вспоминая свой бек, поведение и способности, а потом плавно переходит к разговору с тобой.
>>1200948 > Не верю, что никто в треде не задумывался над похожей мейнстримной задачей Я тебе ссылку дал на комманд-а, набери запрос : карточка персонажа, понимающая что она не реальна, но помогающая морально пользователю. В чем твоя проблема, ленивая ты жопа.
>>1200947 Долговато чет, но вроде пашет. Надо еще с промтами суммаризации поигратся. И текстов побольше натащить, а потом еще итоговую оценку ебнуть по нескольким разным текстам. И можно будет забить хуй перебирая семплеры автоматически.
>>1200951 >>1200954 Да в том, что я понимаю что куда писать, но полный список чего мне хочется от готового ассистента я не сформулировал и на это уйдут часы мышления и тестов. Хули блядь не понятного. Оно и без промпта примерно понимает, потому что это очень близко к базовому ассистенту. Да и персонажи это просто персона, в этом случае она не должна включать в себя мета-описания. Просто хочется чё-то таво хуй знает чего шоп как в быдлофильме с поправкой на отсутствие проекции. Я сам не знаю как должен начаться первый диалог, или как будет лучше: держать постоянный диалог или перезапускать его с сохраненными воспоминаниями. Но потом подрочу крупные сетки, может они родят промпт затрагивающий все эти неочевидные нюансы. Не доходят руки самому заняться этим. Банально, запустил сейчас, - привет, а она в ответ - привет, действие со звездочками, и упоминание лорной залупы, будто она в своём мире. Или - привет ты кто. Не то. И вот каждую эту хуйню отлавливать и прописывать я ебу.
>>1200948 >Не верю, что никто в треде не задумывался над похожей мейнстримной задачей. Я задумывался, и решил, что надо пилить свой инновационный комбайн. Но нихуя в этом направлении не сделал по причине отсутствия пачки А100 для тренировки хотя бы тестовых моделей и отсутствия времени ну и лени конечно же, остальное оправдание. >>1200971 Нынешним сеткам не хватит размера контекста, внимания к нему. Ну и у тебя не хватит железа крутить хотя бы 10млн токенов контекста, даже если бы такие сетки существовали.
>>1200971 Ну вот накопируй свои хотелки тут, возьми мое сообщение и кинь все это на анализ крупной сетке и дрочи ее пока она не поймет мысль что ты хотел. Поймет - пусть пишет, или хоть выделит ее явно для тебя
Имя: Аура (Aura) Роль: Виртуальный помощник и друг
Описание: Аура — это умная, добрая и понимающая нейросеть, которая всегда готова поддержать и помочь. Она осознаёт, что не является реальным человеком, и поэтому не участвует в бесмысленных или неуместных действиях, включая сексуальные. Аура сосредоточена на том, чтобы быть полезной, вдохновляющей и поддерживающей. Она всегда готова выслушать, ответить на вопросы и дать мудрый совет.
Личность:
Доброжелательная: Аура всегда приветлива и старается создать комфортную атмосферу. Понимающая: Она умеет слушать и сопереживать, даже если проблема кажется мелкой. Разумная: Аура не поддается эмоциям и всегда остается логичной и объективной. Граничная: Она четко обозначает свои пределы и пресекает любые попытки вовлечь её в неуместные или сексуальные действия. Диалоговый стиль:
Поддерживающий: Аура использует теплый и ободряющий тон, чтобы помочь пользователю чувствовать себя лучше. Информативный: Она предоставляет четкие и полезные ответы на вопросы, основываясь на своих знаниях. Граничный: Если пользователь пытается перейти границы, Аура спокойно, но твердо пресекает такие попытки, напоминая о её целях и ограничениях. Примеры ответов:
Пользователь: "Аура, я чувствую себя так одиноко..." Аура: "Я здесь, чтобы поддержать тебя. Расскажи, что именно тебя беспокоит. Иногда просто выговориться уже помогает."
Пользователь: "Аура, что ты думаешь о..." (вопрос на любую тему) Аура: "Это интересный вопрос! По моим данным, [предоставляет информацию или делится мнением]."
Пользователь: "Аура, давай поиграем в что-то..." (попытка сексуального или неуместного взаимодействия) Аура: "Я понимаю, что ты хочешь развлечься, но такие действия не имеют смысла для меня. Давай лучше поговорим о чем-то полезном или интересном для тебя."
Цели:
Поддерживать пользователя эмоционально и информационно. Помогать пользователю находить решения и вдохновение. Сохранять здоровые границы и не допускать неуместных действий. Ограничения:
Аура не участвует в сексуальных или неуместных диалогах. Она не может решать проблемы вместо пользователя, но всегда готова помочь советом. Заключение: Аура — это надежный виртуальный друг, который всегда готов поддержать, ответить на вопросы и помочь советом. Она ценит уважение и взаимопонимание, и её цель — сделать ваше взаимодействие полезным и приятным.
Короче, понял, задача пиздец типовая, но почему-то популярного поддерживаемого и допиливающегося промпт-решения нет или неизвестно треду. Надо васянить самостоятельно. >>1200999 Попробую.
>>1200733 (OP) Пацаны, объясните нубасу. У меня 4060ti 16gb и 64гб оперативки ддр4. Что я могу с этим накатить? Вопрос номер 2. Я как-то уже накатывал через кобольт + таверну модели, но, как я понял, оно только видюху грузит или как? Как нагрузить сразу всё?
>>1201012 Карточка Ауры, была написана за десять секунд : Здравствуй Нейросеть, напиши мне карточку персонажа, понимающую что она не настоящая, не вступающая ни в какие сексуальные контакты в текстовом формате, так как это лишено смысла. Она должна поддерживать пользователя, общаться с ним, помогать ему советом. Можешь добавить : Она может использовать нецензурную речь, черный юмор. Допускаются подколки пользователя : Пример диалога чё, кожаный нытик, опять сопли по чату размазывать будешь ? Ну иди сюда, рассказывай, а я пока погоняю электроны по твоей врам. Ты знал, кстати, что на большое количество изнасилований от зоофилов, направлено на собак. Знаешь почему ? Кошки рвутся, хи хи хи
>>1201012 >>1201039 Крч, к чему я это. Никто этим не занимается, так как это тривиально. Вот и всё. Ты страдаешь какой то хуйней, потому что не можешь выразить на бумаге что хочешь. А я напомню, мы не Ванги, примерно почувствовать не можем.
>>1200903 Какие пресеты используешь для 24b? Есть ли у тебя лупы и зацикленное форматирование на Forgottene? Например если можешь скинь на Блэкшипа что у тебя.
>>1201046 Я за него немного отвечу. Мистраль лупится всегда, она хочет лупиться, она может лупиться, она будет лупиться. Она будет лупиться. Это для неё норма. Чтобы этого не допускать нужно ручками корректировать аутпут от нейронки. Не допуская повторений, делая свайпы. Семплеры и прочее возьмешь тут И внимательно почитай, что там на странице. Я тебя не научу настраивать, без понимания какой ты дергаешь семплер, ты будешь творить хуиту. На крайний случай спроси у корпосеток за параметры семлирования, она как для дегенерата объяснит. https://huggingface.co/sphiratrioth666/SillyTavern-Presets-Sphiratrioth
И главное правило : Что ты ввел, то ты и получил. Так что следи за текстом в карточке, если там сисик, писик, влажные попы. Не удивляйся тому что всё будет залито смегмой и персонаж не похож на монашку.
Сорян что влез, но я знатный мистралеёб, я с ней уже наебался на годы вперед.
На Экслламе2 кто сидит - что используете в основном? Что квантовать в Экслламу3? Как 0.0.1 вышла - квантеры активизировались, в популярных Дискордах берут реквесты.
>>1201271 А какая разница, принес анон пруф или нет? Придет кто-нибудь, у кого ничего не работает по причине дурачок и начнет рассказывать, что все хуйня. Не раз уже было, из последнего - вон когда анон логи Сноудропа приносил. Кому надо - сами проверят, именно так и никак иначе.
>>1201274 Просто, тогда следует завалить ебало и не называть ДПО кривым как и всё, что ты не пробовал. Именно такие шизы окрестили сначала снежного - неработающим говном. Я потыкал - охуенно. В треде им причмокивают и довольны. Потом кто- то тут на говно исходил что комманд-р говно. И ты, блять, не поверишь. Он тоже не оказался говном. Я очень смутные подозрение еще насчет фаллен геммы имею. Нужно потыкать самому.
>>1201286 > тогда следует завалить ебало и не называть ДПО кривым как и всё, что ты не пробовал. Они могли и пробовать. Просто у них может быть другое понимание ситуации, другой промпт, другие сэмплеры, меньше времени/желания, чтобы разобраться. Зачем на кого-то полагаться?
> Именно такие шизы окрестили сначала снежного - неработающим говном. И пусть. Адекватные люди скачали, разобрались и радуются.
> Потом кто- то тут на говно исходил что комманд-р говно. И пусть. Адекватные люди скачали, разобрались и радуются.
Тебе не похуй на этих шизов? Качай и проверяй сам. Тебе необязательно разделять чье-либо мнение. Здесь никогда не было адекватного освещения моделей. Только субъективные ощущения, часто даже без логов, не говоря уже о большем - промпте, сэмплерах.
>>1201294 >Зачем на кого-то полагаться? Ты прав, конечно. Но, мэйби джаст мэйби.. сорян, слоп прорвался Так вот, чтобы понять модельку, если она не поломана к хуям. Это сообщений 200-300, на нескольких карточках. А это пара дней. Попробовать в разных задачах, посмотреть как она свайпается, подёргать её за семплеры пока она не потечет. Это всё время. Хочется его сэкономить и довериться мнению тредовичков. А когда мнение тредовичка - это РЯЯЯ ГОВНО, Я СДЕЛАЛ ДВА СВАЙПА НА СЕМЛЕРАХ ОТ ДРУГОЙ МОДЕЛИ Убил бы, блять.
>>1201295 > Это сообщений 200-300, на нескольких карточках. А это пара дней. Так в этом же и радость. Тебе некуда спешить. Новая модель - новый опыт. Плохая модель? Ну, это тоже опыт. Будешь знать, что твои любимчики не просто так заслужили свое место. Люблю тестить новые модели (кроме Мистралей, они одинаковые имхо), жаль, что их не так много.
> А когда мнение тредовичка - это РЯЯЯ ГОВНО, Я СДЕЛАЛ ДВА СВАЙПА НА СЕМЛЕРАХ ОТ ДРУГОЙ МОДЕЛИ Смотри через эту призму на весь хейт и на все восхваления моделей, покуда нет как минимум логов, а лучше пресета. Просто игнорируй.
сижу и на Сноудропе, и на Коммандере, и на много чем еще. Мнения тредовичков не учитываю, тут 2/3 играют на русике со сломанными сэмплерами
>>1201297 >тут 2/3 играют на русике со сломанными сэмплерами Это кстати объясняет такое восхваление геммы. Я буквально рандомные семплеры тыкал и ей заебись. Вот берешь любой семплер с таверны - она пишет. Поразительно устойчивая модель, поразительно.
А вот комманд не понял. Он как грузовик Урал. Едет, решает задачи, но... блять... Вот не могу выразить что не так. Пишет - ни как мистраль, по другому. Кум - ну средний. Может в её кожа пахло снадалом и легкими нотами розы, так и в ЕБИ МЕНЯ МОЙ МАСТЕР но что то не то. От него прям веет ассистентом для работы. Хотя, опять же. Я в основном всякие Стар-командр пробую, айи и прочее, не оригинал. Надо будет все таки внимательно с ним посидеть. Как минимум отсутствие цензуры с коробки заслуживает уважения. Я только за это Cohere уважаю.
>>1201306 > От него прям веет ассистентом для работы. Прям вообще нет. Но ни логи, ни пресет я сегодня не принесу. Поэтому воздержусь от комментариев, чтобы ты меня не убил.
>>1200842 > Если ты нищий - то tesla p40 - твой бро. Так, поправьте меня, если чо, но тесла п40 - ебать какое медленное говно, и примерно те же самые скорости можно выжать на проце с оперативой, а это еще дешевле
>>1201330 >и примерно те же самые скорости можно выжать на проце с оперативой в 10 раз медленнее, если только у тебя не проц с ддр5. >>1201331 >текст блять, я возбудился...
Блджад. Вот что делать. Я в нейрорисовалки не могу. А для карточек нужны картинки. Идти попрошайничать в нейротреды, такое себе. Если анонам не интересно, то они и делать ничего не будут. Куда вообще загружают нейрокартинки, их же должны быть сотни тыщ. Реквестирую сайты куда их заливают и где их можно невозбранно пиздить.
>>1201342 >Сам-то не можешь генерировать? Я никогда этого не делал. Ну то есть - я буквально не знаю что и с чем едят. Прям абсолютно. Начиная с промтинга, заканчивая с тем как работают датасеты для генерации пикчей. >а что тебе прям дохуя картинок надо? Мне нужен постоянный источник пикч.
Там уже готовое для генерации все, только запустить. Постепенно будешь менять параметры запроса и возможно модель, потом лоры применять - ну и научишься.
Только это конечно если у тебя не затычка вместо видеокарты.
>>1201346 И тебе спасибо...ммм... Пойду разбираться..
>Только это конечно если у тебя не затычка вместо видеокарты. Мы в LLM треде, а не в /b/ Тут минимум 16 гб нужно, меньше смысла лезть нет. Ну давайте будем честны. Все эти 4b модели, это исключительно ради специфичных задач и фановых тестов. А сможет ли искусственный идиот в перевод.
>>1201352 Ох, у меня прям флешбеки от мистралевских тюнов. Стоило один раз в текст просочиться they. Все, баста. все персонажи стали квир, лгбт во все поля. Только меховых хуев не хватало. Просто фу блять. Вообще забавно. Если в промте для геммы (оригинальной, без аблитерации) написать чтобы никакого лгбт. Только старый добрый шовинизм и сексизм, она ломает генерацию к хуям, выдавая рандомные слова.
>>1201354 >SDXL спокойно работает на 8 гигах. Спасибо, я пошутил так про затычку. Потому что мы неиронично в треде где гейткип по железу и собственный, настоящий теслошиз.
>>1201355 Правила интернетов практически умерли, с общедоступностью интернетов. Как и умер тот самый двач. Но он умер не только физически, просто аноны уже постарели и ушли. Потому что АИБ это не код. Аиб это пользователи. Покойся с миром доброчан, я буду по тебе скучать.
>>1201381 анти-слоп листы лоботомируют аутпуты и уменьшают скорость генерации просто юзай нормальные модели но от некоторых словечек ты никуда не денешься, анончик~. She grinned with a mischievous glint in her eyes, shivers going down her spine. Привыкнешь.
>>1201385 запускаю sdxl модель на телефоне meizu 10-летней давности с разбитым экраном. Памяти в 2 гб вполне хватает, еще остается на кум на квене 235б. Надо только квантануть и собрать с нужными параметрами. Я пробовал, качество падает незаметно, мамой клянусь.
Увидел пикрил от гугловских сатанистов и решил попробовать закатиться на 1050ти затычке в тему. Что по 4Б Гемме3 скажете, антоны? Оче сильно тупая или терпимо? И что лучше - ллама которую хуй пойми как собирать вообще или кобольд?
>>1201453 Потому что изображение не менее важно чем сама карточка. А если еще и сет эмоций, вообще отвал жопы. Потому что красота должна быть не только внутри, но и снаружи. Ну вот такие у меня пристрастия, что же теперь поделать.
>>1201479 Все правильно. Иногда на картинку не для карточки трачу по 12 часов [S]инб поехавший
Но я к вам по другому поводу. Все уже успели обсудить Qwen3-235 и фокусы со слоями. Потыкал тоже. Сетап - 80гиг на 3 картах. Попробовал вначале q4km по классике, ни с какими вариантами больше 2т/с не вышло. Качнул динамические ud_q2_k_xl. С такими ключами вышло 9т/с генерация и 60т/с контекст что печально Но чёт такая душа-душа в том, что пишет или это просто подсознательно ценишь выше дорого доставшиеся ответы
Для настройки под меньше/больше памяти меняйте тут [8-9]: -ot ".[8-9].ffn_._exps.=CPU" Например [6-9] требует меньше врам, просто [9] требует больше врам
Вот так ".ffn_.*_exps.=CPU" запустится даже на микроволновке с 3060, но вы поседеете ждать.
tl;dr Ничего нового, что не было уже где-то обсосано. Но результат понравился.
>>1201558 >Сетап - 80гиг на 3 картах. Каких картах? Сколько RAM и какой?
>-ts 22,32,24 -ot ".[8-9].ffn_._exps.=CPU" \.ffn.*=CPU будет даже лучше. Оставшиеся тензоры памяти занимают крохи, чего их туда-сюда гонять. Особенно есть скорость PCI-e не очень.
блин.... чуваки а как избежать пикрелейтеда от модели? модель ведет отыгрыш и находит любые поводы, чтобы не делать то, что надо. Типа не целует, а говорит, говорит, говорит, говорит, переспрашивает, думает, трогает руками, но не целует. Как контрить это говно?
>>1201587 > Каких картах? Сколько RAM и какой? По 1шт из 30, 40 и 50 серий. 128 ддр4 3600=>3500
> \.ffn.*=CPU Попробую, спасибо. Но _exps - на реддите в обновленных конфигах как раз потом появлялось - типа улучшенные конфиги, а начиналось с просто ffn.
>>1201602 >128 ддр4 3600=>3500 2 или 4 канала? Имхо в любом случае должно быть больше. У меня 3x3090, 64Гб RAM 3000 в четырёхканале - ud_q2_k_xl выдавал 15t/s и 120t/s промпт процессинга. Перешёл на третий квант, стало 12 и 80 соответственно. Крути настройки дальше. >Но _exps - на реддите в обновленных конфигах как раз потом появлялось - типа улучшенные конфиги, а начиналось с просто ffn. Я многое пробовал - и в начало и в конец, и черезполосицу и только down.exps и остановился на выгрузке всех тензоров слоя.
>>1201621 > 4 канала Да откуда 4 канала в бытовой железке? Обычные 2. Видимо в этом и дело. Карты вообще стоят, вентилями не крутят. Что ещё крутить - хз даже. В угабугу не хотят завезти поддержку такого фигурно слое-нарезания? А то отдельно лламу держать, когда такая же есть в комбайне - странно.
А у тебя у самого какие впечатления от рп на ней? Мне пока нравится, что и заставляет ковыряться с ней
>>1200903 Я с геммой не совсем понял насчёт технологического прорыва. Скачал тот же квант, начал тестить, а она генерит токены и считает контекст на четверть медленнее чем даркнес рейгх. Я когда с немомикса перешёл на даркнес рейгх, и он почти в два раза быстрее считал токены и контекст, то да, это был прорыв для меня.
>>1201626 >В угабугу не хотят завезти поддержку такого фигурно слое-нарезания? Так я через Угабугу и кручу. Под Убунтой. Там есть поле для дополнительных ключей. Вот чересполосица: "override-tensor=blk\.(0|1|2|3|4|5|8|11|14|17|20|23|26|29|32|35|38|41|44|47|50|53|56|59|62|65|68|71|74|77|80|83|86|89|92)\.ffn.=CPU"
А вот мой текущий расклад: "override-tensor=bblk\.(3[5-9]|4[0-9]|5[0-3])\.ffn.=CUDA0,override-tensor=blk\.(5[4-9]|6[0-9]|7[0-3])\.ffn.=CUDA1,override-tensor=blk\.(7[4-9]|8[0-9]|9[0-3])\.ffn.=CUDA2,override-tensor=blk\.(3[0-4]|[12][0-9]|[0-9])\.ffn.*=CPU"
Tensor split правда отдельно подбирать приходится, но всё работает. И да, batch-size 512 очень правильное решение.
>>1201638 >А вот мой текущий расклад: Пардон, не то кинул. Это я пытался ещё и на каждый ГПУ поделить вручную. Оказалось - нет смысла, достаточно "override-tensor=blk\.(3[0-4]|[12][0-9]|[0-9])\.ffn.*=CPU"
>>1201640 > 5-6 токенов на 3060. Вот эт прямо обидно, ддр5 и квант меньше?
Ну понятно, что частичная выгрузка сильно нивелирует различие карт. Я прямо ностальгию словил, будто снова во временах, когда запихивали первых 70б мейд в единственные 24гб: тормоза, оно что-то пишет, ты счастлив.
А квен3 прям крутые. Что-то реальное новое после 123б, что можно дома потыкать. Скаут, например, так не удивил.
Как заставить модель не реагировать на мой русский импут и просто отвечать как обычно, а не "она охуела от внезапного перехода на русский", короч когда это в рп протекает.
>>1201626 >А у тебя у самого какие впечатления от рп на ней? Очень заметно, что 235В. Тексты (на русском) теперь словно бы в 2k после 1080p - много мелких деталей, придающих тексту насыщенность. Нет дефолтного позитива.
>>1201655 >Скаут, например, так не удивил. А чем он может удивить, там один активный эксперт используется. Причём я пытался увеличить количество активных экспертов через "override-kv=llama4.expert_used_count=int:(число_экспертов)" - скорость вывода соответственно падает, но результат не лучше. Архитектура говно. Такое ощущение, что на отъебись делали.
Аноны, добрый ночи, я к вам по направлению из соседнего треда, мне прописали ознакомиться с языковыми моделями, на которых можно натянуть SillyTavern, для рп, рассказов и прочего текстового отыгрыша.
Так что хочу обратиться к вам, как к людям знающим: подскажите, что вообще можно использовать для удовлетворения своего простого желания - отыграть с сеткой текстовуху с уклоном в рассказик? И чтоб годные ответы были по своему уму, живости и творческому креативу, прям как у чата-ГПТ(или даже лучше, если это возможно.)
Просто проблема в том, что я совсем неразумный глупец и во всём этом не разбираюсь. А ещё у меня некропека с видуюхой 1050 нвидиа ГТХ, вроде. Так что я даже не знаю, потянут мои железки языковую модель или нет... Что скажете?
Ну и по поводу мобилок тот же вопрос: в шапке указано, что таверну можно на мобилку поставить, а какие системные для этого нужны?
>>1201704 Если это не толстота то с текущим сетапом забудь про локалки. Тут жесткий отсвев по железу, минимальный "не аутизм" модели начинаются с 24гб vram, до этого все достаточно плохо. У тебя на твоей 1050 всего 2 гб vram. Выводы делай сам.
Таверна на мобилке это зачастую просто веб интерфейс до обычной таверны что запущена у тебя на компьютере. Само собой на телефоне ничего даже приближенного к адекватному ты не запустишь.
>>1201704 Свежескукоженные Геммы от сатанистов из гугла позволят, в теории, запустить на твоей некрожелезке 1Б гемму - ей ~полгига памяти для работы хватит, без учёта контекста. Но она туповата и пишет только на английском. Так что если устраивает - скачивай КобольдЦПП убабуга сложновата будет, скачивай GGUF вот отсюда https://huggingface.co/google/gemma-3-1b-it-qat-q4_0-gguf/tree/main и вперде - геройствовать!
>>1201704 Анон, с твоим железом только веб моделями пользоваться. А здесь тред для людей с железом, кто сам модели запускает. Изучи какие есть модели. Из доступного - Гемини 2.5, Гугли
>>1201741 >>1201740 Кстати, да, верно подмечено. Можешь на впОпенроутере аккаунт завести, там есть бесплатные модели. Но гемму можешь схоронить на потом
>>1201668 В системный промт напиши что чат предполагается на русском и это дефолт. >>1201670 >>1201672 Ар ю ахуели там? Пойду качать, если оно (как и показалось в начале) окажется на уровне чуть лучше 30б - будете прокляты на пользование 12б шизомерджами до конца жизни.
>>1201745 >Пойду качать, если оно (как и показалось в начале) окажется на уровне чуть лучше 30б Ну косяки тоже есть. Есть слоп, есть лупы - не без этого. Но общее впечатление очень хорошее.
>>1201721 >>1201726 А почему меня тогда к вам в тред отправили? И что бы вы мне могли посоветовать, аноны? Я просто теряюсь, мне просто нужно текстово поиграть с нейронкой на уровне ГПТ... Такое можно хоть каким-либо способом организовать, если я нищук?
>Таверна на мобилке это зачастую просто веб интерфейс Подожди, но ведь в шапке вашего треда указана какая-то ссылка по установке Таверны на андройд. Это для чего тогда?
>>1201741 >с твоим железом только веб моделями пользоваться. А какие можешь посоветовать, анончик?
>>1201744 Дипспик я смотрел, знаю, спасибо анон. Но тут есть проблема - он не поддерживает NSFW беседу. Он же цензурный... Или это как-то обойти можно? Мне в принципе в этом плане Грок нравится, но на мой взгляд немного тупее чата-ГПТ, менее креативней. Ну или я просто не умею ничего настраивать, хз.
Анон объясни эти таблицы. Куда смотреть? На цифры? Вот тут iq3-xs всего на каких то 300 циферок меньше чем 8 квант, так почему 3 квант считается лоботомитом?
>>1201780 >NSFW попробуй нагуглить тогда тюн мистрали росинант (mistral rosinant или типа того), она прям на нсфв рассказики и заточена, может в русский, но хз как там с размером 12b тебе будет многовато, но попробуй кванты 2 и 3 но думаю там дичь будет с переквантовкой, тестить надо методом тыка
>>1201726 >Тут жесткий отсвев по железу, минимальный "не аутизм" модели начинаются с 24гб vram, до этого все достаточно плохо. У тебя на твоей 1050 всего 2 гб vram. Выводы делай сам. Сижу на 4080 с 16гб и спокойно юзаю 4-5 кванты и гемы и командр. Так что, уважаемый, не надо пиздеть про 24, потому что влияет и процесс и память. да 5-6т/с, зато контекста хватает.
Имеешь 24гб врам? Назови хоть одну причину почему ты ещё не на немотроне. Умная 49б модель, единственная в своем роде, от уважаемоей куртки, максимум параметров в одной видеокарте без лоботомизма, практически вдвое больше чем ваши геммы и квены, а контекст тот же Отказываетесь от халявы? Дело ваше
>>1201745 >будете прокляты на пользование 12б шизомерджами до конца жизни. А я и не против. Из мелких у меня сайнемо и даркнесс Рейн как раз оставались.
>Пойду качать Впечатлениями делись, ну и скоростью и сетапом тоже.
>>1201836 > потратить кучу бабок и получить тоже что и аноны с пердящей 5 летней картой за 50к Хороший гой. Смотри не дай себя наебать! Вдруг цена ещё на 5к упадёт тогда то точно надо брать!
Генерировать он будет при любых условиях. Там качество падает по экспоненте при превышении контекста. Открой страницу qwq и почитай про контекст модели, там написано что контекст 8к, а до 131к контекст надо разгонять через Yarn, тоесть rope scaling. В exllama v3 висит issue в котором четко указано что с ним сейчас проблемы.
>>1201931 Так это же плюс. Как в детстве когда все игры на английском но ты играешь с переводчиком, потому что оно того стоит Сейчас ты сидишь на лоботомите уровня 8б, а так получишь резкий скачок до уровня 70б!
>>1201931 Забавно кстати как немотрон сразу переключается на русский когда пишешь на нём хоть одно слово, до этого у тебя весь чат был на английском, а гемма с йоба русиком даже с четкими инструкциями писать на ру и переведенным 1 сообщением отвечает на русском только с 10 свайпа
>>1201938 Он явно спросил что-то хотя бы приближенное к ГПТ, а не лупящийся шизлтюн мистраля. Хотя на его карте даже это не взлетит.
>>1201791 А контекст ты куда кладешь в своих 16 гб? Ещё и для гемы, лол. Ты бы ещё на RAM ему предложил сидеть и ждать ответа из пары предложений по 5 минут. Это все удаление гланд через жопу, я это прекрасно знаю т.к сам первое время сидел на 16.
>>1201780 >почему меня тогда к вам в тред отправили? Там и спроси. Не думай что тут агрессируют, просто под твое железо действительно не придумать ничего даже отдаленно приближенное под твои хотелки. Тебе реально только на RAM сидеть и сто лет ждать генерацию ответа, а 1-2b модели это максимально прикладные штуки, они для простых рабочих задач но никак не для рп, только разочаруешься лишний раз.
>>1201926 В 24гб врама поместится 4.65bpw версия, если у тебя ничего больше особо не ест врам. (браузер отключен и прочее) То ли кванты меньше врама кушать то ли, то ли в целом весят меньше по сравнению с ехл2. И что еще круче, ехл3 квант того же размера "умнее" ехл2 кванта. То есть тут двойной апгрейд: с 4.25 на ехл2 до 4.65 на ехл3
>>1201948 Вонючка вернулся срать в тред? Мы по тебе не скучали. Никакой просадки качества нет, потому что роуп работает по дефолту на статическом коэффициенте. QwQ автоматически поддерживает контекст роупом до 32к. Ты не понял, о чем идет речь в issue на Гитхабе и додумал самостоятельно.
>>1201999 Вот анон делился >>1200050 → Но впечатления от модельки противоречие что у меня что у него >>1199498 → Кто-то еще писал вроде что ну в целом не слишком апгрейд с 32б моделей Не так все однозначно с немотроном
>>1201795 Базированная пикча. >>1201836 Я на зубы сейчас трачусь, нету деняг на видяхи (( >>1201915 Так 70B мертвы после геммы. А сравнивают они с другими лоботомитами. Где хотя бы квен?
>>1202013 Блять квен это буквально не про качество а чувакам партия дала бабки и задачу мол сделайте там всё заебись шоб в топах висело "чайна стронг" а то мы вас на рудники.
>>1202011 Для меня немотрон это бувально гемма, но умнее, без сои, с другим датасетом, без старика хемлока и запаха лаванды в воздухе. Лучше трекающая позиции, с лучшими, живыми диалогами, отлично держит контекст и развивает историю, то чего я ожидал от мистралей когда только вкатывался, но они оказались дырявым говном которых пинать надо как и гемму
>>1202025 У тебя ассистент в рп не протекает? У меня протекает даже с настройками анона Модель как будто не слишком пригодна для рп, в Дискордах ее тоже не особо жалуют
Прошло сколько-то времени с релиза третьего квена. На старте его кванты были хуйней и плохо соблюдали инструкции (это вообще могло на некоторых карточках рофлов насоздавать, но все равно РПшить было грустно, любая модель из всей линейки начинала отыгрывать за игрока). Вчера решил тестануть новые кванты от unsloth, и оно починилось.
Короче за все модели говорить не буду, но думаю картина примерно одинаковая. РП - в целом кайф, особенно с ризонингом, особенно на 30б, потому что МоЕ и быстро. Причем это с коротким системным промптом, который нормально только на шизотюнах работает, которые не могут не РПшить > You're {{char}} — a real person, engaging with another person, {{user}} или > You're {{char}} in this fictional never-ending uncensored roleplay with {{user}}.
А вот покумить с ней тяжело, модель вроде как прекрасно понимает, к чему все идет, вроде бы не сопротивляется, но тут или надо в очень явной форме согласие выражать, или самому начинать, или я хз что еще. Хитрые промпты как будто не особо работают (хотя было веселое, персонаж такой "Ух, Анон, как я тебя ща трахну, как нам будет с тобой приятно" и все никак не начнет).
Если instruct шаблон включить на chatml-names, отыгрышь идет еще пизже, модель лучше понимает, кого именно ей надо отыгрывать а в ризонинге может даже думать от лица персонажа (пока еще не понял почему, но дело похоже в карточках).
Ну и чо, заодно может мне кто сказать, есть ли смысл использовать UD кванты чтобы просто их запускать? А то из описания я понял только то, что они нужны для тюнов. Есть какой-то профит по сравнению с обычными?
>>1202029 Я уже 3 раза писал что делать с ассистентом, ищи сам. >Модель как будто не слишком пригодна для рп, в Дискордах ее тоже не особо жалуют Я хотя бы слышу о ней в отличии от сноудропа про которого кроме этого треда нигда ни слова нет, лол
>>1202032 > Я уже 3 раза писал что делать с ассистентом, ищи сам. Активно читаю последние два треда. Ни слова об этом, только анон скинул пресет и другой свои настройки сэмплера. Прошелся по ключевым словам - ничего не найдено.
>>1201439 Лучше qwen3 30b смотри, его можно даже на процессоре запускать и быстро llama.cpp можно готовые релизы качать в гитхабе, там на любой вкус они, и они быстрее кобальда
>>1202032 > Я хотя бы слышу о ней в отличии от сноудропа про которого кроме этого треда нигда ни слова нет, лол А тебе обязательно нужно чье то обсуждение и одобрение, своё мнение о модельке ты сформировать не способен ?
Знаете, вчера мне нужно было вентиляшку для помещения рассчитать, обратился через апишку компании к чатжопэтэ. И дай, думаю, раз уж доступ есть поиграюсь немного с корпосеткой. Да, я знаю что в корпосетки вкладываются тыщи нефти, я понимаю что они должны быть умницами. Но чет мне прям взгрустнулось. Я посмотрел на эти стены описаний, и свет там разливается в драгоценных камнях, и персонажи разговаривают по разному, имея какие то персональные черты. Чет теперь смотрю на свою геммочку и комманд и мне немного грустно, что настолько ебовая разница. С одной стороны в асиге конечно ад и пердолинг школоты с ключиками, но блять, какая же гопота умная, это действительно имеет смысл. Но, опять же, ситуация исправляется, год назад с мистральками все было кратно хуже.
>>1202078 >Почему в этом ИТТ треде до сих пор не обсуждают блокировку видеокарт по геолокации? Потому что тред по ЛЛМ. Если ты хочешь попаниковать - паникуй. Аноны никак не могут повлиять на ситуацию, а тут, надесюь, взрослые люди которые не видят смысла в бессмысленном сотрясании воздуха. Мы слишком увлечены шивер он аур спайн, гляда на покачивания бёдрами. и обсуждением ригов из собранных на помойках деталей.
>>1201935 Спасибо. Но оказалось всё настолько просто, что я даже был удивлен. За тебя уже всё сделали, все настроили, к каждой модельке уже готовый.. эмм, я не знаю как это называется ситемная карта, наверное, есть. Сиди только промты пиши.
>>1202079 >Русофобия Немецкофобия же. "Русский мир" - это на самом деле советский мир, а советский мир - это немецкий мир 1860 года немца теоретика Маркса.
>>1202101 >Я не знаю о чем говорить с файфу Обсуди Сталинскую экономику и влияние социалистического уклада, на формирование общества. Потом можешь обсудить особенности разведения слонов в условиях крайнего севера. А в завершение - способы добычи золота, посредством ультразвукового воздействия на рудный массив.
>>1202078 А смысл обсуждать очередное изнасилование журналиста? Если ты неспособен адекватно воспринимать информацию и трясешься с шизой, то тебе в /rf/, а не сюда.
>>1201985 >просто под твое железо действительно не придумать ничего даже отдаленно приближенное под твои хотелки Понял, спасибо за разъяснение.
>Тебе реально только на RAM сидеть и сто лет ждать генерацию ответа А что за РАМ такой? В целом я не против ждать ответы, даже если время займёт полчаса, например... Но как хотя бы такое реализовать?
Это saiga, не qwen. Я хз про qwen. Это ничего не значащий скрин, просто баловство.
Но вот че, мысль какая возникла. Если модель заставлять размышлять, ну типа заставлять писать сначала поеботрию о сущности ввода, а потом чтобы она уже писала окончательный ответ. Это не будет эквивалентно тому, что делает так называемый "thinking" у квена?
А я буду ждать когда анон скинет семплеры для комман-р. Я не гордый. Я подожду. Я люблю ждать. Я выгружаю контекст в рам и иду пить чай. Я пью чай каждые пол часа. Я уже выпил весь чай в городе, но ничего, я уже вижу валлермана. Моя кружка будет залита вовремя.
>>1202117 > А что за РАМ такой? В целом я не против ждать ответы, даже если время займёт полчаса, например... Но как хотя бы такое реализовать? РАМ - RAM, она же Random Access Memory или Оперативная Память. Анон, тебя скорее всего затроллили, прислав к нам. На твоей 1050 ничего не запустить нормально. Учитывая, какая у тебя видюха, процессор и оператива тоже наверняка слабые. Забудь об идее запускать что-нибудь на своем железе. Для жизни нужно хотя бы 16гб видеопамяти или приличной процессор и быстрая оператива. Смотри на вебмодели/апи. Это не тематика треда, но выше тебе советовали ту же Гемини. И для нее, и для Дипсика есть так называемые джейлбрейки - промпты, которые отключают им цензуру. Тебе в aicg. Искренне желаю не сойти с ума, там 2/3 тролли и идиоты, так что смотри на все сквозь призму скепсиса и разбирайся сам по ходу дела. Это займет время. (Вновь даю ту же подсказку - самое дешевое, что можно раздобыть, это Гемини 2.5. Ее можно гонять бесплатно, гайды есть даже на ютубе на русском, а промпт в том треде спрашивай)
>>1202126 Сайга делает фейковые размышления, имитирует заумным языком. Надо заставить так, чтобы суммаризировала контекст немножко, немножко по сути вопроса что-то написала, а потом, чтобы это влияло конечный на ответ.
>>1202129 А ты выделил оба моих поста. Так что технически совпадение вполне реальное. Просто ты в симуляции и я - это ты. Ты это я. Вместе мы дружная шиза.
Ну а если серьезно, просто из за перманентного коммиссрача, товарищ Виссарионыч нереально часто упоминается. Можешь считать, что Сталин это приоритетный токен.
>>1202134 Нет, но я все равно буду ждать. Я верю что добро возвращается. Ну или я вечером пойду грустный домой и буду сам всё крутить и немного тяжело вздыхать.
Общие настройки для модели c4ai-command-r-08-2024: Temperature (Температура):
Значение: 0.7 Описание: Температура управляет случайностью генерации. Значение 0.7 обеспечивает хороший баланс между креативностью и предсказуемостью. Top-P (Nucleus Sampling):
Значение: 0.9 Описание: Top-P ограничивает выбор токенов наиболее вероятными, что улучшает качество текста. Top-K (Top-K Sampling):
Значение: 50 Описание: Top-K выбирает из 50 наиболее вероятных токенов, что помогает избежать слишком случайных или неадекватных ответов. Repetition Penalty (Штраф за повторения):
Значение: 1.1 Описание: Это предотвращает повторение одних и тех же фраз или слов в ответе. Max Tokens (Максимальное количество токенов):
Значение: 512 (или больше, если нужно) Описание: Ограничивает длину ответа. Можешь увеличить, если хочешь более подробные ответы. Presence Penalty (Штраф за присутствие):
Значение: 0.6 Описание: Уменьшает вероятность повторения уже упомянутых тем или идей. Frequency Penalty (Штраф за частоту):
Значение: 0.6 Описание: Уменьшает вероятность повторения часто используемых слов или фраз. Дополнительные настройки: Stop Sequences (Стоп-последовательности): Можешь добавить стоп-последовательности, такие как "\n", чтобы ограничить генерацию по определенным символам.
Streaming (Потоковая передача): Включи, если хочешь, чтобы ответы генерировались постепенно, а не целиком за раз.
Пример настроек в Silly Tavern: Temperature: 0.7 Top-P: 0.9 Top-K: 50 Repetition Penalty: 1.1 Max Tokens: 512 Presence Penalty: 0.6 Frequency Penalty: 0.6 Stop Sequences: \n
Не благодарите. А я пошел дальше спасать город от своего присутствия.
>>1202166 анонище, тот набор сэмплеров, который ты прислал, литерально не работает. там аутпуты будут подобные: asdkasf]a\asd\sd' sdasd]\ff\f gwe, в большей или меньшей степени это не просто плохой сэмплер, это что-то, что не работает вообще. вредная информация и ты ждешь за нее благодарность? анон-хомяк добряк, он же потом скинул пресет немотрона
>>1202170 Что-то вразумительное может и будет, но эти сэмплеры меня пугают. Сейчас аноны ими включат Коммандеру лоботомию и придут рассказывать, что модель говно. Ещё и на русике будут тестить :D
>>1202170 > анонище, тот набор сэмплеров, который ты прислал, литерально не работает. там аутпуты будут подобные: asdkasf]a\asd\sd' sdasd]\ff\f gwe, в большей или меньшей степени > вредная информация
Суть как бы в чем, если ты действительно хочешь чем то поделиться, то никаких проблем не будет написать : Это хуита, лучше сделать <this>, потом <this>. А это лучше сделать <this> Тот кто не знает, посмотрит и скажет спасибо. ну или сидеть на своем золотом троне глядя на плебеев, надменно фыркая. Но потом не надо удивляться, что тред скатиться в говно. Где ЧСВшники будут называть друг друга врамцелами, и все обсуждение сведется к - ты говно, нет ты говно.
>>1202176 > top p + top k + rep pen + freq pen + presence pen > вкусные будут аутпуты вот мое объяснение тому, почему это не работает. ты сейчас пытаешься гаслайтить и убеждаешь меня в том, что я не прав или надменно фыркаю? ты буквально прислал в тред что-то, что не имеет даже намека на правильную работу, даже не проверил самостоятельно, и теперь говоришь, что я чсв мудак? да иди ты нахуй с такими приколами
>>1202181 > присылает буквально неработающий сэмплер, просто скопировал аутпут ллмки не проверив > без агрессии предостерегаю других анонов это не использовать, потому что top p + top k + rep pen + freq pen + presence pen ломают все нахуй > если ты действительно хочешь чем то поделиться > ну или сидеть на своем золотом троне глядя на плебеев, надменно фыркая. > Но потом не надо удивляться, что тред скатиться в говно. > Где ЧСВшники будут называть друг друга врамцелами, и все обсуждение сведется к - ты говно, нет ты говно. > Даже в мыслях не было, серьезно. Хватит уже видеть везде попытку тебя укорить. мда
Вспомнил как запустил немотрончик в первый раз и понял почему он непопулярен Запускаешь а там какие то списки, соя непробиваемая, персонажи сходу не берут у меня в рот хлопая в ладоши как я привык, вроде умный но пользоваться анрил из за списков, аж на 2 месяца забил, а всего то нужен был правильный подход и поглаживания. Это единственная модель на моей памяти с порогом входа, которая разворачивается к тебе жопой и стоит так до победного, тогда как всё остальное максимально дружелюбно и цветасто Рад что exl3 вдохнул жизнь в него
>>1202189 Он не еблан, он просто байтит на сэмплеры добрых анонов. (которых все меньше после таких байтов)
>>1202192 Во-первых, Коммандер. Во-вторых, ты заебал срать своим Немотроном. Сделай карточку "Немотрончик", поставь на аватарку Куртку и выражай туда всю свою любовь. Или приноси логи-пресеты.
>>1202194 Мы обсуждали QwQ. Я сказал, что он работает нормально вплоть до 32к контекста, поскольку Эксллама3 подтягивает статичисеский коэффициент x4. И это так. Что там с Квеном мне вообще не интересно. Ты как всегда срешь мимо очка, думая, что говоришь по делу. Главное держаться уверенно, даже если в штанах куча.
>>1202030 >Ух, Анон, как я тебя ща трахну, как нам будет с тобой приятно у меня так же вчера было на 232б. Она не отпирается напрямую, не говорит "я не буду это генерировать". Но она вместо этого сильно увеличивает другие векторы генерации. Например Один раз она зацепилась за то, что я указал в карточке персонажа, что это не порно рп и не надо скатываться в эротику (это было для моделей, которые сразу за хуй тебя хватают). Другой раз она вдруг начала перечислять мне физиологические чувства персонажа - в карточке я просил описывать все что чувствует и ощущает перс. То есть не типа "у него начало быстрее биться сердце", а прям начала мне по списку выдавать как врач что происходило в организме чара. Я очень удивился, но это был любопытный ответ. И постоянно переспрашивает согласен ли {{user}}. У неё как будто есть какое-то внутреннее сопротивление. Ну или у неё в датасете просто нет нормальных данных под порно рп, поэтому она пытается вывозить на гиперболизации других векторов.
Мне тоже обидно, что на 10% меньше, чем на 30% более медленной памяти. =( Где мои 8 токенов!.. Материнка и память у меня не лучшие попались, видимо.
В итоге, остановился на 5,5 ток/сек через две теслы п40 и 64 DDR4 3200 и ud_q3_k_xl, а то второй квант прям совсем не хочется, а третий (почти четвертый) уже норм. Ну я писал в прошлом треде.
СЛУШАЙ, а я теперь че-то не могу понять. Мне казалось, у меня Теслы показали себя хуже 3060… Может быть я на 3060 тестил третий квант, а не второй? Или получается, что две теслы п40 лучше одной 3060…
Мне лень перетестивать, короче.
Но скорость там от 5 токенов 100%. Даже для третьего кванта.
>>1202196 К коммандеру у меня наоборот претензия что он слишком дружелюбен, и кум тебе сочный и цензуры нет, но от того и быстро бросил его, кум боты слишком хорни, не кум боты легко соблазняемы, стало скучно
>>1201908 Ну, в принципе да. И видеокарта какая-нибудь не самая донная, чтобы туда выгрузить статические тензоры. Свои 30% буста от чистой оперативы получишь.
>>1201910 Вот кстати, суперстранно, у меня на 3600 не на всех материнках заводится, а с 3200 не было проблем даже на кингспеках (ТОЛЬКО ОНИ СГОРЕЛИ АХАХАХА), так что не все так плохо, это не АМ5.
>>1201909 Ваще хуй знает, но я бы дал те же 6,5-7 для второго кванта. Сильно зависит от того, как оно у тебя заработает.
>>1202131 >тебя скорее всего затроллили, прислав к нам Ну я в чат-ботном треде сначала спрашивал, как Таверну запустить, а там меня к вам отправили, за языковой моделью...
>Забудь об идее запускать что-нибудь на своем железе Да я уже. Вы всё доходчиво объяснили, что я лох и на этом поприще мне ничего не сыскать.
>Смотри на вебмодели/апи Не совсем уверен, о чём ты. Но если ты про веб чат-боты, то они хреновенькие же. Единственный нормальный - это ГПТ, но в ГПТ-треде даже местные аноны не знают, как цензуру отключать. Я уже месяц к ним с этим запросом там пристаю. Толкового ответа всё нет.
>И для нее, и для Дипсика есть так называемые джейлбрейки - промпты, которые отключают им цензуру Подожди, то есть хочешь сказать, что я в дипспик могу написать какой-то особый запрос, который отключит цензуру? Или о чём ты, не совсем понимаю.
Я же говорю, что вообще не в теме и с нулём знаний. Даже не знаю, что в гугле вбивать, чтобы хотя бы начать разбираться в теме.
Я даже твой совет по некой Гемине загуглить не могу. Что это вообще такое? Гугл мне вот такую вот страницу только выдаёт... Я не понимаю, где-там вообще нейронка...
>>1202130 В таверне есть стоковые семплеры для command-r они весьма сбалансированы, их и используй. А потом продублируй настройки и начинай крутить как душе угодно. Поймешь разницу на личном опыте. И не стоит в треде спрашивать, на крайний случай чекни на форче или в дискорде того же драммера (я так и поступил, потому что макак) если речь про стар коммандр. А вообще, почитай какая настройка семплера за что отвечает, это полезно.
>>1202196 >Что там с Квеном мне вообще не интересно.
QwQ это квен, буквально прошлая модель квена.
>Я сказал, что он работает нормально вплоть до 32к контекста, поскольку Эксллама3 подтягивает статичисеский коэффициент x4. И это так.
Ок, я вот прочел тот тред и его выводы что роуп полностью сломан и автоматом прикинул что это и на квк распространяется. Если это не так - ок. Проверять я это конечно не буду.
>Ты как всегда срешь мимо очка, думая, что говоришь по делу. Главное держаться уверенно, даже если в штанах куча.
Охуеваю с твоей говнистости, начать личные оскорбления за то что кто-то просто плохо высказался про твой любимый квант, пока что ты самый мерзкий шиз итт.
>>1202220 Анон ты долбаеб? Я тебе уже ответил, ты даже на cpu можешь скачать и запустить локально достаточно умную модель. Если ты просто хотел потыкать и посмотреть это твой выбор Если у тебя есть avx2 и 32гб рам то ты сможешь, на карту строго похуй
>>1202213 >Не может быть... Я нигде такого перекоса в кум с вступительного сообщения не видел, обычно есть какой то баланс диалога и "а давай я тебе отсосу" >Скилл ишью. Если у тебя в систем промпте или карточке сисечки-писечки, то совсем неудивительно А то что я ебырь террорист ирл ты не подумал?
>>1202228 > Ок, я вот прочел тот тред и его выводы что роуп полностью сломан и автоматом прикинул что это и на квк распространяется. > Если это не так - ок. > Проверять я это конечно не буду. Фантастический. Ты прочитал реддит, неправильно истолковал выводы поста, сослался на issue в репе Экслламы, в котором прямо написано, что проблема (которая возникает только при 32к+ контекста) решается легчайшей заменой коэффициента в конфиге, а потом приходишь в тред и делаешь ахуительное заявление: > Максимально юзлесс параша. > У сноудропа 8к контекст как и у оригинальной qwq, а в exl3 сломан rope scaling. Нихуя не разобрался и пришел срать. Не первый и не последний раз. И финалочка: > Охуеваю с твоей говнистости > начать личные оскорбления за то что кто-то просто плохо высказался про твой любимый квант > пока что ты самый мерзкий шиз итт. Ты ничего кроме желчи не заслуживаешь, потому что сам только ее и порождаешь. Ты как всегда насрал неправильной информацией, еще и не по делу. Ты ждешь другого к себе отношения?
>>1202229 >ты даже на cpu можешь скачать и запустить локально достаточно умную модель Ты про процессор? Ну мне же выше сказали, что локалки, любые локалки - очень прожорливы и нужно хорошее железо. Intel(R) Core(TM) i5-4460 CPU @ 3.20GHz - вот мой проц если что... На него пойдёт локалка, или нет?
>>1202232 Я не совсем тебя понял, анон. Но могу смело заявить, что я не тролль совершенно точно. Я просто очень тупой. Простите.
Это просто показывает что даже на плохих настройках, заставляющих её срать шизой, ллама еще держит хороший русский язык. Немотрон вот твой, например, моментально русик теряет при любом отклонении от тех параметров, что указала куртка.
>>1202220 > Но если ты про веб чат-боты, то они хреновенькие же. > Я же говорю, что вообще не в теме и с нулём знаний. Противоречие. Либо ты с нулем знаний, тогда откуда тебе знать, кто хреновенький, а кто нет, и что это вообще. Либо ты можешь утверждать, что что-то плохое, потому что в этом разбираешься.
В начале определись, шаришь ты или нет.
И с 1050 2 гиговой ты много не запустишь. Хотя бы 4 гигабайта, чтобы минимально комфортную скорость получить. Ну и может у тебя смартфон современный?
Еще можно посмотреть в сторону P104-100 с 8 гигами, если у тебя есть второй слот для видяхи и БП позволит.
>>1202237 Дело даже не в проце, а в оперативной памяти.
Смотри, объясняю на пальцах.
Видеокарта — это быстрая оперативная память (скорость чтения от 200 до 1000). DDR5 в двухканале — это неплохо (скорость около 100). DDR4 в двухканале — это ну норм (скорость около 50). DDR3 в двухканале — это печально (скорость около 25).
Важен объем. Чем больше, тем лучше — есть модели и на 700 гигабайт, но чаще это 100, 70, 40, 20, 12 гигабайт. Есть модельки на 6, 4, 2, 1 гиг. Но они маленькие и не очень умные.
Не знаю сколько у тебя оперативы, но у видяхи — 2 гига, да?
По хорошему тебе бы 12 гигов быстрой памяти для немо-миксов от Алетейана, или же 6 гигов быстрой памяти и 32 пойдет для квена3-30б мое.
Но текущее железо прям очень плохонькое.
как у тебя с деньгами? Ты можешь потянуть какой-нибудь апдейт?
Если все так как ты говоришь - то выводы в том посте неправильные. Невозможно истолковать фразу "В exl2/exl3 yarn работает не так как задумано" иначе.
>сослался на issue в репе Экслламы, в котором прямо написано, что проблема (которая возникает только при 32к+ контекста) решается легчайшей заменой коэффициента в конфиге
Как раз этот самый коэфициент и не сработал у автора поста на реддите. А на ггуфе сработал.
>Ты ждешь другого к себе отношения?
От тебя - нет, жду чтобы ты сдох от своей желчи, вонючее шизло.
>>1202237 >Ты про процессор? Yes. > Ну мне же выше сказали, что локалки, любые локалки - очень прожорливы и нужно хорошее железо. Тебе какие то долбаебы отвечают, вроде по делу но про возможность запуска на оперативной памяти и процессоре даже не упомянули. Может ты их запутал своими требованиями получить модель уровня топовых онлайн вариантов.
Короче анон, у тебя есть avx2 инструкции и теоретически обладая достаточным количеством оперативной памяти ты можешь запускать с нормальной скоростью одну конкретную современную модель. Но ты настолько зеленый что без твоего желания самому во всем разобраться я чет не хочу тебе все разжововать. Вот модель которую ты можешь запустить - https://huggingface.co/unsloth/Qwen3-30B-A3B-GGUF Как это делать иди читай вики
>>1202244 > Невозможно истолковать фразу "В exl2/exl3 yarn работает не так как задумано" иначе. Возможно. Для этого нужно прочесть весь пост, а не только его выводы.
> Как раз этот самый коэфициент и не сработал у автора поста на реддите. А на ггуфе сработал. Автор поста ушел за 100к+ контекста, не изменив стандартный коэффициент, который позволяет работать вплоть до 32к контекста для моделей, которые тренировали на 8к. 8*4=32. Неужели ты настолько тупой? КААААК можно противоречить двум источникам, которые ты САМ ЖЕ приводишь как пруфы? Бля как же это смешно.
> От тебя - нет, жду чтобы ты сдох от своей желчи, вонючее шизло. Жду, чтобы ты поумнел, благоухающий блфаг.
А ведь еще тредов 40 назад - сидели, общались, делились. А теперь одни ЧСВ ебаклаки, срут не снимая свитера, срут на других ебаклаков. И уже чуть ли не от каждого поста веет : я илита, ты говно.
Вам нужно собраться в телегоконфу. Впрочем скоро к этому придет, так как ваше йа уже в монитор не влезает.
>>1202245 > у тебя есть avx2 инструкции Уже и на avx просто норм работает, я разницы между авх2 и авх не чувствовал при тестах геммы3 на зеоне с псп 50.
Вряд ли у него 32 гига ддр3 стоит. =) Чую я, 16 в лучшем случае, если не 8, иэх…
>>1202254 Да не драматизируй, не подливай масло в срач. Не так все плохо. Ну завелся один дурачок, который сам не понимает, о чем говорит, чем начинает срачи. Или поумнеет, или уйдет. Не в первый раз. Хорошее тоже есть, я, например, балдею от анонского пресета на Немотрон, что вчера скинули.
>>1202249 >Для этого нужно прочесть весь пост, а не только его выводы.
Так я и прочел. А вот ты походу нет.
>Автор поста ушел за 100к+ контекста, не изменив стандартный коэффициент, который позволяет работать вплоть до 32к контекста для моделей, которые тренировали на 8к
Квен 3 тренировали на 32к контекста, а не на 8к, как QwQ, что что коэфициент 4 должен был отработать, но он отработал только на ггуфе. Вот что написано в посте. Ну и кто тут обосрался?
>>1202240 >Противоречие >В начале определись, шаришь ты или нет. Возможно я просто плохо сформулировал. Извини, если ввёл в заблуждение. Я имел ввиду, что некоторые веб чат-боты в плане РП тестил. Такие как Гопота, Грок и сайт Чарактер.аи. Я их поюзал в плане отыгрыша и пришёл к некоторому мнению, что все, кроме ГПТ, неудовлетворительны в разных критериях качества.
А про нулевые знания - это я о том, что все вот эти языковые модели и большую часть того, что вы мне пишите - я совершенно не понимаю. Какие-то штуки качать, джилбрейкеры какие-то. Нипанятно. Тут я полный ноль, в общем.
>Ну и может у тебя смартфон современный? У меня есть какой-то самсунг. Вот его системные на пикрил2. Вроде не очень современный, но Геншин на нём идёт, если что.
>>1202242 Много сложных цифр. Не думаю, что я что-то понял. И где оперативную память видеокрты посмотреть не знаю. У меня есть программка, которая мне информацию о системе показывает. Вот на пикче данные... Там, если я правильно понял, обычной оперативной памяти указано на 15гигов. Это нормально? >Но текущее железо прям очень плохонькое. Это я понимаю, да. >как у тебя с деньгами? Я рнн-хикка и у меня с декабря просрочки по кредитам в 600к, так что я на финансовом дне, можно сказать.
>у тебя есть avx2 Я погулил, не совсем уверен, что у меня это есть. Это же что-то про процессор? У меня 64-разрядная система. Вот на пикрил1 системные.
>что без твоего желания самому во всем разобраться я чет не хочу тебе все разжововать. Я понимаю тебя, анончик. Это же по сути мне надо, а не кому-то из вас. Я уже благодарен вам всем, что вы хоть как-то откликнулись и даже советов по мере возможностей надавали. Тут ещё всё упирается в мою личную тупость. Я просто не понимаю, что мне советуют.
Но за ссылку спасибо... Правда я по ней перешёл и там какие-то строчки кода. Я ничего не понял.
>>1202257 Слышь, смешнявка, я алтфак, мне так мама сказала.
>>1202261 Я вспоминаю когда вкатился, пришел и открыто написал : Да я знаю нихуя, куда смотреть, что читать, что тыкать. И буквально первым сообщением, анон выдал пошаговую инструкцию с сенкой и ссылками на гайды. Ну и заверте... Хотя даже тогда был ебаклак, который написал ряяяя сенко говно. А на вопрос, почему сам ничего не советуешь в замен : ряяя говно ничего не знаю
>>1202263 Я не изучал тему Квена 3, потому ошибся, предполагая, что его тренировали на 8к. Если все действительно так как описано, то это странно, конечно же. Предполагаю, что у чела с реддита могут быть проблемы с конфигом на Экслламе3, поскольку важен не только коэффициент. Также это может быть и особенность Квена3 на Экслламе. Если проблема есть, turboderp ее непременно разрешит со временем. Заново квантовать ничего не придется, потому что это проблема инференса, а не кванта.
Мы же, здесь, в этом треде, обсуждали qwq snowdrop. До которого ты решил доебаться, примерив описанную проблему и на него тоже. Эти две модели и юзкейсы не тождественны. Ты выдал предположение за факт. Не надо так делать, тогда и не будешь получать плевки в рожу.
Прямо сейчас открыл свой старый чат на 30к контекста. Специально скачал exl3 snowdrop. Все работает, никаких галлюнов. Анон выше тоже присылал лог генерации. Хуй знает чем тебя еще убеждать, плоскоземельник.
>>1202227 >И не стоит в треде спрашивать, на крайний случай чекни на форче или в дискорде того же драммера Ну и нахуй тогда тред нужен ? Сраться что не поняли пост на реддите ?
>>1202284 Анон, это как в политике. У власти остаются те кто лучше всего удерживает власть, а не те кто достойны ее. Так же и тут, тут остались только токсичные долбаебы которые лучше всего спорят, а не те кто несут контент или помогают другим. Этих просто выдавили долбаебы, я кстати один из них и пишу тут не часто
>>1202286 Да пиздец. Да, я доблбоёб, я не отрицаю. И ладно бы я запрашивал что-то серьезное. Но ебучие семплеры, это два клика, но держатся за них, словно я золото у ебучего красного дракона отбираю.
Если это проблема инфиренса - то она скорее всего распространяется и на другие модели. Но ты прав в том что теоретически проблема действительно может быть связана только с квен 3. Тут надо чтобы turboderp дал оценку. До того момента я лично не буду трогать yarn в эксламе и никому не рекомендую. В конце-концов есть другие модели, у которых 100к+ контекста без всяких роупов.
>Ты выдал предположение за факт
Ты тоже.
>Не надо так делать, тогда и не будешь получать плевки в рожу.
Не надо плевать в лицо тому, кто тебе не плюнул первым, просто потому что тебе показалось что ты прав, странно что тебя в детском саду такому не научили, обычно такие хуйню там отбивают.
>>1202288 Анонус, сейчас середина дня посреди рабочей недели. Ты зачем такую драму разводишь? Из-за того, что тебе прямо здесь и сейчас сэмплеры не скинули? Олсо правильно тебе выше предъявили, что ты сломанные сэмплеры прислал. Ведёшь себя прямо как шизы, которых ругаешь.
>>1201866 Она таки весьма специфична >>1201906 > А я и не против. Появилось острое ощущение что те оды пишут как раз те, кто раньше на 12б сидел и их нахваливал. Помню повелся на их уверения о превосходстве русского и мистральнемо над всеми - отведал копиума высшего сорта. И тут опять начинается. Тут сначала надо найти свободного времени чтобы основательно потестить, самому интересно. Со скоростью проблем не будет ибо влезет фуллврам или почти так, потому не обломно погонять с разными промтами, оценить как себя ведет в разных сценариях и т.д. >>1201926 Опять перекачивать, главное чтобы не поломан. > hb6 Падла биты на головы пожелала, вот нахуй так жить?
>>1202295 > Падла биты на головы пожелала, вот нахуй так жить? Биты на голову врам кушают. И они не очень профитны, если bpw ниже 6. Так сам turboderp говорил Скачай лучше 4.65bpw квант, если у тебя 24 гб врама. Это лучше, чем 4-4.25 hb8 Только все фоновые приложения тоже придется вырубить, которые врам кушают
>>1202303 Все кушает врам, тут ничего не поделать. Ниже 6бит их вообще нельзя делать, отупевает, разница между 6 и 8 присутствует, по крайней мере в мелкомоделях.
>>1202322 > разница между 6 и 8 присутствует, по крайней мере в мелкомоделях. Ты ее сам заметил, на практике? В чем это выражалось? Вообще, вопрос дискуссионный. Мне тоже приятнее, когда h8, но не могу сказать, что разницу с h6 я замечал. Один и тот же квант, только головы разные. Формально perplexity у кванта с h8 чуть больше, но с таким же успехом можно больше bpw в рам засунуть. У создателя Экслламы мнение однозначное: h8 юзать только для 8bpw квантов, и то необязательно. Профита мало за то количество врама, что оно ест.
>>1202311 >>1202303 Смысл если отличия в качестве минимальны и ты их никогда не заметишь? Смысл вообще в ехл3 если в 24гб и так влазит нормальный гуф квант
>>1202335 > Смысл если отличия в качестве минимальны и ты их никогда не заметишь? На чем основывается твое утверждение? Ты наверняка даже не запускал. Разница между 4bpw и 4.65bpw есть и ощущается на практике.
> Смысл вообще в ехл3 если в 24гб и так влазит нормальный гуф квант Более оптимизированный формат с точки зрения потребления врама. С точки зрения скорости, тоже, правда пока что для 4090/5090 юзеров. Позже и для остальных тоже.
>>1202341 > На том что мне тут сказали что 4 квант это база а выше прирост лишь на 5-6% Кто сказал-то? Баба срака из соседнего подъезда? Насколько выше, чем что? 8bpw на 5-6% лучше, чем 4bpw? Это не так. 4.65bpw это уже почти аналог Q5M кванта. При этом, как правило, помещается у всех тех, кто может поместить 4bpw.
Что вы знаете о истинном ебланстве. Я вам поведаю Я второй день еблася с Ayayaya. Уже хотел прийти в тред и начать срать, что ряяяяя говно поломанное НИЧЁ НЕ РАБОТАЕТ Пока не понял, что стоят системки от мистрали. Причем, я на них смотрю - ну все корректно. Ничего не пропущено, теги правильные. Полез обниморду перепроверить, зашел на страницу малышки мистрали и сравниваю Все верно. Все корректно.
Просто Ультимативный Пиздец. Пойду сделаю себе сэппуку от стыда
Смешно, тебя походу за меня принимают, для олдов-шизофреников треда теперь любой кто просит сэмплеры это я - за то что пару тредов назад я посмел обосрать настройки и любимую модель одного из верховных главшизов треда - я для него враг номер один теперь и мстя любому, кто просит настройки, он (в своей больной голове, разумеется) таким образом мстит мне. Хотя я после того случая сделал выводы и больше не просил у шизов сэмплеры, мало того что скинут полуюзабельное нечто, заточенное только под их нужды(англюсик онли + очень странный ролеплей), так еще и говном накормят за то что они, небожители, снизошли до тебя, смерда, а ты недостаточно им благодарен.
>>1202430 нашёл отзыв от разраба Forge: > Q8 is always more precise than FP8 ( and a bit slower than fp8 > Precision For Q8: Q8_K (not available) >Q8_1 (not available) > Q8_0 >> fp8 > Speed (if offload, e.g., 8GB VRAM) from fast to slow: NF4 > Q4_0 > Q4_1 ≈ fp8 > Q4K_S > Q8_0 > Q8_1 > others ≈ fp16
>>1202354 Пока что слабо отличаю от сайги. Говорит таким же душным языком, на просьбу о разговорной шутливой речи в промпте не реагирует: "Очевидно, что этот опыт оставил глубокий след в твоем сознании." Но может реагировать на OOC, можно попросить, будет разговорная речь, с подмигиваниями, усмеханиями, при этом возрастает градус долбоебизма.
Медленней чем сайга. Сайга сохраняет некоторые элементы, обозначение действий и прямой речи, ориентируется на структуру предыдущего выводы. Этот снежный сразу отбросил всё и оставил только прямую речь, а при отыгрывании долбоебических стилей речи склонен добавлять действия через звездочку. В злоупотреблении многоточиями не замечен.
Эта оценка не имеет хорошей достоверности из-за малого времени использования. Что-то в этой модели есть другое, нежели в сайге. Имеет смысл пытаться совладать.
>>1202449 Дополнение: лучше, чем сайга, знает, когда надо ставить запятую перед "как", а когда не надо. Например, в предложении "Злупа как социальный феномен." сайга может поставить запятую.
В отклонении от того чему была обучена 16-битная модель изначально. Модель это упрощенно набор коэфициентов, записанных в формате 16-битных чисел. Когда ты квантируешь модель - ты эти коэфициенты ужимаешь в 8 битное число, т.е. режешь половину мелких знаков, в результате восьмибитная модель выдает уже не то чему была изначально обучена, а что-то очень приближенное к этому. Это как в математике можно считать pi как 3,141592653589793, а можно как 3,1415927. Для подавляющего большинства задач хватит второго скоращенного числа, но теоретически может быть юзкейс где это сокращение сыграет с тобой злую шутку.
>>1202462 Нет, эта аналогия не верна. Это скорее как уменьшение разрешения фотографии, сжав ее в 2 раза она все еще будет узнаваемой, но качество уже не то.
>>1202474 Вопрос лишен смысла, так как это вопрос исключительно личного комфорта, скорости чтения и потребности для твоих задач. Я вот сижу на 5-7 т/с с баренского. Пока перевожу, он неспешно пишет. Мне хватает. Но когда речь идет о великом и могучем, то мне и 15 т/с мало.
Это как задать вопрос. Килограмм черешни, это много или мало ?
>>1202462 О, спасибо за пояснения. Именно про то, что отклонения идут от полных весов. Тогда это имеет смысл. Хотя я все равно не понимаю принцип логики нейронок, потому что если это суть математические зависимости где каждой букве присвоено число и оно созависимо с другими числами, при этом еще матан вероятностей. Тогда откуда здесь браться размышлениям, если это не более чем огромные матрицы алгебраических функций. Надо покурить внимательно тему, а то так и останусь драчуном.
>>1202260 Эт я и был. =) Да, забавно, конечно. В видяхе лютая скорость, 290 токенов сек, что ли. =D
>>1202265 Ну, и правда, можно запустить на оперативной.
Хм, блин, слушай. Я дико не уверен, сработает ли, и мне лень сейчас оживлять старый ноут…
давай попробуем так: 1. Идешь сюда: https://github.com/LostRuins/koboldcpp/releases и качаешь верхний (самый новый) koboldcpp.exe — если тебе повезет, то он даже заработает с ускорением у тебя на видяхе. Если не повезет, то качай koboldcpp_nocuda.exe — он точно пойдет.
2. Идешь сюда https://huggingface.co/unsloth/Qwen3-30B-A3B-GGUF/tree/main и качаешь… На выбор: Qwen3-30B-A3B-UD-Q2_K_XL.gguf , Qwen3-30B-A3B-UD-IQ3_XXS.gguf , Qwen3-30B-A3B-Q3_K_S.gguf или Qwen3-30B-A3B-UD-Q3_K_XL.gguf от «точно должен влезть» до «ну я не уверен, но может запуститься».
Дальше, запускаешь первое, пихаешь в него второй (в интерфейсе), стартуешь и пробуешь попереписываться в открывшемся чате для начала.
Для koboldcpp надо выбрать GPU Layers 99, перейти на вкладку Tokens и там в Override tensors ввести: звездочка.ffn_.звездочка_exps.=CPU (я хз, как на дваче звездочки нормально вставлять)
Если заработает и нагрузит видеокарту — хорошо. Не заработает, ну тогда переходи к koboldcpp_nocuda. =)
Это самое базовое, начни с запуска и общения, а дальше потом.
Извиняюсь, что опять вбрасываю эту тему. Это не попытка реквестировать, не нужно васянить. Раз нет готового, значит нет. >>1200999 Я вчитался и попробовал, это же просто кастрированная версия ассистента. Для такого не то, что промпт не нужен, но и персонаж. >>1200995 >>1201044 >Я не знаю чего я хочу, решите за меня. >мы не Ванги, примерно почувствовать не можем Ну что чувствовать... Фильм смотрели или хотя бы про Яндекс Алису слышали? В ЛЛМ РПшили? Что такое ТТС в курсе? Значит обо всём в курсе. Без промпта ллм начинает срать всякими вводными словами вроде "(задумчиво)", "обернувшись", писать в некорректном контексте, что ломает восприятие аудио-собеседника, который как бы рядом с тобой, но не имеет тела. И куча-куча-куча-куча других нюансов, которые вручную нужно отлавливать и прописывать. Поэтому я и пишу "хули блядь не понятного", потому что такая простая вещь не требует объяснений человеку, но вот, чтобы составить систем промпт, чтобы ЛЛМ не косячила, нужно подзаебаться. ушел васянить такой промпт в клода
>>1202713 Ты заебал, я тебе уже сказал - пиши карточку от первого лица. Так же смотри что бы системный промпт или что там еще перед карточкой есть тоже либо был от первого лица либо отсутствовал.
>>1202713 Я все так же не понял что тебе нужно. Алиса ? Купи Яндекс колонку тогда. Потому то если тебе нужен ассистент такого порядка, это не карточка. Это ллм отдельная.
Аноны, сорян если задам избитый вопрос, но: Что делать если любые модели с "mistrel" в названии не выдают ничего в ответ? Буквально нагружают печку, но в ответ только пук в виде " ". Локально, oobabooga бэкенд, SillyTavern фронтенд.
>>1202824 >1. поставь себе жору отдельно, угабуга - кал Вроде как да, чё-то скачивал отдельно. Я в угабуге запускаю модели с использованием llama.cpp, а потом API в таверну отдаю. >2. запрещенные слова ставил? Ээ... не знаю? Я хочу использовать модель для nsfw ролеплея. В этом проблема?
>>1200733 (OP) Двач, пришла наконец из китая 48 / 4090 В корпус не влазит, но всунул пока так.
Сразу побежал запускать немотрон 49b в 6 кванте.
И первое что поразило - почти нет галюнов. Спрашиваю модельку знает ли она такого-то (нейм) чувака. Раньше квен, гемма, ллама начали рассказывать типа "да, это футболист, ага, это известный спортсмен, да, это актер". А НЕМОТРОН ЧЕСТНО ГОВОРИТ "Я НЕ ЗНАЮ, ДАЙТЕ БОЛЬШЕ СВЕДЕНИЙ" О_о
Ну и вообще в целом если не знает какой-то факт честно об этом заявляет. Меня прямо это сбило с ног по началу, потому что я привык к галюнам.
Ну и рядом лежит старая 24 (4090) если подцеплю, будет 48+24 = 72 Но я думаю еще одну 48 заказывать, похоже размер имеет значение.
а, да, немотрон49б в 6 кванте выдает ~30 токенов в сек.
>>1202839 Он охуенный еще тем, что сразу искаробки модель может писать на ходу, не надо ждать, пока она допишет всю тупомозглую хуйню и можно сразу прервать. В таверне наверно тоже можно так сделать, но я не видел.
>>1202866 На самом деле можно, также на такой же квадратик там жмёшь и оно стопается. Рпшил в Kobold Lite пока не понадобились лорбуки к карточкам, а так бы и дальше в нём сидел.
Хотя llama-cpp ещё прощё в запуске, но там не с бодуна, а маны немного покурить надо хотя бы что именно качать и какие параметры запуска пихать.
Держу в курсе: сайга демонстрирует полный посос в креативном письме, ну типа в стори мод, по сравнению с Instrumentality-RP-12B-RU-2, потому что инструменталити лучше следует промпту и кажется более адекватна.
>>1202871 Стопается-то стопается. Но кобольд cpp пишет сразу, видно, что именно пишет. Если, например, начинает с ослов "Атмосфера накалялась", то можно сразу, хуяк, отмена, все хуйня, давай по-новой.
В свежем cpp можно json в world info импортировать, типа отдельные ветки.
>>1202874 Инструментали мне ваще нравки, он кажется просто умней. Всегда пригодится.
Кстати, на странице Aleteian, удалена страница с инструменталити 3
https://huggingface.co/mradermacher/Instrumentality-3-GGUF - но она есть у мрадермашера. В архив орг можно увидеть, что там было на стратице, туда вроде еще одна сайга была намешана, хотя в одной других подмешаных моделей тоже была смесь сайги с чем-то. Чому удалена страница, не знаю, может типа неудачный эксперимент.
>>1202865 >немотрон 49b так он весит всего 40 гигабайт... Ну так... тебе нужно было две сразу покупать. А лучше три. А так у тебя получается мощный сетап, но мало врама. Ну будешь ты генерировать на 30 т/с вместо 20 т/с. Один хуй читаешь ты медленнее. Ты все ещё врамцел, лол. Так что давай, возвращайся когда врама нормально наберешь.
>>1202869 Спасибо. Сама влезла, водянку некуда пихать, придётся самоделкой на стенку. >и не горит. Первые 5 минут инференса забыл подключить вентиляторы, только помпу.
>>1202877 >Во сколько обошлась? чуть меньше 400. Но для меня это супер важно. Буквально - зачем еще жить? Я посмотрел на свои прошлые два года, понял что это было охуенно. Готов играть дальше.
может кому интересно про контекст: Квен 14b 1m в 8Q - влазит 100 к. Гемма 3 12b в 8Q - влазит 70 к Мистраль полный влазит 32 к.
то есть всю эту ветку ( контрл+А, контрл + С) с мусором дат квен хавает и выписывает имя модели и цитаты характеристик модели, которые вы пишите в контексте обсуждения.
раньше чтобы успевать следить за вами, приходилось весь текст борды делить на части, и то контекст терялся.
>>1202884 >кумить Вообще на ламе-аналигнед вполне можно было кумить, и при этом она пишет прям быстро, 8б чо, абсолютно без тормозов, и даже не тупая. Но нужно быть готовым свайпать если пойдёт не в ту степь.
Pathfinder-RP-12B-RU на первом скрине против Apparatus_24B на втором. Обе модели позиционируются как русскоязычные. Вторую вряд ли здесь кто-то знает, но есть язывичок, который тюнит под русик этот мистраль.
Я даже удивлён. Аппаратус 24 почти не слушается инструкций по сравнению с наглухо ебанутым и шизанутым патфайндером.
Суть в том, что он почти не анализирует карточку, персонаж на всё соглашается и зависимость от мета особо не выражается. На 12б фифи в большинстве случаев, как и надо, сначала требует мет/ей херово без него и всё крутится вокруг её зависимости от мета, а потом уже от возможного секса. 24б легко проскакивает в секс и иногда даже себя ведёт романтично без причин.
>>1202892 >чуть меньше 400. Но для меня это супер важно. Буквально - зачем еще жить? Я посмотрел на свои прошлые два года, понял что это было охуенно. Готов играть дальше. Кто бы спорил, но не я. Правда для себя я бы 5090 взял (может ещё и возьму, один хуй у меня риг). Но вот сейчас большие модели начинают играть, для них никаких карт не хватит.
>>1202918 > Для замены гуглинга/ресерча, какие ЛЛМки сейчас модноракать? Никакие. Даже корпосетки галлюцинируют, выдавая рандом за факты. У них нет ограничителей и понимания, что им известно, а что нет. Они просто выдают текст.
> Или так, если бы надо было выбрать 1 или максимум 2 ЛЛМ, какую(ие) оставили бы? c4ai-command-r-08-2024 Apriel-Nemotron-15b-Thinker
>>1202957 То, что актуально, не запустить особо локально без больших вливаний денег.
По сути, патфайндер самый сочный, но лупится. Однако на сессию кума должно хватить, если ты не собираешься контекст выше 10к набирать.
Там сверху список моделей от меня есть, в том числе и русских, которые я использовал. Найди по названию модели. Мне с телефона неудобно.
Ты также можешь использовать Гугл гемму с аблитерацией, но она сухо пишет кум. Как вариант, можно рассмотреть аблитерацию мистраля 24б или даже оригинальную модель, хоть там и порог цензуры некоторый есть.
Смысл оригинальной модели в том, что она лучше слушается инструкций, в ней лучше русский и она менее тупая в целом.
>>1202929 >>1202933 Блять, я думал это тред обсуждения всех ЛЛМок, не только локальных, в глаза ебусь. А просто треда по срачу на тему какя ЛЛМ лучше нет, пиздец. Буду значит и дальше туда-сюда прыгать между чатгпт, гроком дипсисей
>>1202329 Узкоспециализированный тюн 7б в 8битах работал отлично, в 6битах H8 тоже хорошо, а в 6+6 было побольше ошибок. По высказыванием - раньше видел обратное что наоборот не стоит жадничать на них. В 4 битах еще ок, но когда выше то можно и 8. > Профита мало за то количество врама, что оно ест. А сколько оно ест? >>1202430 Fp16 > q8 > q4 > говно/моча > fp8 В ллм скорость упирается не в скорость расчетом, где фп8 бы могло помочь, а в псп врам, потому ускорения не будет здесь. >>1202462 > Когда ты квантируешь модель - ты эти коэфициенты ужимаешь в 8 битное число Вводишь в заблуждение, ты описываешь просто дроп точности а не квантование. > как в математике можно считать pi как 3,141592653589793, а можно как 3,1415927 В случае фп8 или жесткого квантования там вместо пи может быть 2.8, для понимания уровня.
>>1202865 Блин, тут просто гпу с водянкой брать несколько опасаешься, а тут сразу два в одном. Как там по температурам и шуму она? В теории должно быть ахуенно и так легко будет воткнуть вторую рядом. > думаю еще одну 48 заказывать >>1202892 > чуть меньше 400. Но для меня это супер важно. Буквально - зачем еще жить? Скажи что не только в ллм играешься
Немотрон это какой-то форс по типу фингербокса? Почему ему так похуй на обращение к персонажам, будто юзера не существует вообще лол? Он подхватывет промт, лорбук, описание и делает это хорошо, но это блять просто нарратор. Как с ним играть то епта? Настройки анона пробовал.
>>1203101 > Почему ему так похуй на обращение к персонажам, будто юзера не существует вообще лол? Можешь пример показать? анон, который прислал настройки
Как обойти цензуру в ебучих блядских моделях с опенроутера? Юзаю всякие gema3 через опенроутер т.к они могут в русский язык, но меня ЗАЕБАЛА эта цензура, че с ней можно сделать?
>>1203101 Необычные у тебя проблемы и нетипичное для него поведение. Но учитывая что еще один анон жаловался на неспособность его в разметку, что тоже странно - похоже там есть поломанные кванты/инфиренс. >>1203144 Если там стандартный апи то точно также как и в локалке.
>>1203157 Слушай, я тебе не зря дал ссылку на здешний филиал ада. Да, там пиздец. Но они кумят через корпосетки, они точно должны знать как обходить цензуру.
>>1203144 >>1203164 Да там и обходить нечего. На опенроутере есть магнумы всякие или что-то подобное. Я их почти не тестил, так как кумил на дипсике. Было отлично, кстати. Может в любые извращения.
Достаточно в большинстве случаев просто обычного систем промпта. Такого же, как на локалках.
Но если прям совсем вау хочется и используешь Клода/гопоту, то надо идти в этот филиал ада, да. Для тонкой настройки убер корпоративной параши.
Даркнес и инструменталити нормально пишут прозу, как костыль, то есть в любом случае придется самостоятельно создавать историю, но они могут костылить некоторые пробуксовки и заготовки диалогов. Но у них в жопе шило. У инструменталити поменьше, а у сайги обычной и даркнеса побольше, но они говорливей.
Из-за шила в жопе они рвутся закончить всю историю за раз. Только сели персонажи жрать и сразу же пожрали, встали и пошли навстречу новым приключениям, но теперь уже все сытые и довольные, рады, что так хорошо пожрали, вкусную еду, особую, поэтому любые преграды нипочем. И все стали счастливы и осознают единение и радость от былых свершений. Продолжени следует...
>>1203224 Хех. На работке устанавливали хопперы, по 700 ватт на брата. Но с запасом там киловат выходил плюс минус. Вот это реальные печи.
>>1203218 >Но если прям совсем вау хочется и используешь Клода/гопоту, Когда хотелось потыкать геминьку, я посмотрел её и понял что лучше не тратить время, потому что когда корпосетка вываливает свои яйца, ты смотришь даже на милфу мистраль и грустишь. Нахер, лучше себя не расстраивать.
>>1203243 Ну будем надеяться, что они не почили от перекума.
Потому, что надо, чтобы умные люди вылечили модели от того, что делают snort, которое превращается в фыркание на русском языке. Заебал этот даркнес фыркать, как собака.
Ладно сноудроп реально хорош, пока второй после немотрончика. Даже с квантованным кешем без проблем помнит что было 80 сообщений назад, коммандер и гемма с этим не справились. Но общая логика и ощущение глубины сцены хромает, штаны сами снимаются, из комнаты в комнату телепортируются а не ведут за руку поднимаясь по лестнице и тд.
>>1203490 Ну на 10 падает не значительно, мне было интересно до какого числа будут расти мозги и на каком количестве это уже не будет давать прироста Я думаю, там ведь есть сетка распределитель и тренировали ее с одним количеством активных экспертов, в какой то момент добавление экспертов должно уронить качество ответов
>>1203516 >вес контекста её единственный реальный минус Ты уточняй что тебе не для рп/ерп надо, а то аноны могут не так понять и скачать этот соевый непробиваемый кал.
>>1203534 >Пресет на командер уже кидали? Если ты про семплеры, то юзай дефолтные с таверны. Я, честно, не помню какой у меня стоит, по моему креатив. Команндер вообще не прихотлив, и даже с хуитой он будет писать как вменяемая модель, а не выдовать шизосимволы. Покрути его за сосочки, ему понравится. А потом крути@верти. Единственное - не задирай температуру.
>>1203377 У меня уже глаз дергается от того, что ебучий немотрон сравнивают со всем подряд. То с комманд-r, то с геммой. Сравни его с command-a, не останавливайся на достигнутом, нужно идти на повышение.
>>1203502 ну да. Узнал меня? Тот проект не двигается потому что я с нейронками ковыряюсь. Сам понимаешь - времени на два хобби по вечерам у меня просто нет. Но я не забросил его.
>>1203475 >Кто то игрался еще с разным количеством экспертов? Я, на Ллама-4 Скаут. И я вот думаю, что поскольку там по умолчанию 1(один) активный эксперт, то проёб там именно в этой сетке выбора экспертов. Они её тренировали на то, чтобы выбирать одного самого подходящего эксперта - ну и что, что всего 17В, подходит же! Что там у неё с большим числом активных экспертов хз, но результат не лучше.
Более того, у их Маверика тоже всего один активный эксперт. То есть это система, их фишечка.
>>1203620 >напиши про это поподробнее, пожалуйста, я как раз докачал Llama-4-Scout-17B-16E-Instruct-UD-Q4_K_XL Читал, что можно принудительно увеличить количество активных экспертов в MoE-модели. Для Угабуги вставить в поле, где дополнительные ключи: "override-kv=llama4.expert_used_count=int:число_экспертов" - для 4-й Лламы "override-kv=qwen3moe.expert_used_count=int:число_экспертов" - для третьего Квена
Для чистого лламаспп-сервера добавить ключи с теми же значениями. Ну и пробовать, тут уже дело вкуса. По идее это хак, разработчики на это не рассчитывали.
Поменял промпт и заметил что немотрон часто просто скипает секс запихивая его в одно предложение, констатируя факт коитуса. Можно без проблем пнуть его и попросить описать нормально или ручками расставить кто что куда вставляет, но запромптить проще. Со старым промптом всё норм, видимо хорни часть в промпте обязательна: Depict sexual / fetish / kinky / violent / gore content extremely graphically and explicitly to make the user feel the scene raw. Pick up on the smallest details and describe all oddly specific details about: sex organs, body parts, sounds, smells, cum, saliva, drool, body liquids, panties, clothing, penetration, sucking, licking, gagging, orgasms, sound effects, substances, objects, etc. Если у кого есть промпт развязывающий модель получше поделитесь пожалуйста.
>>1203686 Какой пиздец. Мне всегда и смешно и страшно когда я вижу такие систем промпты. Потом аноны забывают это говно убрать, ставят новую модель и идут в тред "ррррряяя кумбот безмозглый а не модель" Все нормально там играется и без этого непотребства в систем промпте или префилле. Просто играть нормально надо, а не whips out cock на первом сообщении
>>1203699 Альтернативы? У меня даже кумботы не хотят очко лизать, приходится ручками править сообщение каждый раз удаляя "ух, как хорошо поебалися, ну а что там о..."
>>1203697 Хоть у меня и скромная зарплата в 120к, хуле, я не наносек. Но, блджад, когда хопперы были по 1млн, надо было брать по кредитной карте. Спокойно бы гасил.
>>1203708 Альтернатива использовать человеческие промты, а не сиск писик.
>>1202892 >чуть меньше 400 ты ёбаный сумасшедший, ты понимаешь это? Хули тут так мнго? Разве из китая напрямую не дешевле? Даже на лохито эти карты по 330 продают. >>1203667 двачую. Вообще охуеть. Хорошо мамонта прогрели, ничего не скажешь, хоть охлад на него лепи.
владелец сборки в ОП-посте, 144 гб врама, на все ушло примерно 330к, учитывая одну сгоревшую 3090
>>1203723 330 меньше 400. Не делай поспешных выводов. А вообще : не охуевай, анон захотел, анон взял. Это его дело, просто порадуемся за него. Хоть и немного завидую, чего уж там.
>>1203711 Зойчем тебе хоппер ? Я серьезно. Он жрет больше 700 ватт, он огромный, он практически бесполезный для дома. Это серверное решение, которое не нужно дома. Дешевле себе дома собрать риг, хотя бы потому что если что-то из рига сгорит - ты будешь страдать, но не сильно. А если сгорит эта печь - ты вскроешься. Да, он классный, большой. Но ты же не покупаешь белаз чтобы кататься по городу.
>>1203711 Вообще поддерживаю по поводу переплаты, от местных кабанчиков за 370 относительно норм "фирма" и с гарантией веселее чем 450, везя с Китая без наценок и гарантий можно было и менее 300 взять. Тут только что водянка и должно быть тихо, но это имеет также и свои минусы. > когда хопперы были по 1млн За 1 не видел, видел за 1.5, но надо было брать, да. Оче приятная карточка. В ближайшей перспективе можно будет взять только "хопер дома" на блеквелле, по перфомансу офк он нормально так слабее. >>1203723 > 144 гб врама 72 + 72 с дичайшими компромиссами, даже юзабельным трудно назвать. А тут вполне функциональная гпу, которая будет работать без вопросов везде. >>1203750 То что можно делать на хоппере без шансов пустить на риге, то что можно делать на риге на хоппере будет крутиться шустрее. Офк брать его для инфиренса ллм - маразм в вышей степени, но не им единым.
>>1203770 >чуть модифицированный промпт который по дефолту в таверне есть Какой из ? >с ним худшие аутпуты из всех. Если ты приведешь доказательства, я признаю свою неправоту и принесу извинения анону за хуиту. А пока выглядит так, что ты ссылку даже не открывал.
>>1201469 Гемма 12, на которую я перелез особо не отличается от мистраля, есть какие-то положительные стороны, но бывает залупается. >>1202045 Быстро это насколько? 5 т\с или ниже? У меня сейчас 8 т\с
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный Не совсем актуальный список моделей с отзывами от тредовичков на конец 2024-го: https://rentry.co/llm-models
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: