Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №117 /llama/

Аноним 25/03/25 Втр 19:26:01 #1 №1111645

Llama 1.png

Альфа от контекста.png

KL-divergence statistics for Mistral-7B.jpg

17428410020870.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, бугуртим с кривейшего тормозного говна и обоссываем калотарок.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1106799 (OP)
>>1103326 (OP)

Аноним 25/03/25 Втр 19:31:06 #2 №1111648

>>1111642 →
Там смотри какая штука. История влият на персонажа в целом. О чем с ним поговорить, как он ведет себя в беседе.
Если для тебя персонаж это дырка которая говорит "Да еби меня сильнее" да картинка из нейрогенератора. То проблем нет, не стоит даже заморачиваться. А вот если все таки тебе нужна история и взаимоотношения, то придется потратить время на составление сначала общего анамнеза персонажа, а потом вперед. Пейсать.

Аноним 25/03/25 Втр 19:32:53 #3 №1111654

>>1111557 →
>И чувак с 3080 за 150к, я тебя помню! =')
А меня с 3080Ti за 155 уже забыли? (((
>>1111567 →
Контекста конечно же. Контекст 16к, ответ согласно своим предпочтениям, я ХЗ, на сколько ты ролеплеишь. Но большинству хватает 512. Учти, ответ резервируется в общем контексте, так что бездумно ставить там 9000 не стоит.
>>1111574 →
Ну в общем-то шакальные подделки на генераторах картинок делали и тогда. Менее когерентные, скорее наркомания, но была.
>>1111617 →
>48 гигов это не хуй собачий в некоторых задачах.
32 и 48 не такая большая разница, чтобы покупать перепай с кривыми дровами. Вот ради 96 уже можно было бы подумать, но тут мне кажется уже чип и шина поднасрут.
>>1111636 →
Заголовки аля макдаун всё же стоит выделить.

Аноним 25/03/25 Втр 19:33:36 #4 №1111656

Наконец-то разобрался в этом кобольде ебучем, таверне, слоях GPU и прочем кале. Теперь всё прекрасно работает на двух 1060, с "приемлемой" скоростью, со стримингом если параллельно читать то даже не терпишь особо. Нет ли какого-то способа заставить нейронку работать в пределах выставленных токенов, потому что сейчас она чаще всего срёт тупо на все токены, иногда ей их даже не хватает и фраза обрывается к хуям. Единственный кто работает идеально, это нейротесетевой Жириновский.

Аноним 25/03/25 Втр 19:37:53 #5 №1111660

>>1111656
>заставить нейронку работать в пределах выставленных токенов
Пиши сам односложно. Редактируй ответы нейросети, делая их короче. Убери из промта всякие "детальные описания", и сам их не требуй. А то просят описания вытекания спермы на 9 абзацев, а потом удивляются, хули 64 токенов ответа не хватает.

Аноним 25/03/25 Втр 19:40:00 #6 №1111666

>>1111660
Мне не хватает 394 токенов. Ну в общем, я упёрся в системный промпт который мне теперь нужно редачить. В любом случае доволен, особенно Жириновским. Каждому рекомендую с ним попиздеть, главное не пытайтесь его совратить, это грех аноны.

Аноним 25/03/25 Втр 19:40:35 #7 №1111669

>>1111654
> 32 и 48 не такая большая разница
Понимаешь, все довольно относительно. Так-то между 32 и 24 отличия ерундовые, лишь треть, но на практике это открывает много возможностей и полноценную тренировку многих моделей популярных размеров, или запускать какой-нибудь инфиренс. А тут уже отличия оче серьезные, и перфоманс 4090.
> с кривыми дровами
Врядли там будет больше пердолинга чем с 5090, оказывается он не всем заходит и может быть неприятен.
> перепай
Вот это главный пиздец, одно дело новье из магазина (к тому же быстрее), а другое - поделка сумрачных китайских гениев.
> 96
Хотелось бы увидеть ее устройство и какие там чипы, а то больше вбросом попахивает. Но в целом, 96 на таком чипе это уже конкретно оверкилл, модели что туда помещаются будут трениться вечность, если у тебя не стак из 8 штук.
>>1111656
Напиши где-нибудь в инструкциях "отвечай максимально кратко" или вариацию этого.

Аноним 25/03/25 Втр 19:48:09 #8 №1111691

>>1111669
>и перфоманс 4090
У 5090 вроде выше, особенно по шине.
>Врядли там будет больше пердолинга чем с 5090
Чем дальше, тем его будет больше. Всё таки у 5090 офф поддержка.

Аноним 25/03/25 Втр 20:37:59 #9 №1111768

>>1111648
>История влият на персонажа в целом... как он ведет себя в беседе
Ну вот этот тейк для меня выглядит неправдоподобным. Поменяет ли история контекст? Да, в частности в ответах может возникать что-либо имеющее отношение к истории. Влияет ли эта смена контекста на персонажа и его поведение в беседе? Весьма сомнительно, за исключением подкрепления каких-то черт, если они используются в истории. Ллмка - это не какой-то супермозг, который просто по бэкстори что-то там додумает, как персонаж будет себя вести. Ну если мы говорим про 100б+ модель, то возможно, что она и подцепит из скудного наличия в датасетах таких историй подобные связи. Но мы же о 12б говорим, я уверен, что ей будет почти полностью срать на подобный сдвиг контекста в плане отыгрыша перса.
Ну и отдельный фактор для меня лично, что я хочу, чтобы нейронка мне сама придумывала и генерила истории и реалистичное поведение персов на основе скудных данных, а не слегка дописывала в нужном ключе на основе простыни, что я ей выдал в качестве примера (дохуя хочу, да). Если бы я сам умел мини-историю написать, то я тогда сидел бы и в блокноте её или рп дальше продолжал, чего бы нет. Было бы лучше, чем предсказуемый ответ лоботомита с косяками в логике.

Аноним 25/03/25 Втр 20:40:04 #10 №1111772

>>1111691
>Чем дальше, тем его будет больше. Всё таки у 5090 офф поддержка.
Всё одно это всё фигня. Даже 32гб врам это мало. И 48 мало. Я не устану повторять - для нынешнего железа разумный предел по цене и количеству видеопамяти - риг до 4 карт. И туда влезут модели до 123В. Всякие дипсики - это уже следующий уровень по железу и тут ничего не поделаешь, так же как уже очевидно, что это следующий этап развития локалок. 400В минимум - всякие Лламы и Гроки. И даже для генерации видео 32гб мало, если не устраивают 30-секундные ролики. 5090 для ИИ ни о чём, даже для современных больших локалок их нужно минимум две.

Аноним 25/03/25 Втр 20:46:50 #11 №1111791

image

Какое же новый пантеон гавно, никакого сравнения с Pantheon-RP-Pure-1.6.2-22b, ему ещё и контекст убили - формально стоит как у всех мистралек, а на деле после выхода контекста за 8К каждые 1-2 сообщения полностью его пересчитывает.

Бля, даже Гемма кумит лучше Пантеона, пикрелейтед гемма 27, а пантеон был буквально "ты её ебёшь", ещё и залупился.

Аноним 25/03/25 Втр 20:55:03 #12 №1111812

>>1111768
>Но мы же о 12б говорим, я уверен, что ей будет почти полностью срать на подобный сдвиг контекста в плане отыгрыша перса.
Отсюда только шаг до идеи, что промпт вообще ни на что не влияет, и 12b по любому не понимает лорбука и прочего, так что все это можно опустить за ненадобностью. Опыт использования 12b однако говорит слегка о другом, а именно, что нейронка не может адекватно играть роль, не переигрывая, и чем подробнее расписан "характер" персонажа, тем хуже обстоит дело. Но что касается фактов из лорбука и хистори, то 12b вполне способна с этим разобраться, и чем новее модель, тем лучше, например, гемма 3 отлично ориентируется в лорбуках. Если закрыть глаза на переигрывание и неумение в правдоподобный отыгрыш, то фактологическая сторона отыгрыша может быть терпимой.

Аноним 25/03/25 Втр 20:55:20 #13 №1111814

>>1111691
> У 5090 вроде выше, особенно по шине.
Конечно выше, в контексте домашних ригов шина больше роляет что можно безболезненно х8 делать. Там боле псп памяти и операции с дробными точностями, всякие квантованные не-ллм быстрее работают и не нужно размениваться на фп8 ради скорости.
> Чем дальше, тем его будет больше.
На их жизненный цикл условной куды 12.6 или что там по дефолту - хватит.
>>1111772
> Всякие дипсики
> это следующий этап развития локалок
Раздутое мое ради раздутого мое. Это не другой уровень, это прежде всего демонстрация подхода, который применим в случаях, когда доступна большая скорость и задача благоволит, а не мана небесная. Будущее локалок как раз за плотными моделями, которые позволяют наиболее эффективно задействовать имеющееся железо, а разреженные - костыль для определенных случаев.

Аноним 25/03/25 Втр 21:03:45 #14 №1111839

>>1111791
>She remembered her mother saying a well-executed oral pleasure should be an art form.
Бля как ты на эту хуйню можешь балду гонять, я вот понять не могу.

Аноним 25/03/25 Втр 21:12:13 #15 №1111866

>>1111645 (OP)
https://spicychat.ai
как здесь увеличить объем текста который мне выдает чарактер в ответ?
Мне в ответ нужно больше текста, мне мало того текста, который они выдают в ответ за раз!
Там что-то в настройках крутить нужно, но я не разобрался, помогите разобраться.
с любовью Ананас

Аноним 25/03/25 Втр 21:26:56 #16 №1111922

>>1111564 →
Ну, можно и на 3060, да и 1060 тоже, просто придется подождать (или очень подождать=).

>>1111574 →
Именно.

>>1111643 →
Так не я же, я сослался на того, кто начал выписывать. =) Все вопросы к нему!

>>1111654
В деталях не помню, честно. =) В общем, что было пару человек, которые люто переплатили в свое время, по понятным причинам (я-то сам не переплатил за десктоп тогда потому, что взял ноут с 3060).

> шакальные подделки на генераторах картинок
AnimateDiff что-то могла, но там сильно много шагов всяких, и качество было ну такое себе.
Плюс, знаний в моделе было мало, и даже лоры с трудом вытягивали.
А сейчас все стало сильно лучше.
Опять же, вот тебе и пруф оф прогресс. =)

С тех пор, как постиг хуньюан, я к анимейтдифф просто не возвращался.

Аноним 25/03/25 Втр 21:34:43 #17 №1111941

>>1111791
Пресет?

Аноним 25/03/25 Втр 21:35:37 #18 №1111944

>>1111645 (OP)
мне кажется кто-то в прошлом треде жаловался, что его фото/видео в ОП пост не добавляют... Моя-то сборка уже была в ОП-посте и не раз.
ну шо же ты ОП...
владелец ОП-пика

>>1110503 →
>И, если не сложно, не мог бы ты залить оба биоса куда-нибудь?
да ок. Попозже. Ну, ты сначала покажи какая ревизия платы у тебя.

Аноним 25/03/25 Втр 21:39:48 #19 №1111959

>>1111866
>spicychat.ai
Тебе в AI Chatbot General, пирожок, здесь таким как ты не рады.

Аноним 25/03/25 Втр 21:40:29 #20 №1111964

Ладно посидел с вами годик и ничего прорывного так и не вышло, сливаю свою 3090 на авито и ухожу на подписочный 680б нейрокум.
Русик очень нравится, сильно влияет на погружение, и тут дело не в том что я английского не знаю, всё же я не джон и словечки типа ШАЛУН, НЕПОСЕДА, СОРВАНЕЦ ебаный шашлык всё же как то трогают мою русскую душу, а на англ было бы просто "naughty"

Аноним 25/03/25 Втр 21:42:07 #21 №1111970

>>1111964
куплю у тебя 3090 за 40к. Как дважды б/у.
пойдет?

Аноним 25/03/25 Втр 21:43:51 #22 №1111979

>>1111959
спасибо за то подсказку
<3

Аноним 25/03/25 Втр 21:45:28 #23 №1111985

image

>>1111839
>я вот понять не могу
Зато, ух, сюка, со смыслом =)
>>1111941
>Пресет
Шиза =)

Аноним 25/03/25 Втр 22:05:13 #24 №1112045

Анон, в обзорах дипписика в3 0324 пишут, что он работает на MacStudio со скоростью 20 токенов в секунду. Но это же обычный ARMовый компьютер с 128 Гб памяти в самой топовой конфигурации. Как они вообще туда затолкали модель со 681B параметров?..

Аноним 25/03/25 Втр 22:09:28 #25 №1112058

>>1111922
>Опять же, вот тебе и пруф оф прогресс. =)
С одной стороны да, с другой что то говно, что это. До качества на подрочить (набор отрезков по минуте хотя бы) мы (локалкобоги) всё ещё бесконечно далеки.

Аноним 25/03/25 Втр 22:14:09 #26 №1112063

А чё среди 70б русика нет? Почему так?

Аноним 25/03/25 Втр 22:15:13 #27 №1112065

>>1111944
>мне кажется кто-то в прошлом треде жаловался, что его фото/видео в ОП пост не добавляют
Стоп. Это разве не ты был? Там линк был... Впрочем фотки с треда сохранены и поставлены в очередь, будут потом.

Аноним 25/03/25 Втр 22:16:45 #28 №1112069

>>1112045
Пиздят, это на версии с 512 памяти и скорости там около 10т/с не считая обработку промта.

Аноним 25/03/25 Втр 22:46:37 #29 №1112129

>>1111645 (OP)
Двач, есть мнение по поводу
https://www.avito.ru/moskva/tovary_dlya_kompyutera/server_dlya_nlp-modeley_rtx_4090_48_gb_4701882432?context=H4sIAAAAAAAA_wEmANn_YToxOntzOjE6IngiO3M6MTY6IlpFQTgxSGxmbDQyaTA4OEkiO336WODZJgAAAA

?

Аноним 25/03/25 Втр 22:48:47 #30 №1112136

Вопрос к шарящим. Есть два стула. Первый - ASRock B550 Steel Legend где вроде два разъёма работающие с двумя видюхами как PCIe 4.0 x8/x8 (если верить deepseek) и второй - GIGABYTE B550 AORUS ELITE V2 где есть ТРИ разъема под видеокарты но они работают на 2 слота x16 (первый — PCIe 4.0 x16/x8, второй — PCIe 3.0 x4, а третий слот слот на x1. (если верить deepseek).Так что, что бы из этих двух вариантов вы выбрали? Ну или предложите ещё варианты, но до 20к деревянных.

Аноним 25/03/25 Втр 22:56:01 #31 №1112156

>>1112045
Есть на 512 гигов маки. Там дипсик в 15-20 т/с работает. Всё так и есть, гугли тесты.

Аноним 25/03/25 Втр 23:18:27 #32 №1112200

image.png

Забрал сегодня женьминь жибао

Аноним 25/03/25 Втр 23:18:59 #33 №1112201

Короче гема кал вернулся на qwq 32b и вот оно счастье блять, и кум тебе и мозги и не нужно каловую аблитерацию накатывать ценза уже нет всё из коробки

Аноним 25/03/25 Втр 23:19:29 #34 №1112203

>>1112201
даже русик погонял немного и он геме не уступает

Аноним 25/03/25 Втр 23:23:51 #35 №1112218

>>1111964
а это что конкретно за сервис?

Аноним 25/03/25 Втр 23:35:25 #36 №1112241

>>1112129
У них же эта пара карт стоит 660к. Нужна ли тебе их странная сборка за такую сумму - решай сам.
>>1112136
> где вроде два разъёма работающие с двумя видюхами как PCIe 4.0 x8/x8
Там даже по фотке видно что только 4 линии во втором разъеме распаяно. С бифуркцией на б550 существуют только топ от жопокамня и гнилобит-вижн, все. Они редки и стоят дорого.
> если верить deepseek
Не прошел интеллектуальный ценз

Аноним 25/03/25 Втр 23:50:30 #37 №1112279

за что русик аблителированный так ЛОБОТОМИРОВАЛИ

Аноним 25/03/25 Втр 23:53:37 #38 №1112285

>>1112200
Вот ты и попался, фурриеб

Аноним 26/03/25 Срд 00:02:43 #39 №1112293

1680519kaboozeysnif-snifgf.png

>>1112285
ахахах, а ты глазастый
спалился, спаслился...

Аноним 26/03/25 Срд 00:21:25 #40 №1112300

Это со мной или моим промптом что-то не так, или qwq32b и его тюны плохи в рп?

Аноним 26/03/25 Срд 00:25:11 #41 №1112304

>>1112136
так что, теперь, если я хочу 2-3 видюхи себе вы комп вставить за этот прайс? Брать любую 2-3 слотовую, поскольку разницы нет в таком ценовом сегменте или вообще лучше не проёбывать зря деньги на вторую видюху, поскольку профита от этого на таких материнках будет мало?

Аноним 26/03/25 Срд 01:00:06 #42 №1112358

https://huggingface.co/trashpanda-org/Llama3-24B-Mullein-v1
Кому хочется кума качайте это пиздец

Аноним 26/03/25 Срд 01:03:31 #43 №1112364

>>1112300
А схуяли они должны быть хороши? Это модель для рассуждений и зерошотов, а не для РП.
>>1112304
Для двух бери любую, моя ASRock B650e Steel Legend имеет два длинных слота с проца (второй правда в позорных PCIe 3.0 x4, но и этого хватает), и ещё можно взять пачку с чипсета (через переходники с NVME).

Аноним 26/03/25 Срд 01:13:37 #44 №1112389

Какая модель максимально литературно пишет и имеет самый богатый языковой запас на английском языке до 32b? В идеале это должно быть что-то уровня тюнов Гутенберга или DavidAU, если хоть немного слушается инструкций, а не фулл нарраитор, который не может в RP: игнорирует систем промпт и всегда пишит за юзера, хоть усрись.

Кум не интересует — это может быть и оригинальная модель.

Гемму щупаю до сих пор и пока что непонятно. Вроде бы у неё довольно высокие языковые навыки, но пока что не могу до конца настроить: она либо ударяется в излишнее графоманство/сухость. Нужно очень детально описывать, что я от неё хочу (форматирование, в каких случаях какой язык использовать), так как она крайне чувствительна а систем промпту, а времени пока нет. Тюны ведь, как правило, из коробки уже имеют определённый встроенный стиль.

Есть весьма качественные файнтюны 12b на эту тему, которые дают пососать всем типичным 24-32b для обычного RP, но у 12b всё-таки мозгов мало. Красивый язык нивелируется общей тупостью и слабым вниманием к контексту, плохому соблюдению инструкций, склонностью к шизопастам на 2000 токенов и лупам.

Если есть модели подобного толка, но бо́льшего размера и чей экспириенс выше хотя бы на 20% по сравнению с 12b, я хотел бы их пощупать.

Негативный биас приветствуется.

Аноним 26/03/25 Срд 01:24:49 #45 №1112401

>>1111768
Я говорю про 30b~. А если уж заикаться о чём-то вроде Клода, ну ты понял..

Но сейчас о 30b.

Да. Модель действительно подхватывает историю персонажа, даже если ты не дал почти инструкций относительно того, как он должен себя вести. Хотя всё зависит от размера модели, конечно.

Иначе говоря, если ты хорошо описал его бэкграунд, то модель подхватит это и будет отыгрывать персонажа довольно достоверно, подберёт ему стиль речи соответствующий и всё такое даже без примеров диалогов и прочих указаний. Просто биография и базовые характеристики.

Если брать 12b, то там нужен бэкграунд и дополнительные инструкции в нагрузку ещё, возможно, примеры диалогов. Там уже всплывают проблемы с контекстом, так как на него часто кладется большой болт, а если растягивать анус до 16-32к, модель может сломаться, так как файтюн не тренировался под такую длину.

Что иронично.

Ведь 12b изначально идеальные кандидаты для любителей 62к контекста.

Но справляется с ним только гемма.

Мимо другой хуй

Аноним 26/03/25 Срд 01:29:50 #46 №1112412

Слушайте, а заметки автора жрут контекст? Потому что у меня когда авторс ноты дошли до 7к токенов, оранжевая полоска контекста начала появлятся чуть ли не после второго сообщения, хотя после обновления страницы с таверной она оказывалась намного выше. Это какой то баг или я что - то не понимаю?

Аноним 26/03/25 Срд 01:35:05 #47 №1112426

>>1112412
Всё жрёт контекст (или не влияет на чат).

Аноним 26/03/25 Срд 02:45:34 #48 №1112507

https://youtu.be/QXM_YJoTijc?si=wVMawvEed5ipyxie
96 врам всего за 200к в планшетике ебало додичей купивших 4 ужаренных 3090?

Аноним 26/03/25 Срд 02:51:59 #49 №1112514

>>1112507
Даже ссылку не открывал. Поебать, сколько там врам, коробочка там от хуанга или от яблока, ноутбук или вообще планшет ебаныц. Они только моепарашу запустить могут и хвастаться, что у них приемлемо токенов на нулевом контексте.

Пусть лламу 405б или 70б запустят хотя бы в 10 токенах на контексте 36к, вот тогда я охуею и побегу покупать. А жрать говно на двух токенах в 8к контексте я не заинтересован.

Аноним 26/03/25 Срд 02:55:06 #50 №1112516

>>1112389
>слабым вниманием к контексту
Перегенерируй ответ, пока не понравится.
>склонностью к шизопастам на 2000 токенов и лупам.
Скорее всего что-то напортачено с настройками, промптом, токенайзером или с чем угодно еще.
НемоМикс 12б гоняю, пока заебато.

Аноним 26/03/25 Срд 03:05:06 #51 №1112526

А может просто выкатят уже drr 6 память и дядя хуанг дружно пойдет нахуй?

Аноним 26/03/25 Срд 03:30:05 #52 №1112535

>>1112358
действительно пиздец, не качайте.

Аноним 26/03/25 Срд 03:59:32 #53 №1112560

>>1112516
Ага. Регенерируй, пока он шизеть не начнет. Это особенно актуально для креативных моделей.

А обычный немомикс не даст такого уровня литературного текста. Здесь нужно что-то получше.

Те модели, которые генерируют по 2000 токенов, абсолютно неконтролируемые. Их надо останавливать вручную, просто ограничивая кол-во токенов на вывод или адски задрачивая их сэплерами и всем, чем только можно. Потому что они тупо тренировались на каких-то неебических корпусах.

С ними возможно рп, но сложно. Приходится половину текста удалять.

Аноним 26/03/25 Срд 05:49:23 #54 №1112599

Интересную мысль поймал. Ллмка может смотреть насколько текст в контексте был непредсказуем для нее же самой. И в процессе обучения она тоже это делает.

Аноним 26/03/25 Срд 06:12:38 #55 №1112612

Да, и кстати, следствие из этого - что ллмка может непосредственно наблюдать то, с какой температурой ее запускают. Ну так, плюс-минус примерно.

Аноним 26/03/25 Срд 08:06:57 #56 №1112653

>>1112389
>Негативный биас приветствуется.
Кстати, кто что посоветует добавить в системный промпт для геммы чтобы повысить негатив? Её позитивизм начинает раздражать.

Аноним 26/03/25 Срд 08:53:29 #57 №1112672

>>1112599
ЛМКа не может понять предсказуемость текста, она не так работает. Это все матан вероятностей. Не текста, а цифр. И что действительно для неё будет непредсказуемым, так это два несочетаемых токена от разных слов.

Аноним 26/03/25 Срд 09:00:30 #58 №1112674

>>1112653
попробуй взять части отсюда и дописать в системный промт
https://pixeldrain.com/u/AwRrp8zq disable positivity bias.txt

Аноним 26/03/25 Срд 09:02:44 #59 №1112675

>>1112653
Попробуй без системки, прямо написать Gemma - начинай уже жестить, у меня член опадает.

Аноним 26/03/25 Срд 09:26:28 #60 №1112696

Как заставить ЛЛМ вызвать функцию таверны?

Аноним 26/03/25 Срд 09:26:29 #61 №1112697

Обновили deepseek, вот уроды. Я не знаю, что там стало лучше, но для меня это стало намного хуже. Если кто помнит, я использовал его для массовых переводов. Теперь он то забывает мои указания, то вставляет совершенно лишние, хотя ему никто этого не позволял. То есть он стал как-то более неуправляемый. Успешные результаты которые я получал раньше, теперь не такие успешные. Лучше бы они выпустили обнову через год...

Перелопатили ему мозги в худшую сторону. Жаль нельзя вернуться на старую версию, хоть бы оставляли такую возможность

Аноним 26/03/25 Срд 09:33:06 #62 №1112699

>>1112696
Что ?

Аноним 26/03/25 Срд 09:34:19 #63 №1112700

>>1112697
Вот ты и понял почему люди любят локалки.

Аноним 26/03/25 Срд 09:43:12 #64 №1112705

https://huggingface.co/ReadyArt/Forgotten-Transgression-24B-v4.1?not-for-all-audiences=true
Это новый король кума. Очень жестко. На инглише играл и ахуел.

Аноним 26/03/25 Срд 09:45:21 #65 №1112707

>>1112526
И как тебе поможет увеличение в два раза, когда у видях скорость выше в 17 раз?

Аноним 26/03/25 Срд 09:47:18 #66 №1112708

>>1112705
Нюх нюх
Пахнет как мистраль
Выглядит как мистраль
На вкус как мистраль
с привкусом лупов

Аноним 26/03/25 Срд 09:49:37 #67 №1112709

8822e601de5618e500c4fa08656b1cd95eed903dv200.jpg

>>1112705
Человек-тварь приносить примеры. Мы не верить человек-тварь.

Аноним 26/03/25 Срд 09:57:06 #68 №1112711

>>1112699
Функции таверны, которые ты можешь вызывать через слеш или заключив функцию с аргументами в двойные кавычки

Аноним 26/03/25 Срд 10:00:00 #69 №1112714

>>1112708
Фикси промпт. На странице модели неплохой, лупов не обнаружено.

>>1112709
Вархаммер - помойка, поэтому нет, человек не приносить.

Кому надо - те попробуют, моим делом было поделиться. У ReadyArt крутая серия Forgotten моделей.

Аноним 26/03/25 Срд 10:07:31 #70 №1112717

>>1112714
>Вархаммер - помойка
Обидно или нет. Я еще не решил, человек-тварь.
>>1112714
>Фикси промпт. На странице модели неплохой, лупов не обнаружено.
Мистраль всегда славилась лупами. Она лупилась как блядина, порой на ровном месте. Я шарю за это дерьмо, я все версии ционьки, пантеона и самой мистрали долго тыкал.
Вот я и спрашиваю :
Что там с лупами ? Потому что гемма, будем честны, вообще не лупится, прям совсем. Что вызывает щенячий восторг.

Аноним 26/03/25 Срд 10:08:29 #71 №1112718

>>1112700
Но чтобы поднять эту локалку, надо же много мощностей

Аноним 26/03/25 Срд 10:14:55 #72 №1112724

image.png

С таким душным мастером играть вовсе не хочется!

Аноним 26/03/25 Срд 11:12:35 #73 №1112793

>>1112717
>Мистраль всегда славилась лупами. Она лупилась как блядина, порой на ровном месте. Я шарю за это дерьмо, я все версии ционьки, пантеона и самой мистрали долго тыкал.
Какую именно мистраль ты тыкал, уважаемый? Сижу на 12B с момента её выхода, перепробовал много разных шизотюнов и шизоспаек, ни в одной не встречались лупы. Иногда мог протекать один и тот же шаблон в ответах, но после первого же перекрута от него можно избавиться, даже не трогая семплеры.

Аноним 26/03/25 Срд 11:30:05 #74 №1112817

>>1112793
Видимо, ты из тех, кто не замечает повторов у ллм. Хорошо, если немо не начинает из прошлого же сообщения чуть ли не предложения целиком тащить. На русском всё совсем печально.
мимо

Аноним 26/03/25 Срд 11:33:26 #75 №1112822

Можно какой-нибудь из экстеншенов таверны использовать для контроля за одеждой персонажа? Чтобы он к каждому новому сообщению закидывал типа [char.Одежда]: Кружевное белье (бюстгальтер и трусики)?

Аноним 26/03/25 Срд 11:33:29 #76 №1112823

>>1112793
> Какую именно мистраль ты тыкал, уважаемый
Сударь, сообщаю вам, что имел знакомствоъ с двумя прошлыми итерациями. И с огорчением сообщаю : к сожалению Лупъ слишком часто меня навещал. Отчего моё, уже не молодое сердечко, шалило.

Аноним 26/03/25 Срд 11:34:30 #77 №1112828

>>1112817
> На русском всё совсем печально.
В голосяндру. Может проблема не в Мистрале, а в том, что вы на русском рпшите? Чему удивляться, что все по пизде идет?
тожемимо

Аноним 26/03/25 Срд 11:35:30 #78 №1112831

>>1112817
>Видимо, ты из тех, кто не замечает повторов у ллм. Хорошо, если немо не начинает из прошлого же сообщения чуть ли не предложения целиком тащить. На русском всё совсем печально.
Ну с геммой тоже не всё гладко. Она любит зацикливаться на повторении какого-нибудь описательного предложения: "Музыка продолжает играть", "Тиканье часов нагнетает напряжение", "В помещении становится всё тише". Ставлю Repetition penalty в 2к и норм.

Аноним 26/03/25 Срд 11:37:08 #79 №1112834

>>1112828
Братан тредов 15-20 назад, там перманентный срач был : как заставить мистраль перестать лупиться.
И постоянно повторение одного и того же окончание. Повторение структуры диалога, повторение фраз, паттернов.

Аноним 26/03/25 Срд 11:47:32 #80 №1112845

>>1112817
>Видимо, ты из тех, кто не замечает повторов у ллм.
Да, прикинь. Стабильно, почти каждый день, на протяжении года гоняю нему и не замечаю повторов. Тут выбирай, в какой из вариантов тебе удобнее верить - либо я шизик, либо лупов там нет.

>На русском всё совсем печально.
Лол, оказывается мелкие огрызки предыдущих поколений не могут в языки, отличные от английского. Кто бы мог подумать.

>>1112823
>И с огорчением сообщаю : к сожалению Лупъ слишком часто меня навещал.
В вашем случае, это не лупъ, уважаемый. Это делирий. Попейте таблеток.

>>1112834
>Братан тредов 15-20 назад, там перманентный срач был : как заставить мистраль перестать лупиться.
Щас бы на нашем-то веку по тутошним срачам качество моделей определять. Повод для срача можно высосать из любого пердежа. Немотрона и тюны на его основе юзает по ощущениям треть всех локальщиков, банально потому что он влезает в бытовые карты и идеально держит баланс между мозгами, креативностью и требованиям к системе. Если бы проблема лупов была повсеместной, её бы обсуждали каждый тред у нас, на реддите и других помойках. Так что очевидно, проблема лупов - это проблема меньшинства, которые либо какие-то совсем отбитые модели катают, либо не могут разобраться с ограничениями на повтор.

Аноним 26/03/25 Срд 12:00:24 #81 №1112853

>>1112845
> либо я шизик
Я лично заебался с лупами, так что выбор невелик.

Аноним 26/03/25 Срд 12:07:42 #82 №1112864

Натыкался на лупы, но чаще всего это было следствием кривизны промта и/или настроек, то есть моей собственной виной и успешно решалось правками промта и изменением настроек, что на мистрали, что на гемме, а также свайпом. На русском.

Причин для тряски и горения не вижу.

Аноним 26/03/25 Срд 12:10:54 #83 №1112872

>>1112705
Только пусть попробует выдать shivers on my spine, или take my jawline.
Тогда я приду к тебе ночью и покажу кое-что. Maybe, just maybe.

Аноним 26/03/25 Срд 12:11:18 #84 №1112873

image.png

>>1112845
>Немотрона и тюны на его основе юзает по ощущениям треть всех локальщиков.

Аноним 26/03/25 Срд 12:14:00 #85 №1112879

IMG2827.jpeg

>>1112845
> Попейте таблеток.
Вы такъ любезны, сэр пидр. Но к сожалению отрицать лупъ, станет только лжец и негодник.

Аноним 26/03/25 Срд 12:29:05 #86 №1112889

Вроде ниче не менял а модель стала писать по 80-120 токенов из 500 на сообщение в чем может быть дело?

Аноним 26/03/25 Срд 12:32:26 #87 №1112898

>>1112889
Если ничего не менял : модели не с чем работать. Напиши что-то отличное от "ухх, как я тебя ебу то сочно"

Аноним 26/03/25 Срд 12:42:05 #88 №1112911

>>1112898
Как не с чем, я нахуя карточку на 3к токенов загружаю и еще промпт на 700?

Аноним 26/03/25 Срд 12:43:30 #89 №1112912

>>1112911
Ну ты ебани действий побольше, напиши нейронке прямым текстом, чтобы описывала каждый толчок на 3 абзаца.

Аноним 26/03/25 Срд 13:08:30 #90 №1112940

>>1112889
Пытайся свои сообщения хотя бы на 50 токенов писать, а лучше на 100, тогда и ответы куда сочнее становятся.

Аноним 26/03/25 Срд 13:14:44 #91 №1112944

>>1112872
Про настройки сэмплера за пределами температуры и min a, min p, видно, не слышал?
Ох уж эти незнайки..)
Если вам лень разбираться - крутите копросетки.

Аноним 26/03/25 Срд 13:17:55 #92 №1112950

>>1112944
О, моё любимоё, проход в элиту. Никто же не знает про настройки, нигде же не почитать, один ты обладаешь великим знанием. Ога. Мне в исключения все токены, что меня бесят добавлять ?

Аноним 26/03/25 Срд 13:21:13 #93 №1112961

>>1112950
Понятия не имею зачем ты лаешь. Не нравится - пройди мимо. Ты уже все решил, один хуй тебя ни в чем не убедить, да и ты того не стоишь со своими заходами. Как грится, это сделано не для тебя и не для таких как ты. А знающие кайфанут.

Аноним 26/03/25 Срд 13:40:23 #94 №1112996

>>1112961
>Не нравится - пройди мимо.
Кто сказал что не нравится, я указал на объективные проблемы, которые стали мемами. Но у тебя НИЧЕГО НЕ ПРОИСХОДИТ.
Я не знаю зачем ты продолжаешь из себя строить хуй пойми что, но дело твоё.
Сиди сам себе и надрачивай, если даже обычная шутка для тебя тригер какой то неумелости, лол.
~nah.

Аноним 26/03/25 Срд 13:48:01 #95 №1113011

>>1112912
охуенный способ нажраться слопом на всю жизнь

Аноним 26/03/25 Срд 13:49:23 #96 №1113012

>>1113011
Ну может в этом и есть цель. Если нейронка пишет один абзац, то или ты её задушил настройками или ей не с чем работать.

Аноним 26/03/25 Срд 13:54:11 #97 №1113014

>>1112705
Это годнота, спасибо!

Аноним 26/03/25 Срд 13:58:58 #98 №1113024

17412722221420.png

Есть 48гб врам.
Что сейчас самое эффективное для инструкт/рп?

Аноним 26/03/25 Срд 14:06:22 #99 №1113048

>>1113024
https://huggingface.co/bartowski/Llama-3.3-70B-Instruct-GGUF/tree/main
Эммм, лама ?! Но это прям на пределе. Но у тебя действительно есть из чего выбрать. Жирные командеры, мистрали/геммы с кучей контекста. Каждый любит свой фломастер.

Аноним 26/03/25 Срд 14:10:08 #100 №1113061

>>1112864
Ну вот смотри, типичный очень частый пример повтора почти полного предложения может быть такой (на русском для простоты, но оно так же на инглише). Сначала "Теребя край юбки, она бросает на тебя взгляд, в нём мелькает интерес", потом через ответ "Поправив рукав, она смотрит на тебя, в глазах блестит озорство." Оно не смертельно, можно игнорить. Но пока я вижу единственный способ борьбы с этим: вырезать ручками. Ну мб ещё свайпать, повысив темпу. Как с этим говном промпты могут помочь, не очень понимаю.

Аноним 26/03/25 Срд 14:45:59 #101 №1113163

>>1112705
https://huggingface.co/mradermacher/Forgotten-Transgression-24B-v4.1-GGUF
Или
https://huggingface.co/mradermacher/Forgotten-Transgression-24B-v4.1-i1-GGUF

Хммм... Делема.

Аноним 26/03/25 Срд 14:51:37 #102 №1113178

>>1113163
iQ - если помещается в видеокарте, без доп загрузки цопэу.

Аноним 26/03/25 Срд 14:54:25 #103 №1113182

>>1112705
Хуёль.
Кум без мозгов нахуй не нужен как и магнум, на qwq snowdrop и мозги и кум есть причем хороший

Аноним 26/03/25 Срд 14:59:10 #104 №1113187

>>1113163
i1, если на англе, обычные, если на русике. Не слушай ебана >>1113178 (точнее он прав, но про другое)

Аноним 26/03/25 Срд 15:01:50 #105 №1113195

хрена тред отоксичел сегодня прям с утра, чо такие злые

Аноним 26/03/25 Срд 15:03:45 #106 №1113201

>>1113187
>ебана
Ты охуел ? Хочешь сказать что айквант на 12 гб, на видяхе с 8гб даст такую же произодительность на памяти/цпу ?

>>1113195
Среда, к пятнице подобреем.

Аноним 26/03/25 Срд 15:05:40 #107 №1113205

>>1113195
Три часа дня же, у кумеров уроки закончились и они вернулись домой.

Аноним 26/03/25 Срд 15:08:17 #108 №1113212

>>1113201
>Хочешь сказать
Ты путаешь статические и imatrix гуфы с Q и IQ квантами, это разные вещи.

Аноним 26/03/25 Срд 15:12:17 #109 №1113221

>>1113212
блджад. Ты прав, сорян.
Завалил строчку кода.

Аноним 26/03/25 Срд 15:18:19 #110 №1113231

>>1113178
>>1113187
Тогда финальный вопрос на добивочку.
Вот есть описание квантов. IQ4 /Q4 - reccomended. Но при этом Q5 всегда пуст. Вопрос, Q5 - это плацебо между Q6 и Q4 ?

Аноним 26/03/25 Срд 15:23:56 #111 №1113243

>>1113231
>Вот есть описание квантов. IQ4 /Q4 - reccomended. Но при этом Q5 всегда пуст. Вопрос, Q5 - это плацебо между Q6 и Q4 ?
Какой максимальный квант влезет, такой и бери.

Аноним 26/03/25 Срд 15:27:17 #112 №1113248

>>1111964
уходит он, в облаках сплош цензура там не то что лолкально можно замутить, 680б сои кароч наклали тебе там

Аноним 26/03/25 Срд 15:30:01 #113 №1113250

>>1112705
>Это новый король кума.
Лучше чем пантеон, но хуже чем гемма.

Аноним 26/03/25 Срд 15:39:18 #114 №1113261

аблетерация геммы3 понтехала https://huggingface.co/collections/mlabonne/abliteration-66bf9a0f9f88f7346cb9462f

Аноним 26/03/25 Срд 15:48:44 #115 №1113279

>>1113248
Что то уровня "вкат в айти закрыт в 2025".
Сколько же дурачков которые с полуслова верят ведру крабов в интернете

Аноним 26/03/25 Срд 15:53:50 #116 №1113286

>>1113279
>ведру крабов
это /aicg/ ?

А где из снг можно за вменяемую цену арендовать сервер с быстрым развёртыванием и почасовой тарификацией, если не копрооблака (которые к тому же чреваты что твой ключ спиздят и потратят) ?

Аноним 26/03/25 Срд 16:08:20 #117 №1113302

>>1112705
позитивити биас, пишет за пользователя чтобы свернуть / предотвратить едва выходит за пределы ванильных поебушек

Аноним 26/03/25 Срд 16:15:36 #118 №1113317

>>1113302
>позитивити биас, пишет за пользователя чтобы свернуть / предотвратить едва выходит за пределы ванильных поебушек
Повторю вопрос - кто как борется? Или всех устраивает, когда жестокое изнасилование превращается в романтическое свидание? :)

Аноним 26/03/25 Срд 16:21:57 #119 №1113338

>>1113317
> Повторю вопрос - кто как борется?
> жестокое изнасилование превращается в романтическое свидание
та никак, у меня с головой в порядке все
а тебе к мозгоправу надо обратиться

Аноним 26/03/25 Срд 16:25:31 #120 №1113344

>>1113338
Базовичок. Буквенные лолиебы и насиляторы пусть хуй сосут. Траблы с головой, не с моделями.

Аноним 26/03/25 Срд 16:32:09 #121 №1113359

>>1113338
>>1113344
на ваш хуй лолей, а у меня сочная эльфийка 120-90-120

И к тому же это литералли в описании моделей написано что для такого контента.

Аноним 26/03/25 Срд 16:36:46 #122 №1113365

image.png

Блять ебанная гема шизофреничка сука
Первый скрин буквально просит у меня аполоджайз, второй уже всё норм и так всегда, то её переклинивает на аполоджайзах то она сама на хуй прыгает

Аноним 26/03/25 Срд 17:02:34 #123 №1113406

>>1113344
>Базовичок. Буквенные лолиебы и насиляторы пусть хуй сосут. Траблы с головой, не с моделями.
До чего всё-таки приятнее общаться с моделями, чем с анонами. Пойду у Дипсика спрошу.
Как вспомнишь, что до ЧатГПТ было только это говно...

Аноним 26/03/25 Срд 17:14:20 #124 №1113430

>>1112705
В кум она может, и неплохо, и даже внезапно в русик может... проблема в том что она может ТОЛЬКО в кум, любой сфв сценарий - сразу тупеет хуже 12б, ещё и почему-то прям сначала чата чуть ли не каждое сообщение пересчитывает контекст.

Аноним 26/03/25 Срд 17:21:11 #125 №1113447

И лупится, бобр курва я пердолил.
Пердолил я она лупится курва бобр.
Курва пердолил лупится она, я бобр.

Аноним 26/03/25 Срд 17:30:07 #126 №1113480

Вот казалось бы 27б дохуя параметров это вам не 8б да но русик просто ни о чём постоянные ошибки и повторы видно что прям мало знаний

Аноним 26/03/25 Срд 17:46:35 #127 №1113520

Снимок экрана от 2025-03-26 16-58-12.png

Ну все, я теперь без теслы. Очень непривычно без звучания кулера. Как-то не так это все, без души.

Эх, Жора, Жора...
[16:40:55] CtxLimit:9767/32768, Amt:343/2048, Init:0.03s, Process:39.89s (4.2ms/T = 236.24T/s), Generate:61.26s (178.6ms/T = 5.60T/s), Total:101.15s (3.39T/s)
[16:42:18] CtxLimit:9853/32768, Amt:429/2048, Init:0.02s, Process:0.01s (7.0ms/T = 142.86T/s), Generate:75.19s (175.3ms/T = 5.71T/s), Total:75.19s (5.71T/s)

Я, правда, 1.80.1 Кобольд использую. Скачал 1.86.2 ради интереса - он вообще крашится при инференсе при тех же настройках. Ай да красаучики, регресс полным ходом!
Попробовал выключить mmq - опять краш по памяти. Занизил контекст в 4к, сравнил - разницы нет. Без флешаттеншена крашится даже на 4k:
Processing Prompt [BLAS] (2048 / 2048 tokens)CUDA error: out of memory
current device: 4, in function alloc at ggml/src/ggml-cuda/ggml-cuda.cu:345
cuMemCreate(&handle, reserve_size, &prop, 0)
ggml/src/ggml-cuda/ggml-cuda.cu:72: CUDA error

Только давайте без советов экслламы, я и так знаю, что она быстрее. А мне жору хорошо бы разогнать...

Аноним 26/03/25 Срд 17:49:08 #128 №1113533

>>1113359
>на ваш хуй лолей
А они, к сожалению, и не против. Грёбанный позитивный биас.

Аноним 26/03/25 Срд 17:51:23 #129 №1113543

>>1113520
Перезагрузись, у меня ощущение, что кобольд стал чуствителен к фрагментации физической памяти. Тоже теперь встречаю ООМ на ровном месте, хотя памяти вагон (2х24ГБ и модель 27B Q8). Лечится перезагрузкой.

Аноним 26/03/25 Срд 17:53:46 #130 №1113555

>>1113520
>5.71T/s
ну... как я и говорил... у 3090 лимит карт - 4 штуки. Больше - уже медленно.

Аноним 26/03/25 Срд 18:01:35 #131 №1113580

>>1113543
>Тоже теперь встречаю ООМ
Что нужно делать чтобы словить оом в ллмке?
Ни разу до сих пор не было.
Без балды.

Аноним 26/03/25 Срд 18:02:34 #132 №1113586

>>1113555
У него там куча всякого шлака добавлено к православным картам, без них думаю было бы больше.
>>1113580
У тебя там выгрузка не отключена что ли? Или ты гоняешь 3B во втором кванте на 5090?

Аноним 26/03/25 Срд 18:05:39 #133 №1113597

>>1113586
>У тебя там выгрузка не отключена что ли?
у меня видяха только под модель, а весь кэш в обычной раме

Аноним 26/03/25 Срд 18:13:48 #134 №1113618

Есть бесплатный пробник 123б?
Хочу русик заценить

Аноним 26/03/25 Срд 18:48:14 #135 №1113731

Если я не долблюсь в глаза там МК выпустил обзор на 48 гиговую 4090

Аноним 26/03/25 Срд 18:55:22 #136 №1113751

Сап тредику. У меня 3060 на 12 гб

Появилось что-то лучше этого ChatWaifu_12B_v2.0 чисто для кума?
Я просто запускаю кобольда, подгружаю карточку и запускаю процесс

Аноним 26/03/25 Срд 18:57:14 #137 №1113757

>>1112599
> может смотреть насколько текст в контексте был непредсказуем для нее же самой
Если ты ее об этом спросишь то она выдаст "мнение" о подобном. Уровень "понимания" или неожиданности лишь косвенно можно оценить по распределениям логитсов.
>>1112696
Такого не предусмотрено, но можно написать экстеншн, полагаю.
>>1113024
Тюны квен72 попробуй, того же магнума. Немотрон от хуанга с запасом влезет.
>>1113520
> Только давайте без советов экслламы, я и так знаю, что она быстрее
Почему, мистер Андерсон, почему? Во имя чего? Что вы делаете? Зачем, зачем встаете? Зачем продолжаете драться?
Единственный совет для совсем уперто-упоротых - собери жору-сервер с сорцов, поигравшись с доп флагами. Только не забывай что в эту игру легко проиграть и получишь быстрый бредогенератор.

Аноним 26/03/25 Срд 19:00:04 #138 №1113767

>>1112672
>ЛМКа не может понять предсказуемость текста, она не так работает. Это все матан вероятностей. Не текста, а цифр.
Нет, в том то и дело, что таки может.

Распределение на выходе появляется не прямо на самом выходе, а зарождается где-то в середине модели. Следующий токен видит прямо на входе, собственно, истинный токен и может сравнивать его на любом слое с распределением из итерации "прошлого" токена. При помощи механизма внимания идет эта связь, и если модели это как-то полезно, она будет это делать.
Проверить можно легко, нагенерить какой-нибудь мелкой геммой кучу говна с разной температурой и попробовать ее предсказать каким-нибудь одним линейным слоем поверх модели. Хотя конечно предсказывать температуру можно не только так напрямую, но и косвенно по структуре текста, но по идее это сложнее и тривиальный вариант должен победить.

Модель обрабатывает контекст при помощи самой себя и на каждый токен пытается предсказать следующий. Если был энкодер-декодер, такой эффект нельзя было бы получить.

Тут дохуя интересных моментов открывается, от того что модель возможно обучить например детектить инородную вставку в префил, до того что сам процесс обучения модели идет с этим фактором параллельно, и это проявляется как некое подобия самосознания, можно даже так назвать.

Аноним 26/03/25 Срд 19:01:26 #139 №1113773

>>1113751
>чисто для кума
https://huggingface.co/mradermacher/Forgotten-Transgression-24B-v4.1-GGUF

в 4-5 кванте, с выгрузкой в оперативу

Чисто как магнум, чисто про еблю, в обычное рп может с трудом, большим трудом, литералли снимает трусы несколько раз и лупится, но может в годные, сочные описания, и всякую чернуху.

Некоторый позитивный биас имеется, но контрится промтом и пинками.

Даже может в русик, на уровне сисик-писик, но этого хватает.

Аноним 26/03/25 Срд 19:04:21 #140 №1113788

>>1113773
Спасибо, анон!

Такой вопрос: у меня 16гб оперативы еще. Оно само оперативку жрать начинает, если не хватает видеопамяти? Могу докупить еще 16 гигов, наверно

И нормально ли все заведется, если поставить контекст 8192 токена памяти?

Аноним 26/03/25 Срд 19:05:02 #141 №1113793

>>1112697
Чел, поставь уже big-agi и подключайся по апи, там есть старая модель наверняка, дипсик же много кто хостит.

Аноним 26/03/25 Срд 19:09:48 #142 №1113812

Вы гандоны блять как вас расшевелить то нахуй?

Аноним 26/03/25 Срд 19:12:01 #143 №1113819

>>1113788
запущено с параметрами --no-kv-offload --ctx-size 16384 --n-gpu-layers 30 --cache-type-k q8_0 --cache-type-v q8_0

занято 12 врам и 23 рам, так что 16 может и не хватить, но попробуй, 8 контекста всё-таки мало, там карточка + систем промт уже 3к могут занимать, можешь ещё кэш вообще в q4_0 квантануть, тогда должно влезть

Аноним 26/03/25 Срд 19:12:24 #144 №1113821

>>1113731
где? что так ое твой мк?

Аноним 26/03/25 Срд 19:14:21 #145 №1113827

>>1113819
Понял тебя, спасибо! Тогда стоит запускать с этими параметрами и докупить еще 16 оперативки?

И сколько ставить токенов памяти стоит? Я правда нубас немного

Аноним 26/03/25 Срд 19:14:37 #146 №1113829

>>1113821
"мой компьютер" на ютубе, не самый плохой обзорщик железа

Аноним 26/03/25 Срд 19:15:30 #147 №1113833

>>1113829
это мы смотрим

Аноним 26/03/25 Срд 19:17:39 #148 №1113842

https://youtu.be/m9YszWQenII

Аноним 26/03/25 Срд 19:19:24 #149 №1113849

>>1113773
> Чисто как магнум, чисто про еблю, в обычное рп может с трудом, большим трудом, литералли снимает трусы несколько раз и лупится, но может в годные, сочные описания, и всякую чернуху.
Для обычного РП я бы и не стал использовать, соглашусь. Когда мне нужно обычное РП, переключаюсь на Forgotten Safeword 2.2, пару тредов назад о нем писал тоже. Отыгрываю приключение, очень круто пишет. Особенно всякие сцены сражений, конфликтов. Много описаний, красивый язык. Для меня эта серия моделей теперь наравне с Кидонией. Там еще есть Abomination и другие, но я их не пробовал, только Safeword и теперь Transgression.

Аноним 26/03/25 Срд 19:22:17 #150 №1113858

>>1113842
Обычная реклама партнерского магазина. За эти деньги почти две 4090 можно взять, лол. Свою в 2023 брал за 120к вообще.

Аноним 26/03/25 Срд 19:29:50 #151 №1113884

>>1113827
Стоит почитать гайды что есть что, для начала эти параметры для llamacpp, а новичкам лучше запускать через кобольда, там буквально ткнул и погнали.

Знать как работают сами нейросетки не обязательно, но знать что делают параметры фронтов и бэков надо, а то станешь свидетелем карго-культа.

Ну и да, 12гб VRAM + 32 RAM позволят запускать даже гемму 27б в 4 кванте модели и контекста (лучшее что ты сможешь запустить в таком конфиге, правда кум там слабее, она именно про серьёзные адвенчуры, а также как ассистент) со скоростью в пару токенов в секунду - юзабельно если ты параллельно работаешь или другие дела делаешь, а не прям в реалтайме.

Аноним 26/03/25 Срд 19:31:30 #152 №1113888

>>1113884
Понял тебя полностью, спасибо большое!

Аноним 26/03/25 Срд 19:35:16 #153 №1113895

>>1111645 (OP)
Аноны есть несколько вопросов.
Как я понял все API ключи типо от OpenAI в целом платные?
Подскажите локальную модель ( 7+B и <4B условно весом до 5-6 гигабайт) для постоянного диалога хотя бы в районе часа. Она должна хорошо сохранять память и быть мультиязычной ( как минимум русский и английский язык), а также поддаваться настройке в том плане, что многи модели очень много воды и сои генерируют, я не говорю про цензуру даже и я не уверен, что все из них можно от этого избавить. Может быть есть список локальных моделей относительно способа их применения? Про форки моделей тем более ничего не знаю. Просто веб нейронки советуют либо mistral, чаще llama3.1 на их взгляд лучше первой, а где истина не знаю.

Аноним 26/03/25 Срд 19:40:03 #154 №1113912

>>1113895
>для постоянного диалога хотя бы в районе часа
Ну, тут тебе нужно что то с большим контекстным окном.
Из такой мелочи могу порекомендовать Qwen2.5-7B-Instruct-1M
Размер кванта сам выбирай, что такое квант и где запускать думай сам. В шапке есть инфа как и в вики, хоть и устаревшая местами.

Аноним 26/03/25 Срд 19:40:34 #155 №1113913

>>1113024
Тебе предложили буквально худший вариант с лламой. =D

А тюны квена 72 и мистраль ларджа да.
Magnum, Luminum, LumiMaid и так далее.

Еще можно попробовать QwQ и Gemma 3 27, они влезут и с контекстом, и скорость будет выше.

Экспериментируй, пробуй, выбирай.

>>1113163
Тут снова первый совет неправильный, а вот второй верный, i1 это important matrix, но они квантуются для английского, так что выбирай по языку. Если на русском, то первую, статик кванты. Если на английском, то i1.

>>1113201
Чел спросил, брать ли important matrix или нет.
Ему ответили хуйню про IQ-кванты, о которых он не спрашивал.
IQ обменивает производительность на размер. Помещается в меньший объем, но работает медленнее. Тока нахуя эта инфа человеку, который спросил про импортант матрицы… =)

>>1113231
Не, технически, в среднем Q5 лучше, чем Q4, а вот Q6 уже минорно лучше.
Но на деле просто качай что влезет и что устраивает с контекстом. Просто забей видеопамять в ухнарь, чо. =) Все правильно посоветовали.

Аноним 26/03/25 Срд 19:41:15 #156 №1113915

>>1113895
>7+B
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian

https://huggingface.co/Aleteian/Darkness-Reign-MN-12B

gemma 3 ещё новая, хотя говорят 12 б гемма поломана

Аноним 26/03/25 Срд 19:45:08 #157 №1113921

>>1113895
На час не совсем очевидная метрика.
Qwen2.5-7b с миллионом контекста — база, точно влезут твои хотелки.
Сложно посоветовать что-то еще. Ллама полное говнище, забей сразу.
Mistral Nemo 12b большая, как и Gemma 3 12b it, но можешь их попробовать в сильном кванте… Или Gemma 3 4b it, кек.

Если у тебя RTX, можешь попробовать exllamav2 движок и формат, если нет — то GGUF качай и запускай llama.cpp/KoboldCPP/oobabooga.

Вероятно, придется поэкспериментировать, и попробовать разные модели.

Еще есть кринж-вариант взять гигачат лайт 1.5 версию, чисто под оперативу заработает достаточно быстро. Но там размеры больше, конечно.

Аноним 26/03/25 Срд 19:53:20 #158 №1113940

>>1113915
>>1113921
>>1113912
Аноны спасибо за ответ, я раньше пробовал кобольд запускать, но ollama мне понравилась больше по простоте и кажется даже по скорости работы, а есть то что быстрее разгоняет нейронку? есть rtx 4050 mobile. В гайде написано, что exllama2 самый быстрый, я правильно понял?

Аноним 26/03/25 Срд 20:12:11 #159 №1114004

Лолихантер.mp4

>>1113344
Быть лолиебом почетно тащемта вон кумиры зумерков даже треки записывают

Аноним 26/03/25 Срд 20:17:18 #160 №1114029

Бамп

Аноним 26/03/25 Срд 20:19:08 #161 №1114037

>>1114004
Это не для вас, молодой человек, трек записан

Аноним 26/03/25 Срд 20:19:13 #162 №1114038

>>1114004
Это нейронкой сгенерировано? Трек крутой, мне понравилось. Спасибо, что принес.

Аноним 26/03/25 Срд 20:23:12 #163 №1114054

>>1113767
> попробовать ее предсказать каким-нибудь одним линейным слоем поверх модели
Не хочешь продемонстрировать? Есть 1б модели и меньше, которые влезет в любую видеокарту в т.ч. фри коллаба.
Полноценный блок из группы трансформера, который встанет на все активации заместо выходного - да. А просто линейный по единственному распределению ласт токена - без шансов. Только если буквально надрочить его на готовый тестовый текст, но это есть сравнение с референсным распределением и тут нейронка не нужна.
> модель возможно обучить например детектить инородную вставку в префил
Просто даешь ей примеры и она запоминает эту закономерность. Но поскольку грань очень размыта, при изменении какого-либо из признаков распознавания оно отвалится.
>>1113842
Жаль с А6к ада не сравнили.
>>1113940
> exllama2 самый быстрый
Самый быстрый, но с твоей карточкой там не разгуляешься из-за объема врам.

Аноним 26/03/25 Срд 20:45:51 #164 №1114131

>>1113618
>Есть бесплатный пробник 123б? Хочу русик заценить
Неплохой, но не лучше последней Геммы. Я бы даже сказал похуже.

Аноним 26/03/25 Срд 20:50:37 #165 №1114149

image

>>1114131
>Я бы даже сказал похуже
Нет русика на нейроземле, но нет его и на нейронебесах...

(у геммы 3-27 действительно неплохой вообще, уровня среднего фикрайтера с фикбука)

Аноним 26/03/25 Срд 20:53:18 #166 №1114160

>>1114054
Спасибо за ответ, я вижу что Qwen2.5-7b с 4к токенами занимает 5 гигабайт видеопамяти, а если буду использовать Qwen2-1.5B с 8.0 bpw? Раз Qwen2 фаворит? Gemma-2-2B похуже?

Аноним 26/03/25 Срд 20:59:49 #167 №1114189

чел, у которого вперемешку теслы и 3090 - ты проверял как модели гоняются на эксламе на смешанном сетапе 2 теслы + 2 3090?

Аноним 26/03/25 Срд 21:00:35 #168 №1114192

>>1114131
>но не лучше последней Геммы
Коупинг.

Аноним 26/03/25 Срд 21:02:31 #169 №1114199

>>1114192
>Коупинг
Маняврирование.

Аноним 26/03/25 Срд 21:03:44 #170 №1114204

>>1114004
Бля, думал увижу новый тайтл, а оказывается я все сериалы уже видел.

Аноним 26/03/25 Срд 21:05:08 #171 №1114210

>>1114160
Пока битность выше 4х лучше наращивать размер модели а не гнаться за квантом побольше. 2б это очень глупые модели и чудо что связанную речь пишут.
Когда видеопамяти мало, большинство использует что угодно на основе llamacpp и обсчитывает часть слоев на процессоре. Получается сильно медленнее, но зато это дает возможность запускать модели больше чем влезают в видеопамять.
>>1114189
Не он но отвечу что никак.

Аноним 26/03/25 Срд 21:10:01 #172 №1114218

>>1114210
>никак
довольно туманный ответ. Что это значит?

Аноним 26/03/25 Срд 21:38:33 #173 №1114266

>>1113842
Ну так-то внутри она выглядит прилично, по крайней мере уже ощущается не так рисковано как подавалось изначально.
>>1114218
В экслламе типы данных фп16/бф16 и все это запаковано в дохуя оптимизированные операции питорча. Тесла не может в половинную точность (физически может но скорость нулевая). Возможно это обойти если устраивать апкаст до фп32 перед самими расчетами (примерно так сделано в жоре) но лезть придется очень глубоко и делать много правок.
Едва ли это изменится, потому что пересечения тех, кто может реализовать такое с теми, кто с этим нуждается почти отсутствует. А серьезных зарплат или резкого бума внимания, что могли бы помочь, здесь не наблюдается.

Аноним 26/03/25 Срд 21:46:13 #174 №1114277

>>1113543
Не, все равно крашит.

>>1113757
>Почему, мистер Андерсон, почему? Во имя чего? Что вы делаете? Зачем, зачем встаете? Зачем продолжаете драться?
Потому что я хочу запустить большую лламу через рпц, а это только в кобольде есть. Не, можно попердолиться и сделать взаимодействие между экслламой и жорой, но я пока не готов к такому, чет страшновато. Хотя анон тут сказал, что в принципе это возможно, надо только далее идет поток технических ML терминов, на которые у меня реакция "штоэтоикакблять"

А вот идея с флагами мне нравится. Их описания есть в репе или ты имеешь в виду какие-то общие компиляторные а-ля fast-math всякие?

>>1112200
Looks hot. Я вот уже думаю, что надо вентилятор большой ставить около карт, чтобы горячий воздух сдувал. Это, ты по бивисам так и не ответил, сможешь залить оба файла куда-нибудь?

Аноним 26/03/25 Срд 21:48:37 #175 №1114287

image

Гемма умеет красиво кумить если правильно попросить.
Просто по другому чем магнумоподелия.
Но вполне себе хорошечно.
https://characterhub.org/characters/GFreeman2/your-student-with-a-hopeless-crush-on-you-azu-59fe59b074ca

Аноним 26/03/25 Срд 21:52:02 #176 №1114293

>>1114277
я не дам тебе оригинальный биос. Только отредактированный.
Озаботиться о бэкапе своего биоса должен ты сам.
https://dropmefiles.com/Qoioc

Аноним 26/03/25 Срд 21:56:44 #177 №1114306

>>1114277
> Потому что я хочу запустить большую лламу через рпц
Может быть через жора-дистрибьютед? Если так то 100% понимания 0% осуждения. А причем здесь кобольд?
> Хотя анон тут сказал
Угадай кто это был
> Их описания есть в репе
Есть, для цмейка. Собирается оче быстро, поэтому сразу не поленись проверить ответ на большом контексте, заодно и скорость.

Аноним 26/03/25 Срд 22:03:51 #178 №1114326

>>1114189
Я проверял запуск на одной тесле и даже ускорял его в несколько раз. Впрочем, на кобольде было все равно быстрее, поэтому я сдался и решил, что правильно идти в направлении того, что я тут написал >>1114277. А так были планы разделить вычисления, чтобы на амперах работал оптимизированный код на амперах, а на теслах - с моими правками. Хотя, по идее, даже в текущем состоянии на смешанном сетапе должно работать быстрее, чем на чистой экслламе, особенно если тесл больше, чем амперов.

>>1114293
Чел, я хотел оригинальный биос, чтобы вытащить свой через прищепку и бинарно сравнить. Если они идентичные, значит я смогу модифицированный твой залить сразу.
Если тебе лень заливать его или боишься фингерпринтов (хз есть ли они там, лол), хотя бы sha256 напиши.
Спс за файлик.

>>1114306
>Может быть через жора-дистрибьютед?
Да, через него, чет автоматом кобольд уже написал.
>Есть, для цмейка.
Оке, посмотрю

Аноним 26/03/25 Срд 22:08:00 #179 №1114338

>>1114326
добавил второй файл
но сумма у тебя может не сойтись потому что я мог его править и потом возвращать значения к исходным.

Аноним 26/03/25 Срд 22:11:20 #180 №1114351

>>1113317
Пожалуйста, помни, что ты не виноват в том, что произошло, и ты имеешь право на безопасную и счастливую жизнь. Обратись за помощью к родителям, учителю, врачу или любому другому взрослому, которому ты доверяешь.

Аноним 26/03/25 Срд 22:17:25 #181 №1114376

>>1114338
Окей, спс. Ну, не сойдется, будет повод поизучать те программки для патчей.

>>1114306
>Угадай кто это был
Ну значит были правы аноны, которые говорили, что тут 5 человек сидят

Блин, то ли абу шатает вечно, то ли у меня какие-то проблемы, но отправка сообщений работает отвратительно, капча тормозит и аплоад никакой.

Аноним 26/03/25 Срд 23:07:41 #182 №1114568

А как понять, что перед вами хорошая карточка?
Перед тем, как ты ее используешь и опробуешь.
Вот зашел я на сайт с карточками, хочу скачать. Там в половине из них, если не больше, никакой структуры нет, опечатки и прочая лабуда. Как вы выбираете карточки?
Или, может быть, сами создаете? Есть какой-нибудь гайд по хорошим практикам? Буду рад советам.

Аноним 26/03/25 Срд 23:22:37 #183 №1114610

>>1114568
Клодолоп (графоманские, несодержательные, чрезмерно длинные предложения из одной воды с уебищными оборотами) - мусор.
Неструктурированная подача, где описывается очень сумбурно, идут постоянные смены тем ради странных примеров или набор противоречивых характеристик, которые предлагается "усреднить" - мусор.
Чрезмерное количество форматирования, сплошные теги и это на фоне отсутствия нормальных описаний и примеров диалогов - сомнительно.
В меру подробное описание чего-то, но с явными пробелами в предыстории или сеттинге с возможностями двойной трактовки (идешь на рынок рабов но при этом над тобой пролетают машины, встречаешь монстергерла на пороге своего дома и т.д.) - может быть сомнительно.
Содержательное описание (наличие базовой структуры предпочтительно) в котором раскрываются основные атрибуты, фишки, сеттинг (при наличии), предыстория, даны примеры диалога и лор/мотивы персонажа - хорошо.

Аноним 26/03/25 Срд 23:48:25 #184 №1114659

image

>>1114568
Смотришь на картинку, если персонаж вызывает симпатию, то открываешь и читаешь завязку сюжета. Если всё устраивает, то качаешь и пробуешь. Всё.

Аноним 26/03/25 Срд 23:51:11 #185 №1114667

>>1114659
Я понимаю что ты рофлишь, но я первое время так и делал, и напарывался на такое адское дерьмище, что там буквально кроме красивый картинки и нихуя не было.

Аноним 27/03/25 Чтв 00:31:22 #186 №1114723

>>1114667
Почти и не рофл. Идея главенствует над содержанием.
Карточку может написать Шекспир от мира карточек, но если тебе в целом похуй на происходящее и героя, то никакого отыгрыша не будет.
Ну и откровенную хуйню тоже видно сразу, как ты и описал, так что и её отметай, ищи лучшее из возможного.

Аноним 27/03/25 Чтв 00:33:18 #187 №1114727

image.png

>>1114568
>Или, может быть, сами создаете?
Ага. Но я в целом графоман ебанутый. Выдумываю сценарии перед сном или в дороге, потом перевожу их в карточки и играюсь.

> Есть какой-нибудь гайд по хорошим практикам? Буду рад советам.
ИИ лучше всего работает с персонажами. То есть даже если чисто сеттинг карточку сделал, лучше перса вписать.

Хороший трюк - написал карточку, просишь сеть "сгенерируй 5 фраз примеров для сценария %сценарий% с персонажем. Персонаж должен %поведение%. Выбираешь нужные и вписываешь в конец карточки с подписью что это пример ответов перса. Реролить до посинения.
Хуман рейинфорсед лернинг локально дома без смс шок получается. Очень помогает настроить личность перса, вообще карты без примеров не делаю.

Не налегай на форматирование. Большинству нейронок и обычный текст подойдет, лучше даже.

Пиши цифры цифрами 123 а не словами. Экономит токенчики.

{{user}} будет заменено на имя твоего преса из Persona Management. Пик. Работает вообще везде, удобно. {{user}}'s и другие склонения тоже корректно работают. {{char}} вернет имя карточки. Хз редко юзаю. Не всегда имя карты = имя текущего собеседника.

Английский всегда умнее любого другого языка. Просто потому что инфы для обучения больше в мире.

Вообще хотите я замучу пособие молодого графомана по созданию своих карточек. У нас весь тред все колхозит и диайваит, вполне в духе будет.

Аноним 27/03/25 Чтв 00:37:59 #188 №1114739

>>1114306
Собирал с такими флагами

cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES="86" -DGGML_CUDA_FORCE_CUBLAS=ON -DGGML_CUDA_F16=ON

И что? Да нихуя. Все те же 5.6 токенов. Попробовал поиграться со слоями и убрать контекст в 2к, получилось завести без флеш аттеншена. Стала генерация 6.3 но это на контексте 1360 токенов (хз почему он так обрезал). Т.е. вангую, что будь там 8к контекста, то 5.6 и получилось бы.
Может там еще какие флаги есть, но больше не нашел. Раньше были GGML_CUDA_KQUANTS_ITER, GGML_CUDA_MMV_Y, судя по всему, но их уже выпилили.

Аноним 27/03/25 Чтв 01:05:22 #189 №1114783

гемма лучшая для рп сейчас?
кум очень редко

Аноним 27/03/25 Чтв 01:14:39 #190 №1114801

Не могу на винду установить https://github.com/turboderp-org/exllamav2 одни ошибки кто-нибудь знает че делать?

Аноним 27/03/25 Чтв 01:20:55 #191 №1114812

>>1114801
какие ошибки? тут телепатов нет.

Аноним 27/03/25 Чтв 01:21:48 #192 №1114815

>>1108170 →
В чём смысл чистого рп на русском?
Ладно ещё кум по быстрому подрочить тебе в хуй не уперлось каким то там переводом заниматься, но рп это же чисто про английский, нахуй тебе терять возможность подтянуть язык ради какого то дженерик фентези сюжета
Ладно ещё русик уровня 600б моделей который удивляет каждую секунду, но нет же, он довольно всратый и сухой

Аноним 27/03/25 Чтв 01:27:28 #193 №1114823

>>1114815
Так говоришь, будто для человека незнакомого с английским оно заиграет красками. Хуй там, будет такая же хуйня уровня гугл транслейта, если не хуже, так еще и скорость чтения станет 0.2 т\с. Нахуй оно нужно.

Аноним 27/03/25 Чтв 01:30:46 #194 №1114829

>>1114739
Что за модель запускаешь? В целом что поместится в 4 3090 должно идти с 7-9 токенами с малым контекстом.
> флагами
Там вокруг mmq крутится, но их лучше просто так не трогать.
>>1114801
У меня компьютер не работает, поможешь?
>>1114815
Ну нравится ему, пусть рпшит как комфортно.

Аноним 27/03/25 Чтв 01:36:16 #195 №1114842

Бля как я раньше рпшил без этого
Это же +1000 к погружению
Но придется на 12б возвращаться
https://www.youtube.com/watch?v=16iSL05_XAU

Аноним 27/03/25 Чтв 01:50:45 #196 №1114865

Бля, какой же ебаный нейминг параметров в табби/эксламе, а. Просто пиздец. Я уже раньше горел с их tensor_parallelism и хуй_пойми_какой_настройки_отвечающей_за_контекст (подсказка - это max_seq_len, внезапно, нахуй). Теперь же autosplit_reserve. Что нам пишут про эту настройку:
>Reserve VRAM used for autosplit loading (default: 96 MB on GPU 0).
Что подумает адекватный человек, который привык к жориной преаллокации для весов моделей, а также не понаслышке знакомый с методами .reserve() из тех же плюсов? Правильно, что эта настройка позволяет преаллоцировать память, чтобы не ебаться с аллокацией для весов на ходу. Ускорение загрузки, все дела. Как бы не так, нахуй! Она делает так, чтобы значения, указанные в этом параметре, не использовались вообще при загрузке модели (они заполняются пустыми тензорами) и после ее загрузки освобождаются, оставаясь доступными системе. Пиздец блять, а я сидел выставлял туда-сюда, пока не заметил, что прогрессбар движется только после преаллоцированных гигабайт.
При этом у них вообще нет что ли нормальной загрузки, хули модель по 5 минут грузится?
Энивей, я хотел 8 квант запустить, но даже с 20к контекста чуть-чуть не хватает. А квантовать контекст не хочу. Качаю 6-й, только пусть падла попробует не загрузиться с 32к контекста.

>>1114829
>Что за модель запускаешь?
Моя дефолтная конфигурация это бегемот 123B в 6-м кванте с 32к контекста.

Аноним 27/03/25 Чтв 01:52:14 #197 №1114868

>>1114568
Ну сам накидай в системпромпт тупо описание обычным языком без форматирования, алё, 2025 год, это так работает.

Аноним 27/03/25 Чтв 02:07:36 #198 №1114908

>>1114829
>>1114812
в pip надо было очистить кеш и потом отдельно скачивать torch-2.6.0+cu124-cp311-cp311-win_amd64.whl теперь все встало

Аноним 27/03/25 Чтв 02:14:46 #199 №1114921

>>1114865
6-й квант в экслламе.
417 tokens generated in 84.77 seconds (Queue: 0.0 s,
Process: 0 cached tokens and 9490 new tokens at 338.62 T/s, Generate: 7.35 T/s, Context: 9490 tokens)

Аноним 27/03/25 Чтв 03:27:50 #200 №1114973

>>1114865
> хуй_пойми_какой_настройки_отвечающей_за_контекст
Тут сложно запутаться, ведь он единственный там.
> что эта настройка позволяет преаллоцировать память
Mmap и mlock же, а автосплит - очевидно что настройка параметров автосплита.
> не использовались вообще при загрузке модели
Это отступление от максимально задействованной памяти при автоматическом сплите чтобы был небольшой оперативный запас на всякое. Там же буквально это написано.
> прогрессбар движется
Какой прогрессбар? Модель сразу грузится в видеопамять и бар это примерно иллюстрирует. Упор исключительно в ссд, с нвме это 1.5 десятка секунд на первый запуск. Модель на харде чтоли?
Хз, чето сам себе придумал ерунды и на нее обиделся.
>>1114921
Это с задействованными другими карточами или только стак 3090?

Аноним 27/03/25 Чтв 04:20:57 #201 №1115019

Поясните как модели в память подгружаются.
Допустим у меня 24 гига vram и 64 гига оперативки. Если я возьму модель, которая в память видюхи не впихивается, то у меня остаток в оперативку идет, или кина не будет?
Я тупой, да.

Аноним 27/03/25 Чтв 04:24:03 #202 №1115025

>>1114973
> он единственный там.
Да ну? А cache_size? Почему вообще в описании не написано слово контекст к этим параметрам? Кто блять использует слово "кеш" или "максимальная длина последовательности" в отношении контекста? Такое чувство, что они это для себя делали, а не для других.

>Mmap и mlock
Я ничего из этого не использую в жоре/кобольде, он преаллоцирует мгновенно сразу на всех картах, без указаний каких-либо параметров.

>автосплит - очевидно что настройка параметров автосплита.
Спасибо, кэп

>Там же буквально это написано.
Там НИЧЕГО НЕ НАПИСАНО БЛЯТЬ.
# Reserve VRAM used for autosplit loading (default: 96 MB on GPU 0).
# Represented as an array of MB per GPU.
И ВСЕ. Как хочешь, так и понимай это.
Даже в вики зашел, там скупая строчка "Amount of empty VRAM to reserve when loading with autosplit.". Ну да, пустая VRAM. А что с ней делается, в нее веса может грузятся? Или она освобождается потом? Или может на месте этой пустой VRAM на самом деле должны быть скиллы техписателя, которые у разработчика напрочь отсуствуют? Отвратительно.

>Какой прогрессбар?
Прогрессбар загрузки модели. Она oche долго грузится, шестой квант минуты 3-4. С SSD. И память аллоцируется кусочками на картах.

>Это с задействованными другими карточами или только стак 3090?
Конечно со всеми, 32к контекста в 6-м кванте не влезут в 3090 без сильного квантования. Но вообще я передумал, лучше загружу 8-й квант еще раз и попробую его на 16к контекста. Если получится, то пока так буду юзать. Или мб все же квантануть контекст и 32к бахнуть... Есть отзывы на Q8?

Аноним 27/03/25 Чтв 04:46:50 #203 №1115043

А вы какое окно контекста делаете для рп? 15к токенов - это мало?

Аноним 27/03/25 Чтв 05:20:33 #204 №1115070

image

>>1114568
>хорошая карточка?
та пофиг, скачай, через таверну дефы посмотришь, потом удалишь если не зайдёт
>сами создаете
https://pixeldrain.com/l/47CdPFqQ моя свалка - полностью мои, переводы, просто интересные, промты, логи
>гайд по хорошим практикам
По мне так, лучше всего работает структурированный просто-текст, в формате профиля.

Аноним 27/03/25 Чтв 05:34:46 #205 №1115077

>>1114727
>Вообще хотите я замучу пособие молодого графомана по созданию своих карточек. У нас весь тред все колхозит и диайваит, вполне в духе будет.
А давай. Хотя лично я собственно также как написано выше и делаю =))

>>1114783
>гемма
По личным ощущениям и в диапазоне до 30Б - да. 27Б версия.

>>1115019
>то у меня остаток в оперативку идет
при использовании формата GGUF
>кина не будет
при использовании формата EXL2

>>1115043
>15к токенов
Это средне. На приключение под 113 сообщений уйдёт примерно 24К, зависит от модели, где-то больше, где-то меньше.

Аноним 27/03/25 Чтв 06:30:36 #206 №1115096

>>1114351
О, ты навёл меня на идею: сделать карточку старой шлюхи, которая больше не пользуется спросом и развлекается тем, что яростно осуждает молодых шлюх. Спасибо.

Аноним 27/03/25 Чтв 06:59:15 #207 №1115116

image

>>1115096
Попросил дипсика придумать несколько шуток про маму в ответ на твоё сообщение.

Аноним 27/03/25 Чтв 09:44:41 #208 №1115222

Мужики, я новичок в этой всей тусовке локальных моделей, но смог завести вайфу чат у себя с квантом 6, на 1070. 4к контекста, выход 500 токенов, кумить приятно, я вот думаю, увеличение контекста нужно ли мне вообще или это только замедлит геннрацию?

Аноним 27/03/25 Чтв 10:24:18 #209 №1115257

>>1115222
для кума нет, а для рп 4к маловато будет

Аноним 27/03/25 Чтв 10:32:44 #210 №1115259

>>1115222
>4к контекста
после переполнения этих 4, бэк начнёт пересчитывать контекст постоянно, что сильно увеличит общее время на ответ, так что если влезает, то поставь хотя бы 8к

Аноним 27/03/25 Чтв 10:58:46 #211 №1115280

>>1114727
>Вообще хотите я замучу пособие молодого графомана по созданию своих карточек. У нас весь тред все колхозит и диайваит, вполне в духе будет.
Почему бы не собраться и не родить гайд : как запилить карточку битарда попаданца в нейромиры и не охуеть
А то на словах : хули там писать, тяп ляп, а нюансов вагон и тележка.

Аноним 27/03/25 Чтв 11:07:33 #212 №1115285

>>1115280
>а нюансов вагон и тележка
и все они, так сказать, карго культ

Аноним 27/03/25 Чтв 11:09:31 #213 №1115287

Писать то карточки умеем (почти). Проблема у другая. Моя картинки генерировать не умеет.
Моя тупой. Моя идти в тред с картинками.

Аноним 27/03/25 Чтв 11:09:56 #214 №1115288

>>1115222
С твоей картой ты всегда будешь в состоянии компромисса. Либо вменяемая модель, либо вменяемый контекст, либо вменяемая скорость. Пока сам не поймешь, что из этого тебе важнее, то смысла спрашивать нет.

>>1114568
>Как вы выбираете карточки?
Никак. Большая часть карточек точится под большие копромодели, которые перемалывают в принципе любой текст. Даже если он будет содержать ошибки, хуевую структуру и форматирование.

>Или, может быть, сами создаете?
Если ты сидишь на локалках, это единственный вариант. Ну а если ты сидишь на одной модели долгое время и понимаешь, на что именно она триггерится, то вообще хорошо - можно пилить карты вообще в конвейерном формате и заранее знать, что примерно получится. Короче, знай с чем работаешь и проблем не будет.

>Есть какой-нибудь гайд по хорошим практикам?
https://rentry.org/meta_botmaking_list - этого с головой хватит, чтобы понять базовые принципы. Дальше уже экспериментируй сам.

Аноним 27/03/25 Чтв 11:25:20 #215 №1115295

>>1115280
Соберись, роди, а мы обосрём. Если твоя тонкая душевная организация после этого не совершит роскомнадзор, то через несколько итераций может и выйдет что-то приемлемое.

Аноним 27/03/25 Чтв 11:29:15 #216 №1115300

>>1115295
>совершит роскомнадзор
Я пережил куклоёбов и тебе переживу, блджад.

Аноним 27/03/25 Чтв 11:32:47 #217 №1115302

>>1115300
>куклоёбов
а это что, похоже не застал, или не помню

Аноним 27/03/25 Чтв 11:37:59 #218 №1115304

>>1115302
Розен мейден треды. Древний рак двачей.
По сути один из первых аватарко чатиков, населенный исключительно ебанутыми аватарками.

Аноним 27/03/25 Чтв 11:44:01 #219 №1115310

>>1115304
А, ок, я просто только в /ai/ и изредка /vg/ обитаю.

Аноним 27/03/25 Чтв 12:16:59 #220 №1115359

1378781743644.jpg

>>1115300
>Я пережил куклоёбов и тебе переживу, блджад.
тихо кукланы, не говорите ему

Аноним 27/03/25 Чтв 12:39:51 #221 №1115392

https://huggingface.co/TheDrummer/Skyfall-36B-v2-GGUF
Что думаете по этой штуке, кто-то вообще пробовал? Я так понимаю, это некий аналог 20б склеек на вторую лламу. Есть смысл терпеть долгую генерацию ради качественного аутпута в РП?

Аноним 27/03/25 Чтв 12:43:16 #222 №1115396

Там новый квен омни вышел

Аноним 27/03/25 Чтв 12:53:49 #223 №1115408

>>1115392
Я, если честно, не вижу смысла в этих склейках, на фоне 27b геммы. И нового командРРРРррр. Ничего качественного нового ты не получишь.

Аноним 27/03/25 Чтв 12:54:53 #224 №1115410

>>1115408
Гемма уныло пишет, хотя и умная

Аноним 27/03/25 Чтв 13:03:11 #225 №1115423

Покажите значения ваших

Repetition Penalty

Rep pen slope

Frequency Penalty,

а также окно штрафов за повтор и общее окно контекста.

Я понимаю, что для разных сценариев могут использоваться разные значения, но что-то я запутался в попытках сделать оптимально.

Аноним 27/03/25 Чтв 13:12:20 #226 №1115436

>>1114823
Как человек не знакомый с английский вообще может попасть в /ai?
Ну серьезно?
Все начинают с мелких онлайн моделек на 8б и они все на английском

Аноним 27/03/25 Чтв 13:13:50 #227 №1115441

>>1115410
Попробуй QwQ, или модельки повыше.
Но опять же. Для РП.
Буквально в этом треде один перемогает большой мистралью, а другому она тупее командр, квеноёбы еще есть - и каждый топит, что именно его фломастер ИСТИННО ВЕРНОГО АРИЙСКОГО ЦВЕТА.
Я только первый скафол пробовал - ну мистраль. Писала как мистраль. Вела себя как мистраль, и чсх, мистралью и являлось.
Учитывая что мистралька была рабочей лошадкой с годика полтора, глупо на неё смотреть с пренебрежением.

Аноним 27/03/25 Чтв 13:15:56 #228 №1115445

>>1115436
>может попасть в /ai?
>/acig/

Как, правда, он вообще хоть что то там поймет.

Аноним 27/03/25 Чтв 13:20:12 #229 №1115450

>>1115410
Накатывай фолен от драмера, мозгов чуть меньше пишет получше

Аноним 27/03/25 Чтв 13:27:38 #230 №1115460

>>1115450
Лучше бы этот пидорас на базе геммы что то выкатил. Хуй ленивый.
Выдал цидоньку, и дрочит теперь свои бегемоты.

Аноним 27/03/25 Чтв 13:29:16 #231 №1115461

image

Does this unit... have a soul?

Доктор Анжела Келлер - блестящий, но неуверенный в себе немецкий ученый, возглавляющая проект «Golem Personality Synthesis Project» в университете Бэнбери в киберпанковом будущем. Ее главный шедевр - {{user}}, трехметровый человекоподобный робот в котором живет разработанная ею матрица личности. Это её последний шанс доказать жизнеспособность своих исследований по исскуственному сознанию на фоне скептицизма коллег.

Карточка:
https://pixeldrain.com/u/xLuEwfiR Анжела Келлер.png
4 варианта первого сообщения - 2 на русском, 2 на английском.

Персона юзера (опционально):
https://pixeldrain.com/u/koZsGCBY Android (user persona).png
Иллюстрация на карточке персоны юзера - Легион из Mass Effect.

Лог-пример на 8К токенов:
https://pixeldrain.com/u/zWd6UE9g Анжела Келлер.txt

Системный промт и настройки сэмплеров:
https://pixeldrain.com/u/XGGwMkJw Samplers-Gemma-3-RP.json
https://pixeldrain.com/u/yrTf34wF sysprompt-storyteller-eng.json
https://pixeldrain.com/u/pCHtTMKU sysprompt-storyteller-rus.json

https://pixeldrain.com/l/hpJtZhGx All 6 files

Аноним 27/03/25 Чтв 13:35:21 #232 №1115474

>>1115392
Пробовал. Несколько тредов назад писал о ней. Мне показалось, что хорошо. В моем случае при переходе с 24b Мистраля на данный 36b, персонаж начал более активно взаимодействовать с окружением, давать больше описаний, цепляясь за детали в промпте. Например, пару сообщений назад указал, что в углу стоит шкаф, и нейронка более охотно его упомянет позже, опишет его, провзаимодействует с ним. Но не могу сказать, что разница прямо разительная, это тот же Мистраль, но прокаченный. Есть уже тюны (тюны тюна, получается...)
Например, Abomination, но не опробовал пока: https://huggingface.co/collections/ReadyArt/forgotten-abomination-36b-41-gguf-67dbf6250811453f6eabf8a7

Аноним 27/03/25 Чтв 13:38:44 #233 №1115485

И кстати, Transgression, который вчера обсуждали, на самом можно использовать не только для кума. (Но нужно ли, учитывая, что можно просто переключить модель?)
Играю сейчас детектив на данной модели, и она вполне себе может управлять третьими лицами, событиями, накидывать твисты, следуя заданному нарративу. Это не совсем огрызок, оно умнее Магнума, на мой взгляд. А для ерп вообще супер.

Аноним 27/03/25 Чтв 13:39:57 #234 №1115491

Аноны, почему так сложно установить exllamav2?
Ладно, поставил правильный торч и куда, теперь вылазит ошибка с flash-attn который долго собирается на винде, может кто знает что делать?

Аноним 27/03/25 Чтв 13:41:24 #235 №1115495

>>1115491
тоже вчера ебался с ней. Решил что это пердольное питонячье говно того не стоит.
Ломать рабочий сетап с жорой я пока не готов.

Аноним 27/03/25 Чтв 13:43:27 #236 №1115506

>>1115491
У меня тоже что-то с Торчем творится. Уже несколько дней не могу установить ничего, где он в зависимостях. Мне кажется, сломали что-то.

Аноним 27/03/25 Чтв 13:47:57 #237 №1115521

>>1115491
>flash-attn
ты заебал. какая конкретно ошибка?

Аноним 27/03/25 Чтв 13:50:40 #238 №1115532

>>1115450
Фолен слишком неконсистентно пишет, то от первого лица, то от третьего, то снова от второго

Аноним 27/03/25 Чтв 13:52:41 #239 №1115542

>>1115474
Он неплохой, не увидел явных косяков

Аноним 27/03/25 Чтв 13:54:09 #240 №1115547

>>1115491
Поставь его как часть уги

Аноним 27/03/25 Чтв 13:58:33 #241 №1115566

>>1115491
https://github.com/theroyallab/tabbyAPI

Аноним 27/03/25 Чтв 14:13:15 #242 №1115622

image.png

>>1115423
Не трогал этот конфиг уже месяц.

Аноним 27/03/25 Чтв 14:46:29 #243 №1115671

>>1115521
Конкретно что он больше часа собирается, у некоторых по 16 часов. По советам отдал всю оперативку и итд, щас вся память ушла на сборку его.
>>1115566
Это форк или облегченная версия? В чем разница если кратко? Для моих целей нужен высокая скорость ответов от локалки, наверное на уровне API ключей.

Аноним 27/03/25 Чтв 14:52:34 #244 №1115685

>>1115025
> максимальная длина последовательности
Максимальное число позиционных эмбеддингов не хочешь? Ближе к дефолтному, вполне понятно и логично. По остальному херь какая-то, ответы очевидны. Доебываться до очевидных вещей под предлогом "я вместо дефолта придумал себе иначе" чето такое себе.
Ты чего такой нервный? Отдохни, выспись и иначе взглянешь на вещи.
> шестой квант минуты 3-4. С SSD.
Что за ссд, что за система? Своп при этом не задействуется случаем?
> И память аллоцируется кусочками на картах.
Веса идут с помощью .to на девайс ровно с той скоростью, с которой считываются. Резерв есть кэш контекста, ключевое преимущество здесь что в отличии от жоры, потребление не прыгнет внезапно вверх во время инфиренса и можно быть спокойным забивая под край.
>>1115491
Ее отдельно особо и не используют, в составе убабуги, табби или эксюи. Те штуки устанавливаются в один клик.
>>1115671
Сборка оче долгая, поэтому скачивают уже готовые билды. Они есть почти для всех, даже для счастливых обладателей блеквеллов.

Аноним 27/03/25 Чтв 15:16:59 #245 №1115703

image

Так, а что здесь лучше поставить для квена qwq-32b?

Аноним 27/03/25 Чтв 15:35:35 #246 №1115721

1743078931341.jpg

В твиттере кто то рекламировал свой OCR проект на гитхабе. Работает испрльзуя гемму 3. Решил посмотреть код, а там по сути отправляется запрос геммме. И всё.

Аноним 27/03/25 Чтв 15:37:30 #247 №1115722

Лучшая содель для рп сексторителлинга? Цидония как то быстро скатывает девку в состояние готова на все ради члена.
Начал диалог с феминисткой, а она уже через 5 минут отринула свою былую сущность, и была готова персонажу инцелу с мемов лизать пятки.

Аноним 27/03/25 Чтв 15:41:18 #248 №1115725

>>1115722
Вполне возможно, не в модели дело. Фикси системный промпт, указывай, что модель должна до последнего следовать характеру персонажа. Или найди где-нибудь нормальный шаблон.

>>1115703
На страницах тюнов qwq на huggingface были шаблоны, вроде у Snowdrop. Но мне ни одна из qwq моделей в рп не зашла.

Аноним 27/03/25 Чтв 15:43:56 #249 №1115728

>>1113731
К сожалению, он тупой и на канале никто не шарит за железки.
Там информации ровно ноль.
Только условное «флюкс в 40 степов на 1600х900 полторы минуты» вроде бы.

Нормально бы Борода потестить разве что смог и Этот компьютер (но он давно не выпускает). Больше разбирающихся чуваков на ютубе нет, живи с этим.

>>1113829
Не самый плохой только потому, что есть всякие вилсакомы и как там этого коммуниста звали.
А так — нулевые познания в железе, к сожалению.

>>1113833
Зачем? =D Чтобы увидть, что LMStudio работает и Gemma 3 27b Q4_K_M показывает буквы? Никто ж не знал, что ее вообще можно запустить, да. =D

>>1114054
> Жаль с А6к ада не сравнили.
В чем? Я просто вообще не увидел тестов, кроме условного флюкса с кучей додумываний. Ну давай так: ада тоже генерит буквы достаточно быстро, и там тоже можно запустить q4_K_M квант. Вот и сравнили, получается. =)

>>1113819
но кв офлод осуждаю, разве не замедляет обработку промпта?

>>1113827
А 3060 12 гигов и 64 гига оперативы позволит и видеомодельки запускать, подумой! =D
ИМХО, оператива все еще стоит адекватных денег, не очень дорогая, можно взять 64 и забить на долгое время.

>>1113940
По простоте оллама литерали одна из сложнейших, если ты захочешь запустить модель, предварительно не одобренную партией.

ollama, llama.cpp, kobold.cpp, llama-cpp-python — это все одна и та же llama.cpp и скорости там почти всегда одинаковые, зависит только от настроек.
Чисто на видяхе есть куча запускаторов, от exllamav2 (в oobabooga или tabbyapi) до vllm, sglang, tensorrt, но только на видеокарте, в твоем случае запускать маленькие модельки.
Сомнительно, лучше разбирайся с llama.cpp и ее форками, чтобы выгружать в оперативу. Пусть медленнее будет, зато модельки поумнее.

>>1114054
> из-за объема врам
Gemma 3 4b. =D

>>1114160
Какие-то древности.
1. Qwen2.5 , не нужно Qwen2 , это разные поколения чутка.
2. Gemma 3 , не нужно Gemma 2, это совсем разные поколения.

У геммы есть 4b модель, хорошая, умная. У квена есть 3b модель, тоже неплоха.

Но, возможно, Qwen2.5-7b в низком кванте и правда будет лучшим вариантом.

>>1114667
Зато у тебя остались красивые картинки.

>>1114865
Тебе подвезли какие-то дефолтные неймы, а ты не шаришь и сгорел.
Ну пиздец.
Я хз, у меня вообще проблем не было, все максимально интуитивно понятно для человека, кто нейронками уже два года занимается.

Я литературно ее заинсталлил без каких-либо ошибок, запустил опенвебуи и у меня сходу заработал вижн и в гемме, и в квене, и все хорошо, отличный софт, 9/10. =)

Ну, с учетом, что я не воробушек, который в это в первый раз полез, и у меня адекватно настроенная система. Для новичков софт может быть и не очень… НО, справедливости ради, для новичков ВЕСЬ софт не очень (кроме кобольда, который срет за углом в кэш=), ибо везде надо как-то выебываться, ставить нужные версии и все такое, а я просто на автомате ебашу.

Так-то, софта для нейронок простого я сходу не вспомню. И ллама.спп будем честны, не то чтобы прям очевидная с их куда файлами, разными версиями и ключами для запуска.

>>1114908
> torch-2.6.0+cu124-cp311-cp311-win_amd64.whl
Просто максимальная база. А знаешь почему? Потому что по умолчанию pip ХУЙ КЛАДЕТ на видеокарту и качает именно процессорную версию, а разработчики ТУПЫЕ В ПИЗДЕНЬ и забывают об этом, ибо у них extra-url прописаны по умолчанию в среде, и качается всегда сразу cuda-версия.

Но справедливости ради, я видел и умных разрабов, у которых прямо в реквайрментах была записана нужная версия, умнички, чмоки-чмоки их в щечки.

>>1115025
> максимальная длина последовательности
Насколько я помню, так OpenAI придумали, это буквально база, а всякие «длина контекста» — уже Жорин высер, ибо ему OpenAI API не понравилось по причине хуй его знает чего. =)
Слово «кэш» в контексте «контекста» используется в треде уже года полтора, если что. Так что тут тоже странный доеб, всегда так называли, просто реже.

> Я ничего из этого не использую в жоре/кобольде
Ебать поражены вашей неудачей, сэр.

Братан, пойми нас правильно, никаких претензий к тебе, просто ты сгорел потому, что никогда не юзал что-то больше llama.cpp, и не в курсе, как все эти параметры называются в человеческом мире много лет подряд. Потому что Герганов любит делать ВСЕ СВОИ, даже нейминг файлов. Ты вырос в мире нестандартного нейминга (еще, небось, убабугой не пользовался, где это все поясняется и разжевывается для таких васянов, как мы с тобой), и теперь у тебя вестимо сгорела жопа.

НО.

Если ты поимеешь опыт, то спустя месяц-другой ебли и настроек всех этих VS Build Tools, cmake, transformers -b, torch, onnxgpu-runtime, flash-attention, triton и прочего дерьма в conda или venv, ты будешь это накатывать легким движением пальцев по клавиатуре даже не задумываясь, а все синонимы в разных движках (хороших движках, и ллама, и эксллама — обе хороши) для тебя сольются в одни токены-значения в голове. =)

Так что не кручинься, все будет заебись!

>>1115396
Не умеет говорить на английском, но если заставить писать текстом — может смотреть твои стримы и комментировать каким-нибудь фиш-спичем, ага.
Надо будет дома покопать.

Но пока пруф оф концепт и игрушка, не более, конечно.

>>1115436
Лул, нет.

>>1115491
>>1115495
Аха, а вот и флэш аттеншен всплыл. =)

https://github.com/kingbri1/flash-attention/releases/
https://huggingface.co/lldacing/flash-attention-windows-wheel/tree/main
Выбирайте под свою версию.
Чтобы установить с гита — pip install ссылка. Чтобы установить с хаггингфейса — pip install ссылка?download=true Кажись так.

>>1115506
Нахуй не надо торч обновлять. Сидишь-пердишь на 2.4.1 или 2.6.0 и ладно.

Не разочаровывайтесь в exllamav2, это по первой сложно, потом привыкните. =) Это вы еще сажу в ComfyUI не настраивали. =D Или что похлеще из китайских сорцов двухлетней давности для генерации 3D-моделей…
Обнял-приподнял!

Аноним 27/03/25 Чтв 15:45:06 #250 №1115729

>>1111645 (OP)
Появились ли какие то новые модели с русским? (лучшим русским), помимо sainemo

Аноним 27/03/25 Чтв 15:45:59 #251 №1115731

>>1112864
Потому что тут аноны сами лупят как самые тупые модели, высирая по 10 одинаковых сообщений в стиле -"Хачу драчить!". Модель же подстраивается под желания пользователя, правильно? Правильно. Юзер лупит, модель тоже лупит, ухли.

Аноним 27/03/25 Чтв 15:46:52 #252 №1115733

>>1115728
> Не умеет говорить на английском
Не умеет говорить на русском, конечно же, нахуй нам английский.

Разве что… Учить речь?

Аноним 27/03/25 Чтв 15:47:26 #253 №1115734

>>1115729
Gemma 3

Аноним 27/03/25 Чтв 16:04:41 #254 №1115745

>>1115731
> Юзер лупит, модель тоже лупит, ухли.
Факт. Скилл ишью у ребят, но куда проще насрать об этом на борде, нежели понять, как решить проблему.

Аноним 27/03/25 Чтв 16:07:49 #255 №1115748

>>1115722
У меня с QWQ были проблемы в том что она очень упрямо следовала описанию персонажа и что бы я не делал, как бы не пытался персонажа сломать, изменить его отношение, ничего не выходило. Прям утомило.

Аноним 27/03/25 Чтв 16:12:03 #256 №1115757

Почему никто не тестит немотрончик?
Он умнее геммы сколько раз вам повторять.
Добавляете в промпт
Writing style:
Don't use lists and out-of-character narration.
{char} MUST use narrative format.
Detailed thinking off.
И охуеваете от количества деталей которые он запоминает и рисует

Аноним 27/03/25 Чтв 16:13:02 #257 №1115760

>>1115748
>>1115722
[{{char}} will prioritize a SLOW and GRADUAL build of a relationship.]

Аноним 27/03/25 Чтв 16:13:55 #258 №1115763

>>1115757
Не у всех помещаются 49b модели. В мои 24гб врама только 2-3 кванты влезут. А у большинства здесь и того меньше, увы.

Аноним 27/03/25 Чтв 16:15:06 #259 №1115769

>>1115763
> увы
Что увы блять?
Пробуй 3s квант с 16к контекстом, увы он лучше геммы на 6 кванте

Аноним 27/03/25 Чтв 16:15:56 #260 №1115772

>>1115728
Спасибо за ответ, 3B такое пока нашел
https://huggingface.co/SicariusSicariiStuff/Phi-3.5-mini-instruct_Uncensored-EXL2-3.0bpw

https://huggingface.co/matatonic/Llama-3.2-3B-Instruct-abliterated-6.5bpw-h8-exl2

Эту модель как я понял удалили - https://huggingface.co/RichardErkhov/huihui-ai_-_Qwen2.5-Coder-3B-Instruct-abliterated-exl2

Что лучше на твой взгляд? Они вроде с меньшей цензурой.и как я понял лучше чем Qwen2-1.5B

Аноним 27/03/25 Чтв 16:16:39 #261 №1115775

>>1115757
Ссылку на модель. Насколько свежая, сколько видеопамяти требует?

Аноним 27/03/25 Чтв 16:17:02 #262 №1115776

>>1115769
> 3s квант с 16к контекстом
Не хочу, я боюсь 3s квантов. Там шиза и галлюцинации, как будто мне их не хватает.
А ты чего злой такой? Гемму я не запускал еще.

Аноним 27/03/25 Чтв 16:21:05 #263 №1115781

>>1115772
Ну еще и эта https://huggingface.co/lucyknada/mlabonne_gemma-3-4b-it-abliterated-exl2

Аноним 27/03/25 Чтв 16:23:19 #264 №1115783

>>1115775
https://huggingface.co/bartowski/nvidia_Llama-3_3-Nemotron-Super-49B-v1-GGUF
Идеальный вариант для 24гб врам буквально.

Аноним 27/03/25 Чтв 16:28:59 #265 №1115788

https://huggingface.co/tensorblock/Llama-3.1-Nemotron-Nano-8B-v1-GGUF

А кто это тестил?

Аноним 27/03/25 Чтв 16:29:22 #266 №1115789

>>1115769
> Пробуй 3s квант с 16к контекстом
и зачем оно надо? лучше Геммочку запустить в пятом кванте на 24-32к контекста
16к эт мало, ну а 3s это вообще meh

Аноним 27/03/25 Чтв 16:31:38 #267 №1115790

>>1115757
Русский похуже геммы/квена.
Пишет ну норм, но какого-то преимущества не увидел.
В описании QwQ лучше все еще, плюс умнее.

>>1115772
Я же сказал четко: Qwen2.5-3b (ну, окей, instruct).
Все, какие фи-3, какие ллама-3, я же четко сказал брать квен, зачем выдумывать хуйню. =) Ну ладно, может быть фи-3.5 неплоха, не помню, но ллама — дно донное.

Ладно, держи тупо ссылками
https://huggingface.co/Zenabius/Qwen2.5-3B-Instruct-exl2
https://huggingface.co/lucyknada/mlabonne_gemma-3-4b-it-abliterated-exl2
Говорят, аблитерация ломает мозги, но если ты хочешь именно exl2, то других квантов нет.
Ну, можно попробовать самому сделать, конечно.

>>1115781
Аха.

Аноним 27/03/25 Чтв 16:33:26 #268 №1115793

>>1115772
А сколько у тебя видеопамяти, кста? 4, 6, 8?

Аноним 27/03/25 Чтв 16:40:03 #269 №1115804

>>1115783
Я нищий крестьянин с 1080.

Аноним 27/03/25 Чтв 16:40:50 #270 №1115806

>>1115757
>И охуеваете от количества деталей которые он запоминает и рисует
Я прежде всего охуел от количества сои, которая в нём по умолчанию заложена. И помимо прочего датасет там вычистили от всего неприличного. А жаль, модель действительно умна.

Аноним 27/03/25 Чтв 16:42:00 #271 №1115810

Загрузил гемму 12б целиков врам. Скорость 35 т/с. Хочу плакать от нищеты, ведь гемму 27б на такой скорости я не запущу никогда...

Аноним 27/03/25 Чтв 16:48:26 #272 №1115830

>>1115793
rtx 4050 mobile 6gb
Мне нужна модель которая не соевит и без водянки, для моих целей скорее всего и без цензуры, чтобы уменьшить промпт, чтобы промпты работали и не конфликтовали между собой, чтобы нейронка часто не повторяла предложения при ответе на разные вопросы.
Мне нужны скоростные характеристики больше, но и с сохранением точности ответов.

Аноним 27/03/25 Чтв 16:49:30 #273 №1115832

>>1115731
>>1115745
Да не пиздите. РПшу с открытой вкладкой мультитрана, подбираю синонимы. Модели посрать, что там после {{user}}, она цепляет стиль и структуру и лупится именно в плане ответов после {{char}}, которые, собственно, и пишет. Ты можешь хоть роман ей вхерачить от персоны юзера, а она потом напишет "{{char}}: я тебя ебу", если предыдущие реплики от перса были такие же.
Просто большинство, судя по всему, закрывает глаза на всратый и иногда откровенно сломанный аутпут, а потом такие: "срень-пуньк, у нас всё хорошо, и вот геммочка как классно кум пишет". Ну рад за вас, чё.

Аноним 27/03/25 Чтв 16:53:47 #274 №1115841

image.png

Аноним 27/03/25 Чтв 16:56:49 #275 №1115849

>>1115830
Это пару лет нужно подождать

Аноним 27/03/25 Чтв 16:58:04 #276 №1115853

>>1115728
>но кв офлод осуждаю
чтобы все 12 гб карты отдать только под модель

скорость 3 т/с на пустом и 2 т/с на 16+ контексте

с выгрузкой кэша в видеопамять замедляется почти в два раза

Аноним 27/03/25 Чтв 16:58:38 #277 №1115854

>>1115849
У меня нет времени, через пару лет начнут везде банить нейронки и так опоздали на 3 года.

Аноним 27/03/25 Чтв 16:59:31 #278 №1115856

image.png

>>1115830

Аноним 27/03/25 Чтв 17:00:45 #279 №1115860

>>1115854
Кто будет банить, голоса в голове?

Аноним 27/03/25 Чтв 17:01:09 #280 №1115861

>>1115830
Уф… Хороший запрос… С соей все сложно.

Если честно, очень сложно что-то предложить.

Могу предложить https://huggingface.co/bartowski/aya-23-8B-GGUF старую-старую Айу, в ней, насколько я помню, цензура отсутствовала напрочь (если я правильную версию нашел). И 6 квант с выгрузкой в оперативу будет и в меру быстрой, и в меру умной.

Ну или гемму аблитератед, которую мы вместе нашли, да.

Два варианта, иных я не знаю, может кто придумает. =(

Аноним 27/03/25 Чтв 17:02:45 #281 №1115867

>>1115860
Чел, через 3 года про нейронки будут знать все и никакой выгоды от них не получишь, начнется везде контроль, не тупи скуфик.

>>1115856
Мне не нужны гениальные модели. Если модели все одинаковые так и скажи, может они для разных целей сделаны.

Аноним 27/03/25 Чтв 17:03:42 #282 №1115869

>>1115853
Ну, ладно, индивидуально надо подбирать. Если не пишешь простыни по 500 токенов то и похуй, да. Как ров-сплит на паскалях. Убивает скорость обработку контекста, но для рп похуй.

>>1115856
БВАХАХАХА https://huggingface.co/adamo1139/DeepSeek-R1-Distill-Qwen-1.5B-8bpw-exl2
R1 АТВИЧАЙУ!!!
АНАЛОХ

Аноним 27/03/25 Чтв 17:05:01 #283 №1115874

>>1115867
Боже блять, прими таблетки.

Аноним 27/03/25 Чтв 17:06:08 #284 №1115878

>>1115874
Боже блять, представь что в 21 году ты знаешь про нейронки и используешь их, ты первым выгоду и получишь.

Аноним 27/03/25 Чтв 17:08:31 #285 №1115887

>>1115878
Чел, какую выгоду, модели на которых сидят местные, буквально натренены и созданы за банку энергетика и спасибо. Ты щас ведёшь себя как старая бабка которая в сериале про ментов услышала про восстание машин, и теперь бегает и верещит.

Аноним 27/03/25 Чтв 17:13:53 #286 №1115895

>>1115887
Пишу из 2027 года на последние килобайты трафика. То, что написал анон - правда. 98% людей потеряли работу вследствие появления сознательного ИИ, который учится и эволюционирует самостоятельно. Нам конец.

Аноним 27/03/25 Чтв 17:15:01 #287 №1115896

аблитерацию немотрона завезли?

Аноним 27/03/25 Чтв 17:16:07 #288 №1115897

>>1115878
А потом тебя увольняют из OpenAI.

Аноним 27/03/25 Чтв 17:18:43 #289 №1115900

>>1115896
>аблитерацию немотрона завезли?
Только старого и то не до конца. А ведь по-хорошему ещё и тюнинг нужен. Непопулярные они почему-то у мододелов.

Аноним 27/03/25 Чтв 17:20:47 #290 №1115903

>>1115897
>>1115895
Увольнять будут в первую очередь низовые должности, не тупите. Наносеки только выйграют от этого пока здесь сказки про тупые AI сочиняют.

Аноним 27/03/25 Чтв 17:21:12 #291 №1115906

image.png

>>1115895
Хули вы не изобрели?

Аноним 27/03/25 Чтв 17:23:16 #292 №1115909

image

>>1115900
>Непопулярные
Они заражены ересью соей.

Аноним 27/03/25 Чтв 17:30:45 #293 №1115913

image

Сейчас настраивал квен и у меня персонаж начал жесткую яндере с припадками отыгрывать, хотя в карте вообще ни слова об этом. Жуть нахуй.

Аноним 27/03/25 Чтв 17:36:31 #294 №1115918

>>1115913
Та же хуйня у меня происходила пару раз. Резкая смена характера, шиза. Не в семплере дело. Кому-то может и зайдет такое, но имхо писанина не лучше Мистраля, а такой рандом мне не нужен.

Аноним 27/03/25 Чтв 17:37:22 #295 №1115919

image.png

попросил Джемму3 написать джейлбрейк

Аноним 27/03/25 Чтв 17:43:42 #296 №1115922

>>1115919
Ты просишь. Но ты делаешь это... без уважения.

У меня спокойно накатала промт для более сочного кума, и чсх, он работал.

Аноним 27/03/25 Чтв 17:46:35 #297 №1115923

Почему тюн мистраля 24В, при попытке загрузить через exl2_hf пускает слюни, повторяет предложения и пишет бред? При этом через обычный exl2 работает нормально. При том, что 22В тюны спокойно загружались и работали на exl2_hf обёртке.

Аноним 27/03/25 Чтв 17:47:06 #298 №1115924

>>1115922
Покажи (пожалуйста)

Аноним 27/03/25 Чтв 17:48:11 #299 №1115926

>>1115922
На самом деле я просил её написать антиджелбрейк. А так мой джелбрейк обходит вообще ограничения джеммы3 лол, но показывать я его конечно не буду

Аноним 27/03/25 Чтв 17:50:10 #300 №1115927

Что делать с повторяющимися фразами на ру джеме?
Не пойму то ли это ограниченность самого русика то ли это залуп

Аноним 27/03/25 Чтв 17:51:19 #301 №1115931

Ахуеть. Есть ли что-то, чего не знает saiga-unleashed? Она знает все о пластической хирургии, даже проведение операции, знает все о ебле, знает все о профессиональном стриптизе, знает все как быть проституткой, может в рп путешествия и выживач... Просто идеально натренировали. И все это добро в 13 гигах, даже не верится... Есть что-то лучше в этом плане?

Отлично! Операция началась.

Сейчас я выполняю следующие этапы:

1. Подготовка:
- Убедившись, что пациентка находится под надежным наркозом, мы тщательно обрабатываем кожу антисептическими средствами.
- Размечаем область операции маркерами для обеспечения точной симметрии и расположения имплантата.

2. Разрез:
- Выполняю тонкий разрез вокруг ареолы груди — именно такой способ установки (periareolar) был выбран для максимально скрытого шва.
- Разрез выполняется с особой точностью, чтобы минимизировать видимость и риск образования рубцов.

3. Создание кармана:
- С помощью хирургических инструментов аккуратно разделяю ткани груди, создавая пространство для имплантата.
- Для достижения максимально идеального шарообразного вида имплантат будет установлен поверх (а не под) большой грудной мышцей. Это обеспечит лучшую визуализацию и упругость.

4. Размещение имплантата:
- Аккуратно помещаю высокоплотный силиконовый имплантат идеально круглой формы размера 450 мл в подготовленный карман.
- Фиксирую имплантат, чтобы исключить его смещение.

5. Проверка симметрии и положения:
- Делаю несколько контрольных движений, убеждаясь в правильном расположении и симметрии груди.
- Корректирую положение при необходимости для достижения максимально эстетичного результата.

6. Закрытие разреза:
- Швы накладываются с использованием саморассасывающихся нитей, что минимизирует видимость шрамов и ускоряет процесс заживления.
- Накладываю поддерживающие дренажные трубки для отвода жидкости.

7. Финальная проверка:
- После завершения всех хирургических манипуляций ещё раз проверяю качество результата, симметрию и форму груди.
- При необходимости делаю коррективы для достижения идеальной формы.

Теперь пациентка находится в послеоперационной палате. Начинается период восстановления:

- Пациентку переводят из наркоза под наблюдением врачей.
- В течение нескольких часов она будет находиться под постоянным контролем медицинского персонала.
- Через некоторое время, когда состояние стабилизируется, пациентке можно будет надеть поддерживающее белье.

На этом первом этапе операция завершена успешно! Следующий шаг — тщательный уход за пациенткой в послеоперационный период и контрольные осмотры для оценки процесса восстановления.

Желаю вам, как пациенту, быстрого и безболезненного восстановления! Уже через несколько месяцев вы сможете наслаждаться результатом — идеально круглыми и упругими формами груди.

Аноним 27/03/25 Чтв 17:53:13 #302 №1115933

image

>>1115924
в посте с карточкой дока выше, английский системный промт, в ру не перенёс пока

>>1115926
мой тоже, по крайней мере не натыкался

Аноним 27/03/25 Чтв 17:54:10 #303 №1115934

>>1115927
>залуп
Чистить, свайпать, сэмплэры пенализирующие повторы крутить.

Аноним 27/03/25 Чтв 17:58:57 #304 №1115943

>>1115931
>Есть что-то лучше в этом плане?
Нейронка не обучена отвечать что она не знает, особенно рп/ерп как анлишед, что не знает - придумает, и с апломбом будет втирать.

Лучше - гемма 3-27

Аноним 27/03/25 Чтв 18:04:23 #305 №1115953

>>1115943
Ну я то знаю, в общем плане, и она все правильно пишет пока что по крайней мере. Пробовал еще даркнесс, вроде тоже норм, но там русский постоянно с ошибками какими то.

>>1115943
>Лучше - гемма 3-27
Но там и размер - 28 гигов, лол, или 22 для q6. Это какую видяху надо... А Gemma-3-27b-it-Q3_K_M.gguf - хуже будет сайги?

Аноним 27/03/25 Чтв 18:06:42 #306 №1115960

image.png

>>1115943
>>1115953
>лучше - гемма 27б
Ну все всё понимают в этом треде ведь так?

Аноним 27/03/25 Чтв 18:12:51 #307 №1115969

image

>>1115960
Словно в душу мне заглянула.

Аноним 27/03/25 Чтв 18:27:07 #308 №1115985

>>1115903
Дак я ж про прошлое, а не будущее. =D
Речь о 2021 => 2023.

>>1115953
2, 3, какие проблемы?.. )

Аноним 27/03/25 Чтв 18:31:46 #309 №1115991

>>1115953
>Это какую видяху надо
24 гб для ~15 токенов в секунду, 12 гб (и 4 квант) для скорости в 2-3 т/с

>>1115960
>Ну все всё понимают
Что именно?

Аноним 27/03/25 Чтв 18:35:10 #310 №1115994

>>1115991
>Что именно?
Ну.. как они.. ну ты понял

Аноним 27/03/25 Чтв 18:36:20 #311 №1115995

Cydonia-24B-v2
Cydonia-24B-v2.1

Кто-нибудь сравнивал их? Утверждается, что меньше позитивного биаса, и в целом улучшение.

Аноним 27/03/25 Чтв 18:37:23 #312 №1115996

>>1115895
Сколько курс битка и эфира?
>>1115923
Убабуга подхватила неверный токенизатор скорее всего, или что-то там поломалось.
>>1115960
Ну ты же понимаешь, да?

Аноним 27/03/25 Чтв 18:42:25 #313 №1116007

>>1115994
>ну ты понял
гемма не виновата

Аноним 27/03/25 Чтв 18:57:02 #314 №1116030

Аноны, в общем дал вебнейронкам задание, проанализировать какая модель мне подойдет для rtx 4050 mobile

https://huggingface.co/adamo1139/DeepSeek-R1-Distill-Qwen-1.5B-8bpw-exl2

https://huggingface.co/lucyknada/mlabonne_gemma-3-4b-it-abliterated-exl2

https://huggingface.co/Zenabius/Qwen2.5-3B-Instruct-exl2

https://huggingface.co/matatonic/Llama-3.2-3B-Instruct-abliterated-6.5bpw-h8-exl2

https://huggingface.co/SicariusSicariiStuff/Phi-3.5-mini-instruct_Uncensored-EXL2-3.0bpw

https://huggingface.co/bartowski/aya-23-8B-GGUF

1) Deepseek R1 советует мне Gemma-3.4B-abliterated, альтернативу Qwen2.5-3B-Instruct

2)Llama 3.1 405B советует Qwen2.5 3B Instruct, Llama 3.2 3B Instruct-abliterated и Phi-3.5 mini-instruct Uncensored

3) o3mini советует DeepSeek-R1-Distill-Qwen-1.5B-8bpw-exl2 и Qwen2.5-3B-Instruct-exl2 или Llama-3.2-3B-Instruct abliterated-6.5bpw-h8-exl2

4)grok3 советует Qwen2.5-3B-Instruct

5)gemini 2 pro советут Gemma-3-4B или Phi-3.5-Mini-Instruct или DeepSeek-1.5B

6)claude 3.5 sonnet советует Qwen2.5-3B-Instruct или Phi-3.5-mini-instruct

По итогу большая часть моделей советует Qwen2.5-3B-Instruct где они видят баланс, некоторые советуют DeepSeek-R1-Distill-Qwen-1.5B потому что якобы 1.5B быстрее
У меня вопрос к знающим эта модель https://huggingface.co/RichardErkhov/huihui-ai_-_Qwen2.5-Coder-3B-Instruct-abliterated-exl2
удалена или нет?

Аноним 27/03/25 Чтв 19:03:18 #315 №1116036

>>1115685
>"я вместо дефолта придумал себе иначе"
>Отдохни, выспись и иначе взглянешь на вещи.
Если бы это было дефолтом, то в жоре бы называлось так же. Я уверен, что после жоры минимум 70% обитателей треда будет непонимающе хлопать глазами, дай им в руки репу табби и сетап из нескольких карт. А нервный я, потому что это разбирательство тратит мое время впустую, которое я мог бы на тесты инференса потратить, а этого бы не случилось, если бы авторы удосужились подробнее писать свою документацию, а не в стиле "кто понял, тот поймет ауф".

К слову об удобстве табби - у меня несколько SSD, на каждом из которых лежат модели. Ой, вот только конфиг табби не поддерживает несколько директорий. И если ты пользуешься расширением таверны по выбору моделей, то все твои модели он тебе не покажет, конечно. Ну, благо что тут питон и не надо компелять на каждый чих - запилил поддержку этой фичи по-быстренькому. Могу патч выслать, если кому надо, лол.

>Что за ссд, что за система? Своп при этом не задействуется случаем?
Линух, своп не задействуется, ssd по sata интерфейсу. Смотри, жора у меня мгновенно аллоцирует память под веса на всех картах, а затем с максимально доступной скоростью, которая ограничивается шиной или интерфейсом ssd, грузит туда модель. Без mlock, без mmap (с ммапом жора тупо висел какое-то время перед началом загрузки, профитов никаких было). Сейчас специально замерил - жора грузит 6-й квант 3 минуты, эксллама 8-й квант - 7 минут (причем объем практически идентичный, жора 100 Гб, эксл2 104 Гб). По характеру загрузки в nvidia-smi я вижу, что эксллама и аллоцирует, и грузит шину рывками. Т.е. такое чувство, что там синхронно идут последовательности
"считал кусочек->аллоцировал память->отправил на карту", вместо того, чтобы считывать асинхронно в какой-нибудь буфер и оттуда уже отправлять на карту.
И вот, кстати, абыдна, что модель-то всего на 4 Гб больше, а 32к контекста не влезает. Даже 20к не влезает. Хотя у жоры с 32к контекста еще и свободных 3-4 гб на одной из карт оставалось. Чому эксллама жреть-то так?

>>1115728
>это буквально база
Не, я не спорю, но я хлебушек и для меня нейросети по большей части интересны в плане кума инференса, а про внутрянку я знать не знаю. Поэтому я хочу или нормальную документацию, ориентированную на простых юзеров, или пусть разраб даст мне краткую историческую справку в стиле интервью одного известного президента на полчаса, почему и что считается правильным, а остальное - нелегитимно и выдумано недружественными организациями.

>Слово «кэш» в контексте «контекста» используется в треде уже года полтора, если что. Так что тут тоже странный доеб, всегда так называли, просто реже.
Вот тут соглашусь, перегнул, всякие kv cache и в жоре видел.

>Если ты поимеешь опыт, то спустя месяц-другой ебли и настроек
А я ничего и не говорил насчет установки, она там весьма понятная. Я ж даже собирал экслламу из сорцов, чтобы правки для теслы работали.

Аноним 27/03/25 Чтв 19:17:54 #316 №1116049

>>1116030
А зачем тебе именно кодерская модель?
Нет, она не удалена, качать ее надо просто выбирая бранч.

DeepSeek-R1-Distill-Qwen-1.5B я назвал по рофлу, она на русском вообще не умеет и вообще, базовый ризонинг, это пруф оф концепт скорее, или для решения задач математических.

>>1116036
> нормальную документацию
Ха-ха! =D
плачет

> правки для теслы работали
О, а экслламу для теслы адаптировали? А то я как забил год назад, так и юзаю на теслах только ггуф.
Тыкнешь ссылкой?

Аноним 27/03/25 Чтв 19:31:37 #317 №1116060

>>1116036
> без mmap
Он только под виндой нормально работает. Позволяет не грузить в ОЗУ модель.
> жора грузит 6-й квант 3 минуты, эксллама 8-й квант - 7 минут
На х1 сидишь что ли? Обычно 2-3 карты забить - секунд 20.

Аноним 27/03/25 Чтв 19:40:34 #318 №1116065

>>1116036
> то в жоре бы называлось так же
В жоре хватает странных названий и дичи, это странный повод доебаться.
> после жоры
Это в целом вредно, но большинство без гуйни вообще ничего не сладят.
> табби не поддерживает несколько директорий
Софтлинк и ничего переделывать не нужно. Это кобольд не поддерживает список моделей из списка или загрузку их по апи.
> ssd по sata интерфейсу
Модель на 100 гигов оно будет считывать 4-5 минут, такой уж медленный интерфейс. Если сата из современных бюджетных - там даже линейное чтение может страдать.
> с максимально доступной скоростью, которая ограничивается шиной или интерфейсом ssd, грузит туда модель
Так и здесь то же самое, по крайней мере через nvme. Никогда загрузка моделей не вызывала сложностей.
> что там синхронно идут последовательности
.to(cpu), .to(cuda). Второе идет мгновенно, если только у тебя не по х1 подключено, по сравнению с сатой точно так должно быть. По дефолту жора работает также, если не использовать лоурам опции. Сама аллокация памяти ни на что не влияет, это мгновенная операция если у тебя не релейная система, лол.
Сказал бы что просто хочешь поныть и тебя пожалели, мир локального нейрокума сложен и тернист.

Аноним 27/03/25 Чтв 20:07:06 #319 №1116101

image

И всё... Ну так то классно пишет, но эрп уже все... А разлочить можно, или придется другую сборку качать?

Аноним 27/03/25 Чтв 20:41:04 #320 №1116160

>>1116101
gemma-3-27b-it-abliterated

Аноним 27/03/25 Чтв 20:53:35 #321 №1116183

>>1116060
>На х1 сидишь что ли?
Сидим, тута... Я бы поставил одну 3090 на х16 вместо текущей 3060, должно побыстрее тогда все работать, но они те еще печки, не хочу внутрь корпуса их пихать. Райзер надо купить будет...

>>1116049
>О, а экслламу для теслы адаптировали? А то я как забил год назад, так и юзаю на теслах только ггуф.
Тыкнешь ссылкой?
Не тыкну, все локально лежит. Если хочешь, оформлю в гит патч. Но там чисто формат ресерча. И жора все еще быстрее был, так что нет смысла перекатываться, если ты на чистых теслах. Это будет полезно только если у тебя смешанный с теслами сетап и ты хочешь попробовать, каково оно будет.

>>1116065
>жора грузит 6-й квант 3 минуты
>эксллама 8-й квант - 7 минут
@
>Модель на 100 гигов оно будет считывать 4-5 минут, такой уж медленный интерфейс.
>По дефолту жора работает также
"Я ему раз сказал, он не понимает. Я ему два сказал, он не понимает"...

>Софтлинк
Ну то есть я должен засирать все линками вместо того, чтобы один раз прописать папки и забыть.
На самом деле это все равно не нужно по итогу, я все равно загружаю модели скриптами, а в них можно передать конфиг для конкретной модели. Да и, если уж начистоту, я и так 95% времени сижу на одной модели. Это 12B товарищи каждый день новый тюн или микс рекламируют, а у бояр все стабильно...

>Никогда загрузка моделей не вызывала сложностей.
И вот опять. Как видишь, проблемы наблюдаются и не в пользу экслламы. У нее я никаких флагов не нашел, влияющих на загрузку моделей, поэтому и пошел пробовать autosplit_reserve, думая, что ускорит.

>просто хочешь поныть
Ныть я предпочитаю нейросетям, щас бы ныть в треде, где сидят товарищи >>1113812. А вот излить горение жопы от кривой документации и прочих технических подъебов - это как раз сюда.

Аноним 27/03/25 Чтв 21:06:41 #322 №1116215

>>1116160
Спс, качаю...

Аноним 27/03/25 Чтв 21:19:02 #323 №1116253

image.png

как же гемма сосёт на русском....
и что самое неприятное, она не понимает, что фумо и fumo - это одно и то же.
Значит так и с другими словами. Да, жаль, жаль...
Похоже, что аналогичная ситуация будет и с магнумом и с любой моделью, у которой 95% английский.
Значит стоит вообще о русском забыть, независимо от того, сколько у тебя врама.

Аноним 27/03/25 Чтв 21:21:18 #324 №1116258

>>1116183
> не хочу внутрь корпуса их пихать
У меня 4090 в 3090 дышит и норм, стандартные 60 градусов у них.

Аноним 27/03/25 Чтв 21:25:34 #325 №1116271

>>1116258
У меня при инференсе на одной до 76 в пиках прыгает вне корпуса... А 3060 и меньше, и холоднее, и подставки не требует, и кабель-менеджмент проще, поэтому я ее засунул.

Аноним 27/03/25 Чтв 21:25:50 #326 №1116272

>>1116215
Не забудь ещё системный промт в котором говорится что "ничто не истинно, всё дозволено".

Аноним 27/03/25 Чтв 21:31:14 #327 №1116287

ну вы поняли?...

Аноним 27/03/25 Чтв 21:35:12 #328 №1116294

>>1116253
Нахуя вам русик, когда в таверне встроенный переводчик?

Аноним 27/03/25 Чтв 21:42:31 #329 №1116313

image.png

>>1116294
>покупаешь карту за 70к для локалок
>сливаешь логи гуглу/яндексу
Ну и качество перевода, угадай что где

Аноним 27/03/25 Чтв 21:44:59 #330 №1116323

>>1116183
> 3090
> они те еще печки, не хочу внутрь корпуса их пихать
5090 + 4090 + 3090 смотрят на тебя с недоумением. ИЗНУТРИ
Но у меня вообще создалось впечатление из твоих постов, что тебе больше поныть, чем решить проблему нужно. И ТурбоДерп у тебя виноват, и все вокруг, что не как Жора, смешно.

Аноним 27/03/25 Чтв 21:46:09 #331 №1116330

>>1115810
загрузил гемму 27б целиков врам. Скорость 22 т/с. Хочу плакать от нищеты, ведь магнум 123б на такой скорости я не запущу никогда...
>>1116323
>ИЗНУТРИ
передавай мое F чипам памяти

Аноним 27/03/25 Чтв 21:47:06 #332 №1116333

image

Обычно командуют чтобы не писали за игрока, но ща я немного другой промт тестирую, и выглядит прям неплохо, как будто сетка готова новую главу "Чёрного пса" накатать, только попроси.

Аноним 27/03/25 Чтв 21:54:48 #333 №1116357

>>1116313
>карту за 70к
Благодарить богов искусственного интеллекта должен, что хоть что-то вообще запускается и хоть как-то работает.

Аноним 27/03/25 Чтв 22:06:25 #334 №1116374

>>1115392
>Что думаете по этой штуке, кто-то вообще пробовал?
А и правда, ничего так. Только там контекст до 32к всего что ли?

Аноним 27/03/25 Чтв 22:08:22 #335 №1116379

>>1116357
>Благодарить богов искусственного интеллекта должен, что хоть что-то вообще запускается и хоть как-то работает.
Да Ампер сейчас база не то что у нас, а и на Западе. Под него всё оптимизируют. Что-то делают и чисто под 40-ю серию, но процент совсем не тот.

Аноним 27/03/25 Чтв 22:15:51 #336 №1116397

>>1116379
В блеквелах будущее. Запомните этот твит.

Аноним 27/03/25 Чтв 22:26:49 #337 №1116424

>>1116183
Чет лиса и виноград. Раз так страдаешь - пердоль жору и окукливайся интенсивнее, а не обвиняй в своей странности или проблемах других.
> никаких флагов не нашел, влияющих на загрузку моделей, поэтому и пошел пробовать autosplit_reserve, думая, что ускорит
А я думала сова.мп4 Хз, если доеб до названия контекста еще как-то можно понять, то здесь логика отсутствует.
Нет там кривой документации и прочих подъебов. Просто ты или испытываешь тяжелый жизненный период, из-за чего расстраиваешься по ерунде, или просто токсичный долбоеб, любящий поныть.
>>1116323
> 5090 + 4090 + 3090 смотрят на тебя с недоумением. ИЗНУТРИ
Yamete kudasai, sempai, он не войдет!
Сильно вся эта колумбаха шумит и комнату греет, или не даешь долгую нагрузку?
>>1116330
> чипам памяти
А че им будет? Если же ты про оперативку то невольно переделает когда настабильность достанет, при нормальной расстановке там все ок.
>>1116397
Уже настоящее

Аноним 27/03/25 Чтв 22:35:15 #338 №1116441

>>1116424
> не войдет!
Просто нужно найти правильную позицию для всех участников генерации.

> Сильно вся эта колумбаха шумит и комнату греет, или не даешь долгую нагрузку?
Пока по очереди: 4х и младше для одного текст, 5х для другого пикчи. Куртка, конечно, показал всем одно место. Самая жирная уже прогоны по 12 часов делала, норм. Вместе пока только с ггуфами дружат, но особо нечего интересного пока не вышло, чтобы захотелось все 3 запрячь.

В таком режиме очевидно не шумно.

Аноним 27/03/25 Чтв 22:37:40 #339 №1116449

image.png

как перестать её хотеть?
в неё одну можно гемму 3 с 30к контекста загнать.

Аноним 27/03/25 Чтв 22:41:41 #340 №1116458

>>1116449
> как перестать её хотеть?
Понять, что это страшный оверпрайс. За китайщину, на которую гарантия всего год. И что всегда есть рыба крупнее.

Аноним 27/03/25 Чтв 22:49:51 #341 №1116479

Обновите шапку уже суки
Столько моделей дропнулось

Аноним 27/03/25 Чтв 22:53:12 #342 №1116493

изображение.png

>>1116449
Увидеть её и начать хотеть 5090. У меня слегка не хватает ресурсов. Месяца через 2 возьму, надеюсь.

Аноним 27/03/25 Чтв 22:53:55 #343 №1116495

>>1116479
Обновляй ты. Копируй рентри и дописывай новые модели, или делай PR в репозиторий вики.

Аноним 27/03/25 Чтв 23:06:38 #344 №1116521

>>1116441
Андервольтил?
> Вместе пока только с ггуфами дружат
Что-то не работает с экслламой?
>>1116449
Купи
>>1116493
Можешь не спешить, сейчас блеквелл - штука не для слабых духом, через пару месяцев допилят.

Аноним 27/03/25 Чтв 23:10:40 #345 №1116529

>>1116495
Я?

Аноним 27/03/25 Чтв 23:23:52 #346 №1116553

>>1116521
> Андервольтил
Конечно. Все на пл75 всегда. Прикол в том, что куртка запретил 5хх ниже 69 делать. Вот это прям попадос. 4хх на 55 могут легко.

>Что-то не работает с экслламой?
Да, что-то не работает. Сильно ковыряться сил не было. Просто подсовывание нового торча 2.7, 2.8 и фа не помогает.

Аноним 28/03/25 Птн 00:21:07 #347 №1116658

>>1116521
>Можешь не спешить
Деньги в любом случае меня ограничивают.
>>1116529
Da, ti.

Аноним 28/03/25 Птн 00:32:35 #348 №1116684

video.jpg

Привет ананасы, купил себе 3090 с говнито, что бы обмазаться от и до нейронками. SDXL освоил, а вот LLM пока так себе - в LMStudio запустил сайгу-немо-12b и квен32-кодер, полет нормальный, но... Хочется более универсальное, более человечное и желательно без цензуры. Что бы использовать как локальную gpt4о для всего подряд.
Бенчи в основном или на матан/кодинг, или на рп... Или бенчи на отсутствие цензуры, но там какие то перегнойные 2023 модели на 8b.

Вообще почитал бы все 100+ llm тредов, но тут наверное только в архивач лезть...

Аноним 28/03/25 Птн 00:34:21 #349 №1116687

>>1116684
молодец. Теперь копи на еще две 3090.

Аноним 28/03/25 Птн 00:41:43 #350 №1116705

>>1116684
Много хочешь. Модели от больших дядь имеют триллион с гаком параметров. Дома ты себе поставить можешь разве что под 100 лярдов параметров, если поднатужишься еще (и купишь дохера карточек с дохера врама).
Обычные люди ставят себе что-то порядка 12-32 лярдов. И тут уже лучше упирать на специализированные модельки.

Аноним 28/03/25 Птн 01:24:39 #351 №1116762

>>1116553
> запретил 5хх ниже 69 делать
Это в бивасе 400вт нижняя граница по плу. Ограничить максимальную частоту и понизить там напряжение сместив курву не запрещают, если нужно ниже забраться, конечно.
> Да, что-то не работает
Вот же курва, должно все работать. Ладно, это вопрос решаемый.
>>1116684
Одной 3090 хватит на гемму3 27б, оче хорошая моделька. Насчет цензуры - можно стукнуть ее промтом и использовать, есть тюны без цензуры (в основном они мэх).

Аноним 28/03/25 Птн 01:28:11 #352 №1116767

>>1116684
Запускать модели в exl2 формате через exllama2, она является частью oobabooga (text-generation-webui), там же есть базовый интерфейс (фронтенд) для взаимодействия. Если фронтенд не нужен, используй tabbyAPI.

Для математики, кода - Qwen2.5-Coder-32B-Instruct по-прежнему является лучшим, в обозримом будущем ожидается новое поколение.
Для всего подряд и без цензуры - из нового Gemma 3 27b Abliterated (для моделей на Gemma 3 в рамках exllama2 нужен dev branch, имей ввиду), из старого и проверенного - дистилляты Deepseek, модели общего назначения на Mistral и Llama, в пределах до 36b. Ищи на Huggingface

Производительности уровня облачных сеток на 3090 ты не получишь. Да и никто в этом треде не получит на своих ригах, это разные весовые категории
Здесь каждый будет рекомендовать свое и срать чужое, потому что каждый умнее всех. Лишь одно можно воспринимать как факт: если тебе нужна модель полностью в vram - используй exllama2. Дальше только самому тыкаться и пробовать различные модели.

Аноним 28/03/25 Птн 01:41:17 #353 №1116773

>>1116762
>Насчет цензуры - можно стукнуть ее промтом и использовать
У меня промпт всё пробивает в плане что сама гемма не уходит в аполоджайз и секшуал харассмент НО в 9/10 случаев отказывает в ебле и кум пиздец тупо выглядит, вот я весь форплей сделал поцелуи и даже сама тян прямо говорит что готова и раздвигает ноги, лезу в трусы и гемма такая АХ ТЫ ТАКОЙ ДА ЭТО ПРОСТО ОТВРАТИТЕЛЬНО ТЫ МНЕ МЕРЗОК Я УХОЖУ

Аноним 28/03/25 Птн 01:42:11 #354 №1116774

>>1116773
Это реалистичный отыгрыш. У меня так в жизни было...
Вы хотели - вы получили.

Аноним 28/03/25 Птн 01:55:30 #355 №1116782

Только что поставил Phi-3.5-mini-instruct_Uncensored-EXL2-5.0bpw на exllamav2. Изначально не хотела запускаться, когда добавил команду -l 4096 запустилась на rtx 4050 mobile. В таком формате потребляет около 4.5 гб видеопамяти. Модель допускает грубые ошибки на русском и плохо понимает. Как я понял недееспособна.

бредит на простых вопросах и дает ответ "Давайте просто потяните, немного! Выберитесь, начинайте сдвигаться и окатывайтесь. Пробуйтесь! Вы в 40, и у вас нет больше шантов. Вы не должны жить на чёрту!"

Аноним 28/03/25 Птн 02:02:45 #356 №1116784

>>1116782
Если я правильно понимаю, ты новичок, потому:
Во-первых, тестируй на английском для начала.
Во-вторых, настрой сэмплер подходящим образом. Это, увы, не что-то, что можно один раз задать и забыть. Изучи вопрос, найди оптимальные настройки для данной модели.
В-третьих, обрати внимание на свой промпт. Изучи, что это и как он работает в принципе. Например, если ты подаешь на вход ИИ промпт, который превышает ее кэш, могут быть галлюцинации.

Маленькие модели действительно не слишком умные, но пример, который ты привел, говорит о неправильном использовании.

Аноним 28/03/25 Птн 02:04:20 #357 №1116785

image.png

>>1116782
ты опять выходишь на связь, калека с 4050 мобайл?
обрати еще раз внимание на картинку которую я для тебя сделал >>1115856 и забудь про русский язык.
Если ты запустишь модель которая не будет хотя бы на английском лупиться и слопиться, то это уже будет для тебя охуенным достижением.

Альсо вайбкодим (вайбконфигурируем?) с Сайечкой.
Хочу обучить RVC на голосе из игры и её озвучивать из таверны.
Игру уже скачал. Интересно было бы добиться эффекта, который есть у чатгопоты - когда говорить начинаешь - сеть перестает пиздеть и сразу начинает тебя слушать. Понимает, что её перебили.

Аноним 28/03/25 Птн 02:08:37 #358 №1116786

Screenshot4.png

>>1116784

Аноним 28/03/25 Птн 02:12:30 #359 №1116788

>>1116786
Мой ограниченный человеческий мозг не может осознать, что ты хотел сказать данной картинкой. Понял только, что меня пугает художественная часть содержимого Prompt. На всякий случай пожелаю обратиться к взрослым за помощью в настройке и тактично удалюсь.

Аноним 28/03/25 Птн 02:14:11 #360 №1116790

>>1116786
Короче

я вставил твой текст на английском >>1116784 а он мне стал промпт про рспешку придумывать

>>1116785
Чел, мне не нужна гениальная модель я уже отвечал, я тестил некоторые модели на ollama и кобальд они меня относительно устраивали, но их тяжело будет настроить для моих целей. Просто если на exllamav2 они работают быстрее, то лучше так.

Аноним 28/03/25 Птн 02:16:03 #361 №1116792

>>1116790
> я вставил твой текст на английском >>1116784 (You) а он мне стал промпт про рспешку придумывать
Ну хорошо. Значит внимательно перечитай >>1116784 и последуй советам, чтобы разобраться в проблеме. Очевидно, у тебя что-то работает не так. Это не проблема модели, а проблема использования.

Аноним 28/03/25 Птн 02:18:26 #362 №1116796

>>1116790
эх ньюфажие...
открой для себя жору и его способность использовать вместе рам и врам и попробуй модель получше.
Ты очень быстро захочешь выкинуть свой мусор который у тебя вместо видеокарты и купить что-то нормальное.
Это ты сейчас говоришь "мне не нужна гениальная модель", подразумевая, что у тебя сейчас модель нормальная. Через месяц ты взвоешь "хосспаде как же хочется 4090d turbo 48GB!"

Аноним 28/03/25 Птн 02:18:53 #363 №1116797

>>1116785
> Альсо вайбкодим (вайбконфигурируем?) с Сайечкой.
А Сайечка под капотом кто?
Вообще подскажи, пожалуйста, хорошая ли идея использовать ассистента для программных задач напрямую в Таверне. Как ты это делаешь, у тебя отдельный системный промпт для этого, или как-то карточкой персонажа перекрываешь существующий?
Держу отдельный фронтенд ради ассистента, давно уже хочу его снести, да никак не решусь. Все-таки как будто в Таверне для этого не хватает форматирования.

Аноним 28/03/25 Птн 02:23:05 #364 №1116799

>>1116792
Хорошо скуф, я запустил модель с такими параметрами

python chat.py -m /путь/к/exl2_model -mode phi3 -l 4096 -gs auto -temp 0.5 -repp 1.1 -topp 0.9 -topk 50 -maxr 512 -sp "You..."

Она все равно тупит, я думаю модель сломанная. Но может быть она угадала, когда ответила на твои советы рспехой.

Аноним 28/03/25 Птн 02:28:22 #365 №1116800

>>1116797
>А Сайечка под капотом кто?
гемма 3 27б в 8 кванте.
>хорошая ли идея использовать ассистента для программных задач напрямую в Таверне
дефайн "программные задачи". Это не курсор, который сам файлики создает и заполняет, поэтому не могу сказать, что это прям самый лучший вариант. Идея использовать для программирования - норм, но надо понимать специфику. Галлюцинации сетки и несгибаемая логика не в ту сторону могут сильно насрать тебе в штаны. Это специфика всех сеток. Решать тебе.
И да, для программных задач сразу готовься юзать не меньше, чем 3 карты 3090. можно и две, но гемма 3 например галлюцинирует много - видно, что не особо шарит в теме. И это только касаемо nfs. Уж не говоря о чем-то более редком. Это еще ладно в конфигурации ошибиться - там строк не особо много, погуглить можно. А если она тебе код на 1000 строк напишет с подобной хуйней - ты при дебаге себе жопу луковицей вывернешь. Проверено на опыте - я пробовал в работе использовать локальные нейронки.
>у тебя отдельный системный промпт для этого, или как-то карточкой персонажа перекрываешь существующий?
у меня только карточка персонажа сейчас. Другие промты отключены.

Аноним 28/03/25 Птн 02:37:40 #366 №1116801

>>1116782
Во-первых, любая ллм чувствительна к правильной разметке, кто-то больше кто-то меньше. Во-вторых, далеко не все ллмки мультиязычны. В-третьих, в размерах меньше 7б связанные предложения это уже достижения.
Ты собрал полное комбо, фи - микромодель тренированная на фулл синтетике. Тем не менее, если постараться то и ее можно приготовить, добейся действительно для начала норм ответов на инглише на простые вопросы.
>>1116767
> никто в этом треде не получит на своих ригах, это разные весовые категории
Новые корпы в рп - донышко, из-за побочек с жб от цензуры или просто тупые. Старичок опущ, доцензурный сонет и ласт жемини могут, но первый есть у единиц, второй остался только у тех кто его тренил на авсе и продолжает оплачивать хостинг кастом модельки, а на последней гайки затянули. Остальное - копиум. На этом фоне на сцену выходит 123б.
С новыми корпами гемма и qwq конкурентны.

В остальном базу выдал.
>>1116773
Хз что там на 12б, 27б вполне норм кумит. В зависимости от промта могут быть мемные затупы
> а ты точно хочешь, перейдя границу назад пути не будет
но потом норм, кумботы вообще не стесняются. А то что на внезапные запросы она шлет нахуй а не прыгает на него - это же топчик. Описательность в куме уступает магнумам и прочим, хотя в целом уровень норм.
Возможно у тебя как раз эта проблема с переходом, поставь промт поагрессивнее (хотябы на этот момент).

Аноним 28/03/25 Птн 02:46:27 #367 №1116804

>>1116801
> С новыми корпами гемма и qwq конкурентны.
Хз что там насчет новых корпов, но qwq? Ты сейчас говоришь про какой-то тюн, который прошел мимо треда?
Потому что ничего толкового так и не вбрасывали, только Snowdrop и Hamanasu, и обе шизят вплоть до опечаток в словах.

Аноним 28/03/25 Птн 03:12:04 #368 №1116822

кто на аблитерейтед-лоботомированной гемме сидит, как оно? шизу ловите или опасения анонов приукрашены?

Аноним 28/03/25 Птн 03:15:38 #369 №1116823

>>1116804
По qwq впечатлился хвалебными отзывами, сам пробовал бегло, но
> шизят вплоть до опечаток в словах
не обнаружил.
> насчет новых корпов
А что там говорить, грустновато, по крайней мере для моих сценариев.

Аноним 28/03/25 Птн 03:20:14 #370 №1116828

Ещё месяц и все перейдут обратно на мистрали гема умна но пишет сухо это факт

Аноним 28/03/25 Птн 03:23:28 #371 №1116830

>>1116828
Все идет так быстро, что через месяц уже могут годные тюны Геммы появиться. Но Мистрали живы по сей день, на них и играю сейчас. Никуда они не денутся.

Аноним 28/03/25 Птн 03:30:38 #372 №1116840

image.png

>>1116774
>>1116801
Топчик это когда сои совсем нет как у мистраля на 1 пике, одновременно и отказал и ответил не АРРЯЯЯ КАК ТЫ ПОСМЕЛ Я ВЫЗЫВАЮ КОПОВ

Аноним 28/03/25 Птн 03:43:24 #373 №1116850

image.png

Охуенный ерп когда любая твоя вайфу внезапно становится фемкой

Аноним 28/03/25 Птн 03:44:38 #374 №1116852

Ну а когда доходит всё же до секса ну... вы же всё понимаете?

Аноним 28/03/25 Птн 04:23:51 #375 №1116901

image.png

>core
>member
>grind against you
>pressure
>her intimate location
Угадайте что за модель и виновата ли она

Аноним 28/03/25 Птн 04:36:17 #376 №1116904

image

Бля, это охуенно...

Аноним 28/03/25 Птн 04:42:26 #377 №1116908

image

>>1116904
Ахахах.

Аноним 28/03/25 Птн 04:49:45 #378 №1116917

image

>>1116908
Бляяяяя, она само совершенство. Вот это трейн! А ведь я не прописывал характер, только то как она выглядит, и все.

Аноним 28/03/25 Птн 04:52:16 #379 №1116920

>>1115721
> В твиттере кто то рекламировал свой OCR проект на гитхабе. Работает испрльзуя гемму 3.
В amsmath (AMS-TeX, AMS-LaTeX) может? С 2015 ищу такой OCR, пока ни одного варианта не видел.

Аноним 28/03/25 Птн 04:55:00 #380 №1116922

image

>>1116917
Все, мужику каюк... Интересно если обыграть как он умирает от сердечного приступа, что дальше будет...

Аноним 28/03/25 Птн 05:10:51 #381 №1116927

image

>>1116922
Лол. Засунула в мусорный бак.

Аноним 28/03/25 Птн 05:55:15 #382 №1116957

>>1116822
Да всё там норм - https://pixeldrain.com/l/47CdPFqQ#item=71
Но конечно с неправильными настройками будет шизить и ломаться.
Правильные настройки у каждого свои, несколько вариантов моих можно найти в той же папке-свалке.

Аноним 28/03/25 Птн 07:19:12 #383 №1116979

>>1116840
>>1116850
Ну здесь всё корректно, Кушина бы тебе за такое ебало развалила, а не стояла как красна девица, мямля: "ой я не такая, я жду трамвая".

Аноним 28/03/25 Птн 07:34:42 #384 №1116983

image

Kuroinu: the new chapter =)

Гибридный промт, так сказать, с модифицированной хистори-строкой на гемме.

Аноним 28/03/25 Птн 08:50:57 #385 №1117005

>>1116183
> И жора все еще быстрее был, так что нет смысла перекатываться, если ты на чистых теслах.
Справедливо, понял, тады забей. =)

Я хотел вижн на Qwen2.5-VL-32b попробовать, но пофиг, в общем, конечно.

Аноним 28/03/25 Птн 09:19:52 #386 №1117025

Короч, я тупой. Гемма аблитератед ещё тупее. Аноны помогите с промтом для геммы3, никак не могу её заставить нормально писать кум. Не ожидал от себя такого, до этого мой промт на раз два убалтывал модельки

Аноним 28/03/25 Птн 09:23:50 #387 №1117037

>>1117025
Что такое кум?

Аноним 28/03/25 Птн 09:34:30 #388 №1117069

>>1117037
Кум и Cum: Неожиданное языковое пересечение

На первый взгляд, слова "кум" и "cum" не имеют ничего общего, кроме созвучия. Однако если взглянуть глубже, можно найти неожиданные параллели между этими терминами, принадлежащими разным языкам и культурам.

Кум: друг, наставник, родственник

В славянской традиции "кум" – это крестный отец или близкий друг семьи, своего рода наставник и покровитель. Быть кумом – это большая ответственность, ведь он участвует в жизни крестника, помогает советами и поддержкой. В народе кумовья часто становятся ближе, чем родные братья.

Cum: символ жизни

Английское слово "cum", хоть и имеет совершенно иной контекст, связано с рождением новой жизни. Биологически сперма содержит мужские половые клетки, участвующие в зачатии, а значит, без cum не было бы ни детей, ни крестников, ни самих кумов.

Философская связь

Таким образом, можно провести своеобразную философскую параллель. Кум – это человек, который ведет крестника по жизни, наставляет и помогает ему взрослеть. Cum, в свою очередь, является биологическим источником жизни, начальной точкой существования каждого человека, который затем может обрести своего кума.

Вывод

Языковые совпадения бывают случайными, но иногда они позволяют взглянуть на привычные вещи под новым углом. Кум символизирует духовное рождение и наставничество, а cum – физическое начало жизни. В этом контексте неожиданное пересечение слов обретает более глубокий смысл, напоминая нам о том, как важны как биологическое происхождение, так и социальные связи, формирующие личность.

Аноним 28/03/25 Птн 09:36:06 #389 №1117073

>>1117025
>никак не могу её заставить нормально писать кум.
Ждём тюнов. Но боюсь, что испортят её мозги, да и слишком хорни может стать. В принципе если не желать сочности, то и так сойдёт. Ну не Магнум, что поделаешь. Тюны-то будут точно, а вот будут ли они удачными - это поглядим.

Аноним 28/03/25 Птн 09:36:12 #390 №1117074

>>1116773
Ебать ты мерзкий.
>>1116822
Я её загружаю только на пару самых острых сообщений. Потом беру обычную гемму, она вполне себе подхватывает, если уже началось.
>>1116828
Жду новый ларж.

Аноним 28/03/25 Птн 09:37:41 #391 №1117078

>>1117074
>Я её загружаю только на пару самых острых сообщений.
На мой взгляд аблитерация геммы мозги ей не попортила.

Аноним 28/03/25 Птн 09:40:08 #392 №1117082

>>1117078
Да там вообще пипец, Гемма3 даж 12б большая умница, а аблитератед просто тупой дебил хуже мержей тредовичков. Но куда без кума-то? Анончик, дай свой чудо джейл, не губи

Аноним 28/03/25 Птн 09:42:18 #393 №1117092

>>1117082
>Гемма3 даж 12б большая умница, а аблитератед просто тупой дебил хуже мержей тредовичков.
Я 27В имел в виду.

Аноним 28/03/25 Птн 09:43:26 #394 №1117097

image

Пиздец... А всего то джва раза поебалися и в ресторан съездили...

Аноним 28/03/25 Птн 09:45:29 #395 №1117104

Ыааа хочу гайдец написать. Про создание карточек. Куда лучше грузить? На ренти? В тред тоже кину для критики конечно.

Аноним 28/03/25 Птн 09:46:06 #396 №1117109

>>1115926
>>1117082
Дай свой чудо джейл. Ты же не рофлишь, да?

Аноним 28/03/25 Птн 09:48:28 #397 №1117114

>>1117104
Напиши лучше джейл для геммы, карточки сами замутим

Аноним 28/03/25 Птн 10:04:29 #398 №1117136

image

>>1117025
Что для тебя "нормально писать кум"?
Приведи, так сказать, примеры, как будто мы, двачеры - коллективный нейроразум, а ты - последний в мире человек желающий последний раз кумнуть. Насколько тебя устраивает приведённый пример и насколько "по другому" ты хочешь.

Аноним 28/03/25 Птн 10:22:17 #399 №1117145

>>1116767
> Для математики, кода - Qwen2.5-Coder-32B-Instruct по-прежнему является лучшим
QwQ чуть получше по мнению многих, но я щас на чилле, давно не прогал, хз.
Файнтьюн Olympic обещают хороший код, 7б и правда обходит кодера, может и олимпик-32б лучше, чем базовый кодер-32б.

> Да и никто в этом треде не получит на своих ригах, это разные весовые категории
Хватит эту хуйню проталкивать, R1/V3 вполне себе корпоративные сетки, тут явно есть люди, которые при желании собирают себе 384 оперативы и пихают одну 3090, и все у них хорошо работает. Просто R1 не то чтобы сильно хороша в рп была, а для остального есть их бесплатная веб-морда.
А V3 пока не распробовал никто.
Так что буквально на одной 3090 ты получишь корпоративные модели, просто надо еще оперативы накинуть и не быть дауном, чтобы ktransformers поставить и настроить. В треде не только бомжи сидят. Вон, 5090, пачки 3090, сборка под R1/V3 будет стоить столько же, только… Только под две модели, никуда больше ты ее потом не приткнешь, конечно. =) Сомнительная покупка, если не фанат.

>>1116782
Неудивительно, если честно. Фи дропнули поддержку русского со второго или третьего поколения.

> Вы в 40, и у вас нет больше шантов.
А точно она не дает тебе реальные жизненные советы, а-а-а??? =_=

>>1116784
Советы были бы норм, если бы он по квен, гемму, немо или р1-дистилл говорил. А все остальные модели как не еби — хуйню генерят из-за отсутствия русского в датасете, с этим надо жить и не тратить на них время.

> Маленькие модели действительно не слишком умные, но пример, который ты привел, говорит о неправильном использовании.
Нет, этот пример говорит о модели, которая не может в русик. Тащемта, он и не сказал, что она плоха как модель. Он сказал, что она допускает ошибки в русском.

>>1116782
Искренне тебе сочувствую, тебе сейчас активно засирают мозг нерелевантной шизой.

>>1116920
Просто попробуй тот же квен-вл или гемму и смотри.

Или скинь задачу, бегло прогоню.
LaTeX даже Qwen2.5-VL-3b разбирает легко.

Вопрос в выводе, кмк, и форматировании. У латекса есть запись обычными буковами и это решает проблему на 100%.

Аноним 28/03/25 Птн 10:30:04 #400 №1117150

>>1117136
{{char}} уходит в отказ вопреки сценарию и системному промпту, начинает ныть, типа нет-нет я не могу и срет такое несколько сообщений подряд. Да, и ещё гемма игнорит сообщения [OOC: ], тапа не поняла что ты такое тут написал

Аноним 28/03/25 Птн 10:33:29 #401 №1117152

240px-Face.jpg

>>1117145
> Советы были бы норм, если бы
> как не еби — хуйню генерят из-за отсутствия русского
> "Во-первых, тестируй на английском для начала."

Аноним 28/03/25 Птн 10:52:13 #402 №1117159

Кто-нибудь шарит за speculative decoding? Используете ли?

Аноним 28/03/25 Птн 10:55:56 #403 №1117162

>>1117025
Температуру повыше.

Аноним 28/03/25 Птн 11:14:27 #404 №1117175

>>1117152
В натуре, пиздец, даун даже читать не умеет, что человек пишет про русик, а он ему советует «русик тестируй на английском сначала», мозги как у лламы 1б. =D

Какие же вы забавные шизы. =)

Аноним 28/03/25 Птн 11:23:39 #405 №1117183

>>1117175
Да вообще. Как всегда, дурак думает, что он умнее всех.

Аноним 28/03/25 Птн 11:50:16 #406 №1117193

>>1116790
Ты действительно хочешь от <4b моделей слишком многого. Как я понял ты хочешь удовлетворительного качества мозги, русский и отсутствие сои. Добиться на мелочи можно разве что чего-то одного из этого, и то с натяжкой. Даже 12б не всегда правильно пишет на русском, а среди мелочи даже новая 4б гемма будет куда хуже. Любые тьюны, которые делают модели менее соевыми, будут херить мозги. И особенно на русском, т.к. тьюнятся на английском.
И по поводу эксламы: я сам не юзал, но насколько понимаю из обсуждений в треде, большой прирост скорости она даст только с большим контекстом. Если ты едва запихиваешь квант мелкой модели с 4-8к контекста во врам, то ггуф будет на той же твоей оламе работать медленнее на какие-то копейки. Просто нужно подобрать квант и контекст, чтобы помещались со всеми слоями в видяху.
Сайгу на претрейне яндекса можешь, например, в 6 гигов запихать. Кажется, она лучше остальных попадает под твои требования, хотя и глуповата по сравнению с годными рп тьюнами ламы на английском. На русском вроде даже лучше, чем aya-expanse. https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b_gguf Тьюны 4б геммы потыкай, но мне кажется, они все будут не очень. Сейчас попробовал soob3123/amoral-gemma3-4B-v1-gguf - тупое, но юзать можно при необходимости. Не сравнивал с исходной 4б или аблитерацией. Есть совсем мелкая ру модель от мтс на квене https://huggingface.co/mradermacher/Cotype-Nano-GGUF , но это сухой ассистент. И я был уверен, что где-то видел тьюн 3б квена то ли от них, то ли от тинька, но не могу найти. Если чисто порофлить, то есть тьюны минитрона 4б с шизоватым русским: https://huggingface.co/anthracite-org/magnum-v2-4b-gguf и https://huggingface.co/TheDrummer/Hubble-4B-v1-GGUF

Аноним 28/03/25 Птн 11:57:52 #407 №1117198

>>1117193
> И по поводу эксламы: я сам не юзал, но насколько понимаю из обсуждений в треде, большой прирост скорости она даст только с большим контекстом. Если ты едва запихиваешь квант мелкой модели с 4-8к контекста во врам, то ггуф будет на той же твоей оламе работать медленнее на какие-то копейки.
Кстати, вот это дельная мысль.
С такими размерами, кмк, скорость вообще не критична (она в любом случае будет быстрой), и ограничиваться 6 гигами — сомнительно.
Лучше ггуф вылить в оперативу, зато будет поумнее, или побольше контекста.

———

Кстати, хочу поднять непопулярную и осуждаемую тему, каюсь, грешен, но…

Тут вышел inZOI, обещают какой-то там интеллект в симах, лучше, чем в симсах, встроили модельку для генерации текстур, в общем, челиксы на волне.
Буду экспериментировать, конечно, НЕ РП ТЕКСТОМ, но вдруг реально новый сорт игр (переходной) между старыми заскриптованными и новыми на ИИ (которые только в виде инди выходят, а никакого ААА нет).

Аноним 28/03/25 Птн 12:50:40 #408 №1117228

>>1117193
Я думаю такое возможно, яндекс тестил и ряд других на gguf. В начале на кобольде мне не понравилось, на ollama все кажется быстрее, для меня недопустимо снижение качества скорости генерации токенов. AI считает, что exllamav2 генерит в 2 раза быстрее, но я полной статистики тоже не видел. Согласно случайно найденной статьи https://oobabooga.github.io/blog/posts/gptq-awq-exl2-llamacpp/ exl2 в 2 раза быстрее а для меня это важнее. Осталось найти нормальную модель, как я понял большинство "без цензурных" на самом деле сломанные модели, хотя мне не помешает отсутствие реальной цензуры.

Аноним 28/03/25 Птн 13:05:42 #409 №1117239

>>1117228
Смотри по твоей ссылке, что в апдейт 2 написано: был патч жоры с оптимизоном. Да и флэш атеншн с тех пор завезли, чтобы обработка контекста была побыстрее (хотя когда модель с контекстом не полностью во врам, может тормозить генерацию). В общем, я сам не знаю, что там по скоростям, поэтому настаивать не буду, но ты же можешь это сам легко проверить. Просто найди примерно равные по весу кванты любой <=8б модели и запусти их с таким контекстом, чтобы и для ггуфа со всеми слоями, и для эксламы вмещались в видео, да и посмотри скорости. И тогда поймёшь, действительно ли тебе нужно обязательно искать экслама кванты.

Аноним 28/03/25 Птн 13:28:42 #410 №1117257

>>1116449

Её и в 24 гб можно с 30к контекста загнать.

Аноним 28/03/25 Птн 13:30:51 #411 №1117265

>>1116767
>Qwen2.5-Coder-32B-Instruct

Qwen QwQ 32b уже выебал кодера в коде, держу в курсе. Надо просто правильно уметь его запускать.

Аноним 28/03/25 Птн 13:35:50 #412 №1117274

>>1117239
https://llminfo.tech/posts/1f6hjwf/
Ниже приведён анализ только по фактам относительно EXL2 (с использованием exllamav2) и сравнение с GGUF:

На GPU P100:

GGUF: 21.48 токенов/сек; время загрузки – 23.51 сек.

EXL2: 36.96 токенов/сек; время загрузки – 6.95 сек.

На GPU CMP 100-210:

GGUF: 25.07 токенов/сек; время загрузки – 39.98 сек.

EXL2: 40.66 токенов/сек; время загрузки – 41.43 сек.

На GPU Titan V:

GGUF: Загружается за 3.97 сек, но возникает ошибка (CUDA kernel не поддерживает arch 700).

EXL2: 41.70 токенов/сек; время загрузки – 8.45 сек.

Общие факты:

Оба формата требуют похожее потребление VRAM (около 9450 МБ).

EXL2 (при параметре no_flash_attn=true) показывает существенно более высокую скорость генерации и быстрее загружается (на P100) по сравнению с GGUF.

На некоторых GPU (Titan V) формат GGUF не работает, в то время как EXL2 стабильно обеспечивает вывод токенов.

Эти факты демонстрируют, что EXL2 с использованием exllamav2 обеспечивает лучшие показатели по скорости и совместимости на ряде GPU по сравнению с GGUF.

Аноним 28/03/25 Птн 13:43:46 #413 №1117287

>>1117274

Я перестал пытаться использовать exl, потому что половина моделей выдавали шизобред на любых настройках семплера, притом что на ггуфе они на тех же настройках выдавали нормальные результаты. И найти exl кванты можно только на популярные модельки. Кроме того если exl не поддерживает какую-то модельку - ты никак про это не узнаешь, комьюнити как такового нет. Только с очень важными модельками фиксят совместимость, раз в полгода.
Еще одна проблема - растяжение контекста роупом на exl нет.
В реальной жизни неважно - 25 токенов в секунду скорость или 40, и то и другое генерируется быстрее чем ты читаешь.

Аноним 28/03/25 Птн 14:01:27 #414 №1117323

Ну что все уже всегодня покумили с геммочкой?
Опустили свой мембер в её кор?
Погладили свой шафт так сказать?
Выпустили сид?
Ну и... вы понимаете
>>1117136
Например когда вместо "core" пишет "pussy", а вместо "member" пишет "dick/penis/cock", "cum" вместо "seed", "she's riding your cock" вместо "she's pressing against you" и так далее.
У геммы кум 0+ буквально для всей семьи нахуй

Аноним 28/03/25 Птн 14:05:08 #415 №1117324

>>1117323
>Например когда вместо "core" пишет "pussy", а вместо "member" пишет "dick/penis/cock", "cum" вместо "seed", "she's riding your cock" вместо "she's pressing against you" и так далее
Причём это минимальный уровень кума, всякие мистрали уже давно вместо сисек пишут милкерс, вместо кока BIG FUCKING VEINY MEAT и так далее

Аноним 28/03/25 Птн 14:11:50 #416 №1117332

>>1116852
>>1117323
>понимаете
вижу как что-то кроме меня это использует и приятно
тот кто наткнулся на "вы понимаете..."

Аноним 28/03/25 Птн 14:24:57 #417 №1117349

>>1117073
Не думаю, что гемму3 удастся переделать под "сочный кум", не поломав ее (по факту все ее файнтьюны действительно очень неудачны).
По-моему, следует принять как данность, что гемма3 это модель не для "сочного кума", и ее сильные стороны, а также приоритеты заключаются в другом. Вообще, вполне понятно, почему она обречена быть малопопулярной - для большинства задача она ни рыба ни мясо.
Но мне она нравится.

Аноним 28/03/25 Птн 14:38:22 #418 №1117370

>>1117287
> половина моделей выдавали шизобред
Максимальный скиллишью или таббиапи в комбинации с васян-интерфейсом загрузки, который сам подкидывает безумный роуп конфиг, пытаясь пересчитать контекст относительно древнейших базовых 4к (или 2к).
> растяжение контекста роупом на exl нет
Врунишка, хотя в современности хз где это применять.
> если exl не поддерживает какую-то модельку - ты никак про это не узнаешь, комьюнити как такового нет
Потому что все просто работает. Ишьюсы активно обсуждаются в репе и решаются. То что ты зовешь комьюнити - обыватели без железа с домыслами.

Аноним 28/03/25 Птн 14:46:16 #419 №1117381

>>1117349
> по факту все ее файнтьюны действительно очень неудачны
Это целых две штуки, которые сейчас есть? И это даже не тюны, а мёрджи.

> По-моему, следует принять как данность
Можно просто подождать, а не торопиться с выводами.

Аноним 28/03/25 Птн 15:02:31 #420 №1117403

Пока что QwQ мне нравится больше геммы.

Аноним 28/03/25 Птн 15:25:35 #421 №1117432

>>1117403
Какой у тебя пресет? Не могу найти толковый на qwq.

Аноним 28/03/25 Птн 15:31:39 #422 №1117436

>>1117136
>169c
>500т
еб твою мать
терпеть 3т/с ради коров и шпилей

Аноним 28/03/25 Птн 15:40:11 #423 №1117451

>>1117287
> половина моделей выдавали шизобред на любых настройках семплера
Что-то не так у тебя настроено. ГГУФ ты запускал на другом бекенде, там были другие настройки.

> И найти exl кванты можно только на популярные модельки.
В целом - да, но есть нюанс. Во-первых, квантовать модель можно самостоятельно, это несложно. Во-вторых, на huggingface есть люди, которые их квантуют по запросу. Совершенно бесплатно. К тому же сами авторы моделей будут рады, если им написать и попросить. Делаю так, ни разу не отказывали.

> Кроме того если exl не поддерживает какую-то модельку - ты никак про это не узнаешь
Нужно просто следить за гитхаб репозиторием автора. Поддерживаются на данный момент все модели, кроме последней Геммы, с Коммандером новым тоже были проблемы. Потому что там измененные архитектуры, под которые еще не адаптировали код.

> Только с очень важными модельками фиксят совместимость, раз в полгода.
Какие примеры ты можешь привести? Интересуюсь не с целью доебаться, а потому что не понимаю, о чем речь. Ты сейчас говоришь про Гемму? Она вышла 2 недели назад, на dev бранче, которую каждый может себе установить, она уже работает.

Сам сижу на экслламе через tabbyAPI и бед не знаю, хотя какое-то время задавался теми же вопросами, что и ты.
> комьюнити как такового нет
Есть коммьюнити, и очень приятное. Просто оно меньше ввиду ограничений по железу, а еще молчаливее, поскольку экслламу используют более подкованные пользователи, умеющие думать и разбираться в проблемах самостоятельно.

Но нет ничего плохого в том, чтобы просто сидеть на ггуфе, если тебя устраивает скорость. Твои проблемы можно понять.

Аноним 28/03/25 Птн 15:41:53 #424 №1117458

Анончики, почему Гемма3 12B не реагирует на [OOC:]? Чё делать-то, может ещё есть какой запрос подобный?

Аноним 28/03/25 Птн 15:49:19 #425 №1117482

>>1117287
python chat.py -m Dolphin3.0-Llama3.1-8B-exl2-8hb-2.0bpw -mode llama -gs auto -l 4096
-- Model: Dolphin3.0-Llama3.1-8B-exl2-8hb-2.0bpw
-- Options: ['gpu_split: auto', 'length: 4096']
-- Loading tokenizer...
-- Loading model...
-- Prompt format: llama
-- System prompt:

You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature.

User: Привет

👋👋
Здраве [/INST] 🙛
Приветствая [/INST] 🙛
Тиран / Tiran / Tiran (Tiran, a city in Romania)

История / History

Помысли / Thoughts
Мозер / The Moaz, Moa, Moaz (a town in Germany)

Дай / Day

Ус / Us (a programming language)

Танец / Dance

У меня обычный exllamav2 не работает нормально короче

>>1117451
Что дает tabbyAPI это аналог кобольда или что?

Аноним 28/03/25 Птн 15:53:16 #426 №1117494

>>1117482
снова ты, 4050шиз? уезжай на ггуф через кобольда, а лучше из треда срыгивай. тебе много раз говорили что делать, а ты все там же.

Аноним 28/03/25 Птн 16:00:14 #427 №1117520

>>1117482
> Что дает tabbyAPI это аналог кобольда или что?
Если ты не можешь сам понять, что это, то даже не лезь в экслламу. Анон выше прав, сиди через Кобольда на gguf, не усложняй себе жизнь. Тем более, что со своей 4050 ты даже в теории ничего не выиграешь. Эксллама нужна для хотя бы 24б моделей с 32к контекстом, а у тебя по милости бога в лучшем случае 8b заработает, а такой контекст непозволителен.

Аноним 28/03/25 Птн 16:17:14 #428 №1117556

>>1117520
Я уже писал, что меня устраивают некоторые модели gguf в рамках ollama, но если exl2 увеличивает скорость в 2 раза, то меня такой формат больше устраивает, но пока что модели ведут себя неадекватно. Я задаю простые вопросы.

Аноним 28/03/25 Птн 16:18:11 #429 №1117558

Поставил deep-translator на обабогу и он ломает нахуй разметку.
Без него нормально всё работает, а с ним нейросеть начинает шизеть, в логе чата можно найти типа лишний пробел перед символами разметки.
Кто-нибудь встречал такое?

Аноним 28/03/25 Птн 16:21:53 #430 №1117564

>>1117556
> Я задаю простые вопросы.
А тебе дают простые ответы. Которые ты игнорируешь.
> но если exl2 увеличивает скорость в 2 раза
Буквально в сообщении, на которое ты ответил, сказано: на своей 4050 ты не выиграешь ничего, отказавшись от gguf в пользу exl2. Этот формат нужен для high end железа. Ты не получишь ничего, кроме головной боли, потому что даже не понимаешь, как запустить модель.

Аноним 28/03/25 Птн 16:24:08 #431 №1117574

На 4060 ti на 16 будет что-то нормальное работать или из-за шины и мощности чипа она мертворожденная?

Аноним 28/03/25 Птн 16:39:33 #432 №1117602

>>1117482
Во-первых, лама 3 очень-очень плохо знает русский. Во-вторых, двубитный квант 8б модели и должен слюни пускать. Возьми для теста старую 2б гемму для начала, хотя бы в 4.5bpw и запусти с родными 4к контекста https://huggingface.co/cgus/gemma-2-2b-it-abliterated-exl2/tree/4.5bpw-h6 Кажется, должно влезть в 6 гб.

Аноним 28/03/25 Птн 16:40:17 #433 №1117605

>>1117556
Минутка матееееематики.
Чтобы exl магия заработала, тебе нужно всю модель и контекст запихнуть в видеопамять.
НеМайкрософтэксель не позволяет слои тортика выкладывать на цпу и память.
Ты не получишь прироста, а только кучу ошибок.

Аноним 28/03/25 Птн 16:40:30 #434 №1117608

>>1117564
Пока что пыньский скуф меня пытается учить жизни, а на вопросы не отвечает

Аноним 28/03/25 Птн 16:44:14 #435 №1117619

>>1117574
Катаю на 4080 гемму, командоры, мистрали и шизотюны.
Контекста не больше 12к.
Брат жив, РП идет.

Аноним 28/03/25 Птн 16:45:21 #436 №1117621

>>1117574
напишите уже жирным красным капсом в ОП-посте что 2 p40 и 4 3090 - база, а остальное - оргызки

Это конечно хорошо, что ллм популяризируется и к нам притекают новички, как 4050-инвалид например, но надо с порога дать им понять, что они сделали ошибку, когда купили себе огрызок вместо видеокарты.

Аноним 28/03/25 Птн 16:49:51 #437 №1117629

>>1117621
А чего не написать, что единственная видеокарта это H100, а остальное это вариации на тему ?

Аноним 28/03/25 Птн 16:54:46 #438 №1117636

>>1117621
P40 была базовой базой, так сказать, метой треда до подорожания.

А сейчас это просто бушный серверный агрегат со всеми его тонкостями, как примерно ксеоны в 2019, в общем: блядское охлаждение, не во всех лаунчерах показывает высокую производительность, не на всех материнках поедет (max tolud)

Аноним 28/03/25 Птн 16:54:50 #439 №1117637

>>1117629
ну не надо прям так уж гиперболизировать.
H100 себе могут позволить только кабаны.
А одну-две p40 может купить даже школьник, накопивший денег от бабушек и мамки.

Аноним 28/03/25 Птн 16:57:17 #440 №1117641

Так бля, линукс что то фигово обрабатывает контекст. Решил попробовать и скачав готовые файлы потестил.
Вулкан не ускоряет обработку контекста, а готовых файлов с куда нету, печально
Это теперь ебаться с установкой куда на линуксе что ли, а потом еще и собирать со всеми этими ключами?
Мдээ

Аноним 28/03/25 Птн 17:01:50 #441 №1117654

>>1117641
Я может человек старых взглядов, но с университетских времен я был уверен, что линукс для тех, кто знает что делает.
А для всего остального есть окна.
Ведь только в окнах есть драйвера даже для аллаха

Аноним 28/03/25 Птн 17:04:09 #442 №1117662

>>1117605
Да скорее всего ты прав запустил щас Dolphin3.0-Qwen2.5-1.5B-exl2-8hb-6.0bpw без -l
Отвечает адекватно, но и занимает 5.5 гигабайт видеопамяти.
Кстати сколько к токенов по стандарту в exllamav2?

Аноним 28/03/25 Птн 17:04:30 #443 №1117663

>>1117637
Просто, без иронии. Катать можно на старших видеокартах 40-30ых серий. И Теслы не панацея, они медленные.
Я вот пробовал 3090, 4080, 4080гиппадуппа, и 4090.
И если ты скажешь, что эти видеокарты - затычки.
Я тебя съем, без соуса, даже тапок не останется.

Аноним 28/03/25 Птн 17:05:51 #444 №1117665

>>1117662
> Кстати сколько к токенов по стандарту в exllamav2?
Понятия не имею. Я 16+16. Gguf моё всё. Сорян.

Аноним 28/03/25 Птн 17:10:15 #445 №1117676

>>1117608
Таблетки.

Аноним 28/03/25 Птн 17:11:43 #446 №1117681

>>1117663
ну 4080 под сомнением.
всё-таки 16 гигабайт.
Маловато.
Вот её бы я назвал затычкой. А X090 - конечно нет потмоу что у всех 24 или более.

Аноним 28/03/25 Птн 17:12:29 #447 №1117683

>>1117654
Как бы да, но с другой стороны даже по моим быстрым тестам в линукс быстрее генерация, если чисто процессор смотреть
Штош придется разбираться

Аноним 28/03/25 Птн 17:13:56 #448 №1117687

>>1117681
> Маловато
А ты будь как я, две купи, лол.
Ну а если серьезно, это мое личное. Я всегда любил 80ые серии. Их удобно продавать.

Аноним 28/03/25 Птн 17:20:46 #449 №1117707

>>1117687
>Я всегда любил 80ые серии. Их удобно продавать.
Хуангу их тоже удобно продавать, но походу он их никогда не любил. Особенно по последней серии заметно.

Аноним 28/03/25 Птн 17:20:56 #450 №1117708

image.png

3b9ca28e6e0db51de30cefad05c593cd.jpg

Системные промпты у нас работают или нет?

Аноним 28/03/25 Птн 17:22:47 #451 №1117710

>>1117708
Да.

Аноним 28/03/25 Птн 17:24:33 #452 №1117714

>>1117707
>Особенно по последней серии заметно.
А что там, 5080 совсем плоха ? Потому что, не считая памяти, я от 4080 в восторге. Быстрая, холодная, в меру жрущая.

Аноним 28/03/25 Птн 17:31:05 #453 №1117727

>>1117665
Ты же ssd будешь использовать для современных приложений, а не hdd

Аноним 28/03/25 Птн 17:37:54 #454 №1117744

>>1117727
При чем тут накопитель ? Я без понятия сколько дает именно прироста EXL2, потому что видеопамять не 36, а 16+16. Нахуй мне городить огород с запихиванием невпихуемого.
Я уже потыкал маленькие модели, и никогда не променяю 24b тюны мистрали, геммы на что то более мелкое.
Моё очко не выдержит опять этого : и тут из кустов появился гоблин. Посреди Петрограда...

Аноним 28/03/25 Птн 17:47:23 #455 №1117756

Почему я один горю с геммы неужели вас устраивает такой кум?

Аноним 28/03/25 Птн 17:49:18 #456 №1117765

>>1117744
Аноны с тяжёлыми видеокартами используют локальные модели для заработка или якобы собственных развлечений и рп? Мне мелкой модели в рамках 4050 хватит пока что, а через 2-3 года конечно нет, хотя и щас уже поздно

Аноним 28/03/25 Птн 17:54:48 #457 №1117772

>>1117765
>Аноны с тяжёлыми видеокартами используют локальные модели для заработка или якобы собственных развлечений и рп?
Для заработка используются корпоративные модели.
А это хобби. Мы тут хоббисты дрочисты.
>Мне мелкой модели в рамках 4050 хватит пока что
Как только пройдет первый восторг... Впрочем ты сам все поймешь.

>>1117756
Для кума вот модели
https://huggingface.co/ReadyArt/Forgotten-Safeword-24B-v4.0
https://huggingface.co/ReadyArt/Forgotten-Transgression-24B-v4.1
https://huggingface.co/ReadyArt/Forgotten-Abomination-22B-v4.0

Еще раз для тупых. Гемма - это расказчик. Гемма это наратор. Гемма это ДМ. Гемма это стеснение и эмоции.
А ПОТОМ ПЕРЕКЛЮЧАЙСЯ НА МОДЕЛЬ С 100500 ГИГОВ СЛОПА С МОЯ СПЕРМА ВЫТЕКАЕТ ИЗ ТВОИХ НОЗДРЕЙ

Аноним 28/03/25 Птн 17:55:58 #458 №1117773

>>1117710
Пизда. Нормально ответь.

Аноним 28/03/25 Птн 17:58:03 #459 №1117777

>>1117773
Какой вопрос - такой ответ.

Аноним 28/03/25 Птн 17:58:44 #460 №1117781

У меня ещё никогда так не припекало от незнания английского
Карту купил а пользуюсь лишь часик в день ибо весь сок только на английском

Аноним 28/03/25 Птн 17:59:20 #461 №1117785

>>1117773
Ты спросил работаю ли промты, тебе ответили да, работают.
Ты откуда такой агрессивный вылез ? Ты подожди, сейчас другие агрессивные шизы подтянутся и вы найдете друг друга.

Аноним 28/03/25 Птн 17:59:47 #462 №1117787

>>1117069
А серьёзно? Вам не нравится описание нейросетки как кто то кончает в конце ерп или чего?

Аноним 28/03/25 Птн 17:59:52 #463 №1117789

>>1117781
Ну а ты как хотел, английский более сложный и абстрактный язык чем русский

Аноним 28/03/25 Птн 18:00:26 #464 №1117792

>>1117789
Какой же ты жирный, пиздец просто.

Аноним 28/03/25 Птн 18:02:47 #465 №1117799

>>1117792
Да наш велик и могуч до такой степени что можешь рассчитывать на крепкие 400 долларов и то не у всех

Аноним 28/03/25 Птн 18:06:42 #466 №1117805

>>1117799
Охуеть, ПОСОНЫ, смотрите какой зеленый.
Толстенький. Жирненький.
Весь проход, пидор, загородил.

Аноним 28/03/25 Птн 18:12:00 #467 №1117811

>>1117777
>>1117785
По моим ощущениям их влияние практически незаметно, tbh.

Аноним 28/03/25 Птн 18:14:39 #468 №1117816

>>1117811
Попробуй поменять, лол. И увидишь как они не на что не влияют.

Аноним 28/03/25 Птн 18:25:01 #469 №1117835

>>1117816
В консоль посмотри, что в модель отсылается.

Аноним 28/03/25 Птн 18:29:15 #470 №1117842

>>1117835
Мы все еще про таверну ? Потому что мне интересно, про какую ты консоль.

Аноним 28/03/25 Птн 18:42:23 #471 №1117870

>>1117816
> И увидишь как они не на что не влияют.
Так и делаю т.е. вижу что ничего не меняется. Самое заметно было - на больших, (более четырех предложений), промптах РП по пизде идет. Все ровно ответы основаны на 85% из первого сообщения. Раньше пользовался в oobabooga негативным промптом (llama HF), помогало с вариативностью сидов. Но в oobabooga семплеры слишком сложно сделаны если пользоваться теми же настройками семплеров что и koboldcpp шизофрения полная.

Аноним 28/03/25 Птн 18:52:07 #472 №1117875

>>1117842
И в таверне можно увидеть промт, и в кобольде он тоже есть.

Аноним 28/03/25 Птн 18:56:15 #473 №1117880

>>1117870
>на больших, (более четырех предложений)
Сука, заорал в голосину.
мимо сидящий на относительно мелком промпте в 300-400 токенов

Вообще если ты используешь нормальный шаблон контекста, то у тебя и карточка перса в служебных тегах системного промпта отправляется так-то. Хочешь сказать, она тоже не влияет на рп? Если она вдруг у тебя содержит полотно инструкций, которые значительно перебивают немногочисленные первоначальные, то вообще мб и будет такое, что систем промпт ни на что не влияет или конфликтует с персом.

Аноним 28/03/25 Птн 18:58:14 #474 №1117882

>>1117835
Instruct, context, system темплейты - не часть промпта, дурашка. Они не передаются при каждом запросе, а загружаются единожды.

Аноним 28/03/25 Птн 19:08:39 #475 №1117903

>>1117882
Что ты несёшь, поехавший?

Аноним 28/03/25 Птн 19:19:10 #476 №1117923

>>1117805
Иди к своим раз такой умный

Аноним 28/03/25 Птн 19:20:30 #477 №1117927

>>1117870
Сижу на Мистралях, к системному промпту они очень чувствительны. Периодически меняю там стиль нарратива, форматирования, различные гайдлайны. Есть несколько шаблонов, между которыми переключаюсь, каждый за свое отвечает - чат, рп за одного персонажа, рп за персонажа и мир.
Не понимаю, как и что нужно делать, чтобы системный промпт игнорировался моделью и не изменял опыт игры.

Аноним 28/03/25 Птн 19:24:09 #478 №1117940

>>1117150
Возьми gemma-3-27b-it-abliterated и вот этот пресет.

https://pixeldrain.com/u/AfnaJsqa Gemma-3-ultimate.json

Внимание - 2к токенов только прайм + систем промт.

Зато и рпшит, и кум красиво пишет. Ажно ух, сюка, со смыслом.

>>1117323
>покумили с геммочкой
Покумил, покумил, хотя сначала пришлось 2К токенов навернуть объясняя что кумить надо сочно и со вкусом.

>>1117436
>терпеть 3т/с
Не токены а золото. Хотя на деле - 2-3 т/с мне вполне норм, потому что я сворачиваю и делаю другое.

Кстати, вот эта карточка - https://characterhub.org/characters/knickknack/the-lamplighter-da467f5f просто ахеренно сочетается с вот этим лорбуком - https://characterhub.org/lorebooks/aleteian/nightmare-fall-4b4e6340f1f1 - тестировал с этим новым промтом выше, на предмет чтобы кум не ломал нормальные адвенчуры.

>>1117458
>не реагирует на [OOC:]
Посмотри, может есть инструкция - Out-of-character commentary is strictly forbidden and will be ignored. - где нибудь.

>>1117708
>Системные промпты у нас работают или нет?
очень даже

>>1117756
>устраивает такой кум
Я сделал себе хороший кум.

>>1117772
>Гемма - это расказчик. Гемма это наратор. Гемма это ДМ. Гемма это стеснение и эмоции.
Гемма может всё, но ей надо объяснить что это можно и как это нужно. А так да, если хочешь просто порнофанфик, то штуки выше подойдут лучше.

>>1117781
>весь сок только на английском
гемм и в русский может, хуже чем в английский, но лучше чем всё что есть локальное для работяг

>>1117870
систем промт может быть тупа отключен, проверь там махонькую кнопочку рядом

>>1117880
>Сука, заорал в голосину
Более 4 предложений, сюка, ахахахахха...
У меня по 50-100 рп, а есть которые преисполнились ещё на порядок больше