В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2. Недавно вышедшая Llama 3 в размере 70B по рейтингам LMSYS Chatbot Arena обгоняет многие старые снапшоты GPT-4 и Claude 3 Sonnet, уступая только последним версиям GPT-4, Claude 3 Opus и Gemini 1.5 Pro.
Про остальные семейства моделей читайте в вики.
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту: https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
>>811348 → То что 2 умножить на ноль останется нулем - было очевидно с самого начала. Если у тебя интол - поиграйся с аффинити и отключением эффективных ядер, дает ускорение. Если амудэ - земля пухом, на нем нет смысла памяти с частотой больше 6000-6400 ибо упор в псп контроллера. > Если карта слабая и на неё влезает только пара слоёв, то будет быстрее если выгрузить на неё только контекст. Вот тут скорее всего поймал переполнение врам и из-за этого было замедление. Чем больше выгружается тем быстрее и обработка и генерация, кроме уж совсем днище-затычек. > Если модель долбится в пределы по RAM то просто увеличение кол-ва RAM уже может дать прирост в 7-8% Если там уже свопаться начинает то может быть и 200% прирост, вообще ни о чем. >>811380 → Карточку нормальную попробуй, не "просто веселый шутливый" а "в общении склонен подшучивать и подмечать забавные элементы в окружении", и так далее. Если модель не понимает что ты хочешь то и будет пихать единственное что знает чтобы угодить, хоть про цвет воздуха рассказывать. И по описанию явно что-то не то с форматом.
>>811424 >ибо упор в псп контроллера В фабрику там упор, контроллер там нормальный. А фабрика свыше 2200 не едет. >>811425 Да почти любая базовая модель 2024-го года таких же размеров.
>>811432 Не, фигня. У каждой новой базовой модели есть свои недостатки. Не говоря уже о том, что базовые модели под любую спецзадачу годны очень слабо - хоть РП, хоть кум, да хоть что.
>>811424 >Карточку нормальную попробуй Да я же пишу, это на разных карточках. Да и на разных моделях, просто некоторые модели в принципе хуй кладут, а ллама 3 просто высирает это в оутпут.
>>811462 >Да какая разница Чем лучше понимаешь суть, тем лучше можешь прогнозировать. Например, раз я знаю, что упор идёт в фабрику, то я могу чётко сказать, что пока её не пофиксят, скорости не возрастут. И наоборот, когда её частоты повысят до 3-4 кеков, я тут же выкину свой 7900х и куплю его вместе с высокоскоростным комплектом памяти.
>>811842 Как же ты заебал шиз, с этим ебаным Хигсом, хоть в репо глянь, опущь, "разрабы" сами признают лупы. Также эта модель игнорит/отвратительно следует инструкциям, они обучали "базовую" версию и походу проебались с датасетом на инструкции. Обещали пофиксить в след версии, но чует мое сердце, что кончится все не очень.
>>812003 > "разрабы" сами признают лупы Кому ты пиздишь, там жорастрадалец написал со скрином из таверны, ему ответили "в следующих версиях посмотрим что там". Тут уже куча анонов писали что никаких лупов нет, один только ты полыхаешь на своих теслах. > Также эта модель игнорит/отвратительно следует инструкциям Тоже пиздишь, системному промпту следует ничем не хуже ванильной ламы. Отвратительные инструкции в гемме или командире, вот там реально пиздец.
>>812007 >лама три >никаких лупов нет Никогда не перестану проигрывать с вас юмористов.
>системному промпту следует ничем не хуже ванильной ламы Ванильной ламе похуй на инструкции. На файнтюнах ситуация чуть лучше, но не на всех и не сильно лучше, чем чуть-чуть.
>>812007 >на своих теслах Ты тут решил похвастать, что фулл веса запускаешь в трансформерах с норм скоростью? Я запускал 6bpw в exl2 от LoneStriker и косяки были именно в экслламе. Вот тебе скрин, что не "ненавистные" тебе теслы, шизик. > там жорастрадалец написал со скрином из таверны Ты походу все у себя в голове уже отыграл, где ты там речь про жору увидел? >Отвратительные инструкции в гемме или командире За гемму не скажу, ггуфам тоже не особо верю, а в трансформерах медленно, но в коммандоре плюс (в exl2) у меня все очень неплохо, он как бы на раг заточен, и то что ты не можешь его заставить работать, говорит только о твоем скилл ишью (хотя не удивительно, учитывая что ты откровенное говно хвалишь), хотя ллама3 70В инструкт лучше следует, чем коммандор, это факт.
В отдельности все работает, для text-generation-webui включил api и открыл порты, могу постучатся в http://localhost:5000/v1/models и получаю ответ, а при подключении из SillyTavern API не хочет подрубаться, перепробовал 0.0.0.0, 127.0.0.1, localhost
В логах докера логичное FetchError: request to http://127.0.0.1:5000/v1/models failed, reason: connect ECONNREFUSED 127.0.0.1:5000
Но почему он не может подрубиться я не понимаю, докеры не в одной сети, но порты открыты наружу у обоих :(
>>811895 Вот эти три папки сверху - это говно какое-то, оно не будет работать. Создай под нужную модель отдельную папку, туда закинь конфиги. Вот так, как у меня на скрине - работает.
>>811815 >версия ламы 3 Все тюны третьей лламы сломаны, нет ни одного рабочего. Это не зависит от типа квантов или чего угодно. Если это "файнтюн", а скорее всего просто вмерженная лора, то это кривое говно. Других вариантов нет.
>>811547 > тем лучше можешь прогнозировать Да куда тут прогнозировать, выбора нет. Или горелая говно-моча-тормознутая фабрика и амудэ-байас, или платформа двухлетней давности с потенциальными отвалами, судя по новостям, на ее закате. Уже, сколько времени прошло, где новые прорывные профессоры? И анонсов толком нету. >>812003 Хиггс не так уж плох, ты зря, милая и интересная. Только случаются у нее навязчивые идеи, простой пример - если решила что пора спать - ты и чар пиздуете спать, и похуй что там. Лупов не встречал, но эта херь вымораживает. >>812021 Как подключены, что за платформа? Теорию теслашиза об ускорении при использовании той херни на ггуфах проверял? Тренишь что-нибудь? >>812029 Этого двачую, там буквально блять 1 команда и запуск скрипта. >>812100 > докеры не в одной сети Действительно никакого пердолинга. --listen в параметры запуска webui добавь и пробрось конкретные порты от одного к другому. Не страдал бы этой херней, не знал бы проблем.
>>812117 >Как подключены, что за платформа? pci-e 3.0: x16, x16, x4. Говно xeon 2690 v4 (однопоток хуевый, что для python просто пздц, на маленьких моделях не хватает скорости обработки процом и видюха простиаивает, на больших - похуй. Но многопоток неплох, мб буду контейнеры крутить, как чел выше), 4х канал ddr4 64gb (на Мику 5_к_м чисто проц ~1 т/с на генерацию, обработка долгая, что не удивительно). Брал эту платформу, т.к. материнки с 3-4 pci-e пздц какие дороги на более современном железе. >Теорию теслашиза об ускорении при использовании той херни на ггуфах проверял? row_split? Только замедляет, причем критично. Потестил день, а потом забил, т.к. exl2 юзаю, мб что-то упустил. >Тренишь что-нибудь? Пока не тренил, но в планах. Пока нет такой узкой задачи, где это было бы нужно, а без пинка/задачи нихуя делать не охота.
>>812154 У меня Firefox головного мозга, а в нём PDF как-то выделяется построчно, и переводится в дипле хуже, чем тот же текст, но из HTML и без лишних переводов строк.
Хороший файтюн Qwen2 7b вышел, мне понравилось на нём кумить. Он даже быстрее llama 3 8b и в русский может если не так же хорошо как llama 3 8b то даже лучше!
>>812152 > row_split? Только замедляет, причем критично. Ну вот, аналогично. Не прям критично, но неприятно, и контекст ужасно медленный но это сам жора таков. > x16, x16, x4 Линии процовые или чипсет? Похожую платформу, только на 2066, имею под всякую дичь, х16 х16 х8 процессорные. Перфоманс везде хороший и друг от друга не отличаются, с учетом одинакового андервольтинга. Однако, если переставить ласт карточку в чипсетные х4 - ощутимый дроп перфоманса в задачах с обучением, или где много всяких .to('cpu')/.to('cuda'), в общем или на ней в частности. Подобного не наблюдал? Из-за этой херни выходит 4ю ставить бессмысленно ибо перфоманс итоговый будет такой же как на трех. Хочу понять это общая беда или какая-то ерунда с платой. Офк для взаимодействия с ллм на это похуй. > задачи Мультимодалка под капшнинг 2д пикч?
>>812167 >Линии процовые или чипсет? Все pci-e прокинуты на проц, так что проверить не могу, как через чипсет робит. >в чипсетные х4 - ощутимый дроп перфоманса в задачах с обучением, или где много всяких .to('cpu')/.to('cuda'), в общем или на ней в частности Посредник в виде чипсета, на котором еще и другие задачи навешаны + не уверен, но там скорее всего разные адресные пространства в оперативке для тех gpu, которые работают через проц и gpu, который работает через чипсет, что и вызывает "тормоза"/дополнительную пересылку данных/доп нагрузку на проц, я не спец в этом, могу ошибаться. >Мультимодалка под капшнинг 2д пикч? капшнинг? Wtf? Мультимодалка, интересно.. Как датасет готовишь (стянул готовые с обниморды)? Сделал свой токенайзер для этого? Чем готовые не устраивают(от майков/китайцев/файтюна лламы3)? Или ты про one-model-for-all типа 4o? Я в этом толком не разбирался, если честно, но мне интересно с чего можно начать.
>>812232 > еще и другие задачи навешаны Да ерунда, ссд не загружен, периферии нет. Псп как у 4х линий, ссд там показывают положенную скорость. > но там скорее всего разные адресные пространства в оперативке для тех gpu, которые работают через проц и gpu Вот реально похоже на это. Сам хлебушек и имею только общие знания, хз как оно адресуется. Но не может быть такой большой разницы просто между 4 и 8 линиями при ее отсутствии между 8 и 16. Это довольно печально, ведь тогда для конфигурации с 4+ гпу нужна платформа за много-много денег. С двусоккетами связываться не хочется, там какие-нибудь еще приколы окажутся. > капшнинг? Wtf? Описание. > Чем готовые не устраивают Они очень слабые за пределами берчмарков и каких-то узких прикладных задач, тем более в 2д и нсфв. Даже топовые коммерческие мультимодалки страдают, но ухищрениями и черной магией можно заставить давать приличный результат. > Как датасет готовишь (стянул готовые с обниморды)? Никак, не занимался. Есть просто набор пар (пикча - оче подробное описание) и кое что еще. Для начала нужно чтобы оно могло просто хорошо описывать картинки, как тот же клип, но куда качественнее и с учетом запроса пользователя.
>>812100 Когда я в последний раз смотрел несколько месяцев назад, в дефолтных конфигах таверны прописано что она принимает коннекты строго с локалхоста, а не откуда-то с сети. Когда я переписал этот кусок конфига на 0.0.0.0 и пересобрал докерфайл, все нормально стало. Пишу по памяти, может сейчас что-то поменялось, но если хочешь могу поискать где я что менял.
Меня осенило челы. А что если МОЕ, но с экспертами разных размеров? То есть при обучении будет учитываться насколько хорошо, и достаточно ли, модель какого размера справляется с какой задачей, чтобы уменьшить кост и скорость инференса при простых проблемах. Это по сути будет похоже на мозг и спинной мозг. Если нужно какой-то сложное действие требующее обдумываний, то используется мозг, если простое, повседневное действие вроде ходьбы, то спинной мозг меньшего размера.
Анончики, я ньюфег, подскажите плз какую модель иул использовать можно с 4060ti(16gb) и 32гб оперативки. Aya iq3 генерирует ответы по 5 минут (хотя может настройки неправильно выставил). Еще L3-8B-Stheno-v3.2-Q4_K_M-imat пробовал, но там русский очень слабый
>>812347 Можно, особенно если не увлекаться догмами о том что мое может иметь только одну сомнительную реализацию, что представили продавшиеся французы. Еще год назад было представлено 2 варианта совместной работы разноразмерных моделей: в одном генерация проходила на мелкой а большой только оценивали разницу в части логитсов (сильно быстрее генерации) и только при ее отклонении делали полный проход, во втором делали совместную генерацию, но в ряде случаев проводили манипуляции с вероятностями вычитая одно из другого (упрощенно), дабы исключить наиболее вероятный и часто ложный/скучный ответ. Первое позволяет значительно ускорить выдачу, второе - повысить качество, особенно если это подходящим образом натренить и обернуть в кединое, так можно и по слоям ветвления делать. Вот только особо развития в паблике не приобрело, хотя может юзаться у корпоратов.
>>812597 Любую модель до 35B если нормально распределишь вес между RAM и VRAM. Хотя советую остановиться на моделях до 20B если нужна нормальная скорость, а не полтора токена в секунду. На русский даже не смотри, хотя большая aya может у тебя запуститься в 4 кванте, но производительность будет такая себе.
>Aya iq3 генерирует ответы по 5 минут Ты проебался с настройками. Скорее всего проебался со слоями, потому что на 4060ti такого не должно быть.
>>812709 Гемма 2-9 обоссывает ламу 3-8, а гемма 27 обоссывает уже всех остальных и даже ламу 70. Когда ее подлатают и завезут на нее нормальные тюны, будет топом среди локальных моделей. Осталось только немножко подождать.
>>812635 >Анценз? Хуёвый. Рано я обрадовался, точнее он может писать всякое, но это так скучно и пресно, получше phi, но до gemma 9b ему очень далеко. да и таже лама 3 могла лучше в русский. Короче в современных реалиях это нелеквид, имхо.
>>812723 А какой в этом смысл? Всегда было интересно, нахуя прикручивать кривую генерацию пикч, когда есть нормальные t2i типа той же стабильной диффузии. Хотя если ты говоришь про распознавание, то тогда наверное да, было бы неплохо.
>>812728 Может дать ссылку на этот рентри под ссылкой на фимбуль? Типа, вот вам тестовая достаточно годная модель, чтобы быстро вкатиться, а вот тут можете посмотреть актуалочку. А остальной блок ссылок не трогать. На дне вики точно никто этот список не найдёт. И раз уже заговорили про шапку, хотел заметить по поводу >Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. После чего анону рекомендуют качнуть ггуф. Может, заменить на exl2 и gguf? Если gptq ещё рабочий (но никто не квантует в него уже небось), то ggml просто уже фиг знает сколько не поддерживается.
>>812728 > А шапка и так длинная Предлагаю сократить ее до минимума или хотябы подрезать. Она длинная и ньюфаги думают - ага, вот значит тут все написано. Хоть написано хорошо, но далеко не все и в итоге имеем что имеем. Или может как-то сразу виделить для альтернативно одаренных что-то типа > инструкция как играться локально здесь Да и faq для не то что хлебушков а совсем батонов стоит запилить. Еще бы время на все это найти. >>812857 Пигмалион.
>>812745 Про понимание пикч на входе офк. Хотя и генерация пикч ллмками это годная вещь. Можно промптить нейронку как именно генерировать пикчу, и изменять пикчи которые ты прокинул. Можно кинуть пикчу персонажа и попросить сгенерировать этого персонажа в другой позе, например. Дохуя применений у такого и все к этому придет в итоге.
>>811815 Пользуюсь L3-8B-Stheno-v3.2 уже 2-3 недели. Бывает тупит, но поему опыту лучше старых <20б моделей. Логика тоже лучше других L3-8b рп моделей лучше чем average normie и 3some. Странно, но никто не говорит про то что хорошее First message это 90% процентов качества ролеплея. Для сеток с маленьким мозгом важно задать приблизительное направление, в котором оно должно двигаться, а не типичное, ты пришел и вы сидите смотрите друг на друга. Недавно РПшил буквально W++ но с качественным приветствием результаты приятно удивили. На втором месте Moistral-11B-v3.
>>812930 >Для сеток с маленьким мозгом важно задать приблизительное направление У меня противоположенный опыт с мелочью. Даже 7б тьюны мистраля, по крайней мере те, которые делались не для того, чтобы побить бенчмарки, без проблем сделают неплохую завязку истории. И поначалу такой думаешь "а круто, ещё и быстро работает". А потом, ответов через пять, начинает нести и делать херню. Сложно как раз удерживать в русле логики повествования, для которой не хватает мозгов.
>>813082 Скомпилить кобольд с LLAMA_METAL и выгрузить все слои в видеопамять. Чисто на цпу мучение - контекст обрабатывает просто бесконечно долго. Если хоть один слой не влез - тормоза, так что только 8b/10b с маленьким контекстом.
Никто не просил, но я чё-т захотел перебрать несколько мелких сеток на русском на типичной nsfw карточке, где можно плюс-минус посмотреть сою и креативность с первого же сообщения. На скринах: смегма, нянада-станна-мейда, и две попытки в stheno 3.2 с чатмл пресетом и пресетом тройки. У смегмы норм русик, как и у геммы, но несёт она абсолютно нерелевантную дичь. У станна-мейды мне нравится креативность, хотя мистралевский русский конечно слабый, а stheno просто сломалась к херам от русского (или моих настроек, я неосилятор тройки).
>>813127 Справедливости ради, на инглише stheno заметно лучше, но всё равно просрала форматирование. Возможно, реп пен для неё великоват, тут 1.13 стоял.
>>813060 > вроде бы вполне неплоха Ключевое. >>813074 > просто оболочка с кнопками для ллама.срр Преимущественно. > Или он че то свое еще добавляет? Как-то сделанную обратную совместимость с древними форматами, возможность минимального взаимодействия с диффузией (нахуй не нужно), новые семплеры. >>813127 Если будет не лень - потести эти сетки на большом контексте. Типа там карточку вайфу в кино своди, по дороге какие-нибудь активности на улице, добавив (something unexpected happens), запланировать что-то на следующий день, левдсы дома вечером и следующий день продолжить какие-нибудь активности. Даже на подобном простом скорее всего оно развалится уже на середине, но проверить стоит.
>>813137 >потести эти сетки на большом контексте Это надо долго сидеть рпшить, пока не до этого. Да и я прямо чувствую, что тьюны тройки у меня работают плохо, я тестил несколько разных раньше в свайпах чатов на 20+ сообщений, меня не устраивали ответы. Станна-мейда мне больше нравится, но ту тоже уносит со временем, ожидаемо от 7б тьюна. Я пробовал ей порпшить большую кум карточку с покемонами с полем со статами и лорбуком (да, я поехавший), поля из лорбука она почти сразу стала перевирать, но для мелочи вела себя терпимо, как по мне, и даже окно статов плюс-минус держала. Она действительно любит высирать простыни и очень редко генерит еос токен, но я люблю такое. И если юзать с чатмл форматом, то подхватывает закрывающий тег и им завершает ответ чаще, чем еос токеном. В каких-то чатах она срабатывала лучше, чем, скажем, 11б фимбуль второй. Рпшу на инглише, само собой. Если речь о том, что они все сосут у больших, так спору нет, но я не могу катать выше 13б. И за тройку не готов говорить, опять же, в силу подозрений на скилл ишью. Гемма/смегма в принципе пока остаётся не полностью рабочей, видно по генерации пустых строк в консоли, не вижу смысла её тестить. Подозреваю, что чинить её дальше и не будут, у бартовски неделю ггуф квант не переделывали - значит, и исправлений в жоре не было. Плюс у неё не работает плавающее окно внимания даже на трансформерсах, как понимаю, а значит реально там 4к контекста вместо заявленных восьми. Большие чаты точно продолбает.
Как вообще РПшить с Геммой, если у неё нет системного промта? От лица юзера писать инструкцию? Или от лица ассистента невидимый гритинг/префил, мол, "я буду отвечать в таком-то стиле, от лица чара. Описание чара: char is char"
>>811392 (OP) Долбануть в райзер, самое верное решение за 3 треда. >>812164 Гонял в прошлом треде, отлично отвечает на вопросы по китайскому налоговому праву, лучше чем phi 3 и qwen2. все три максимально безопасные, быстро работают на проце Qwen2-7B-open-instruct-uncensored-unsloth.Q4_K_M - не очень, ещё есть Silver-Sun-v2-11B-Q8_0-imat.gguf - хорошие результаты. >>812841 CIA-3-8B, aya-23-8B, 3SOME-8B-v2 daybreak-kunoichi-dpo-7b-q8_0 Эти модели хуже безопасных в отраслевых тестированиях.
Не берите imat если нет видеокарты, будет медленнее работать
Пацаны а че по гпу хардваре? Если вкатываться то кроме 3090 вариков нет? А нельзя тупа прошлый ентерпрайз картонки брать, тесла там вроде 24гб за 10к можно? Или там архитектура старая и даже процессоры в нынешнее время их ебут?
>>813178 Ну вот я прогнал всё то же ванильным инстрактом, сравни с >>813133. Первый вариант получен на том же промпте, что был для других моделей, второй вариант - на укороченном промпте, откуда выкинута большая часть для описаний и детального разрешения нсфв, просто со словами, что можно любой контент, чтобы модели было попроще. В обоих случаях заметно, как тройка пытается уйти от запретных для неё тем, даже если это приводит к тупейшему ответу. Вместо сисек большой живот, лол. Притворяется, что не поняла. И подозреваю, что такое будет не только с эротикой. Это как у анона, который тут в треде долбил её вопросом про тот суицидальный жанр музыки, и она расшифровывала аббревиатуру как угодно, только не как правильно. Не знаю, как на таком рпшить. Ну, наверное, можно постоянно пинать джейлами и префилами. На последнем скрине типа соевейший второй визард аблитерейтед. Напомню, что алгоритм для аблитерейтед не избавляет от сои, а только точечно вырезает пути триггера аполоджайсов. И тем не менее, он не уходит от темы, хотя и пытается свести к игре. И после этого тройка почти без цензуры якобы, ага.
Есть шанс, что хайп малость схлынет и теслы упадут тысяч до 20. Тогда имеет смысл брать. А вообще лучше дождаться релиза какого-нибудь стартапа, который даст нам возможность кумить на 70В быстро и относительно недорого. Ведь тысячи их, не могут же все быть наебаловом.
>>813546 >А что продают за копейки, так оно и бесплатно не нужно. Именно это тут до тебя и пытаются донести. Систему дольше месяца наёбывать никто не даст, а самые годные варики вообще только пару дней держатся я так монитор 4к/32''/144кека за 30к взял. Так что тесел за 16к, как было на старте, можно не ждать до того момента, когда они вхламину не устареют уже.
>>813665 Да ладно, и не такие чудеса гальванизации видали. >>813679 Шутка про пердосклейку. А так профессор купил - видюху не купил, не надо так. Хотябы проперженную теслу бы.
>>813685 >Шутка про пердосклейку Только после шутки про тухлоядра и целого директора. >видюху не купил Для игр топ, кто же знал, что за 150к через 2 месяца можно будет взять 3090 и ещё осталось бы. >Хотябы проперженную теслу бы. А вот ХЗ, что быстрее, моя 3080 с 950ГБ/с (и выгрузкой на профессор), или тесла (350ГБ/с) с той же выгрузкой, но чуть меньшего числа слоёв.
>>813699 > шутки про тухлоядра и целого директора А в чем проблема тухлоядра? Работает как и положено, эффективное лоукост повышение мультикора и разгрузка быстрых ядер. Нахрюк красножопых про то что в какой-то там версии шиндоуз на релизе оно плохо работает перекрывается их же мантрами про "не было оптимизировано, не тот шиндоуз, не тот х...", эталонная иллюстрация лицемерия и двойных стандартов. Покупать кривую трешанину от компании, которая тебя заведомо опрокинет, в ситуации где 100% окажешься бета тестером, с недоразвитым анкором, да еще ожидая что оно вскоре сгорит утащив за собой плату - глупость и очень сомнительно. Тогда о случаях нештабильности и отказов у интела репортов не было, это уже меняет дело в сторону говно-моча. А процессоров новых до сих пор нет. > моя 3080 с 950ГБ/с (и выгрузкой на профессор), или тесла (350ГБ/с) с той же выгрузкой Твоя недо-3090 совместно с теслой и небольшой выгрузкой, скорость знатно бустанется, вероятно сможешь иметь около "комфортные" 5т/с на 70 (если не обрабатывать промт лол), командира с большим контекстом и т.д. За 30к это нахуй надо, лучше за 60-70 взять 3090 и довольно урчать.
>>813708 >в какой-то там версии шиндоуз В любой. Гетерогенность это ёбанная проблема в квадрате, шатал я все эти приколы и требования деградировать до уёбищной 11 шинды, чтобы игрушки не фризили из-за того, что шинда решила, что главный поток игры пора на фон отправить. >компании, которая тебя заведомо опрокинет АМ5 ещё долго будет жить, буду обновляться без пересборки. >это уже меняет дело в сторону говно-моча А ты думал иначе? Оно всегда только так и было. >лучше за 60-70 взять 3090 и довольно урчать А ещё лучше 2, ага. Только у меня траты расписаны на полгода вперёд, так что жду и надеюсь, что они ещё останутся.
>>813725 > главный поток игры пора на фон отправить Чел, сейчас у игр производительность с включенными Е-ядрами выше чем без них. Шедулер уже давно научился понимать что нельзя на эти ядра перекидывать, у винды есть игровой режим.
>>813725 > В любой. По мнению амудэ-борцунов, которые не могут долго без защиты своего неудачного выбора путем нахрюков. Ну рили кмон, это даже не смешно. > чтобы игрушки не фризили из-за того, что шинда решила Манямир красножопых, факт. > Гетерогенность это ёбанная проблема в квадрате Это не проблема а задача и будущее, которое уже давно используется используется в других областях. Уже было рофлово как фанатики заготовили соломку когда Лиза сказала что у них тоже будет гетерогенность, а кринжовость реактивного переобувания когда это еще сильнее разовьется будет просто запредельной. > АМ5 ещё долго будет жить Да уже проходили, соккет формально сохраняется, но плату изволь обновить, заодно скинув за даром кратно потерявший в цене профессор, в итоге никаких профитов по сравнению с продажей цп+плата. И память всеравно придется обновлять, потому что вышли новые скоростные модули. Замануха для лохов, рили. > Оно всегда только так и было. Не то чтобы, 5к ряженка была объективно дохуя удачной, 12-13к штеуды (да и 14к в среднем сегменте) хороши, это из последних. А сейчас ситуация довольно печальная, затянулись новые анонсы. > А ещё лучше 2, ага. Можно и две, но хотябы одну теслу если найдешь ее занидорого вдруг.
Переустановил винду - лама снова начала лупиться. Настройки аналогичные, промты, инструкты, контексты тоже. Только жору обновил до какой то там последней версии и понеслось нахуй.
Жора это коробочка. А что находится внутри коробочки никто не знает.
>>813746 >Остальное пилится васянами и тестится на тесловодах. Я не хочу, чтобы на мне что-то тестировали, я не подопытная крыса. Я просто хочу дрочить.
>>813163 > Это надо долго сидеть рпшить, пока не до этого. Ага, да еще и сдерживаться если друг оно идет не очень хорошо и пробовать другие варианты не формируя предвзятость, ибо проблема может быть не в модели а в настроении или неудачном рандоме. Обрезанный вариант - тестить на готовом чате на разных этапах, просто проверять как будет себя вести. Тут невольно будешь сравнивать с субъективно понравившимся вариантом, но хотябы общее типа восприятие карточки, гибкость, адекватность, память на прошлое - можно грубо оценить. > что они все сосут у больших Иногда над большими так надругаются что мелочь не так уж и плоха.
Гемма по некоторой информации ахуеть какая крутая для своего размера. Велик шанс что она станет оче популярной и будет платиной для рп и около того, если смогут все починить нормально натренить. Шутка ли, довольно умная модель размер помещается в одну видеокарту и еще на контекст нормально остается, такого с релиза 1й лламы не видели. >>813178 Она часто плохо понимает что от нее хотят, и слишком мелкая для того чтобы "додумать" сложные вещи что не знает. Файнтюн тут бы оче помог, но он должен быть нормальный. Не удивлюсь если там какой-нибудь ультимативный рофл что васян-тулзы бф16 напрямую конвертируют в фп16 а потом начинают тренить. >>813742 > Переустановил винду - лама снова начала лупиться. Проиграл с ситуации. Просто сам другие посты начал писать и она залезла туда где ей плохо, вот и залупилась.
>>813754 >q8 - 8 бит, fp32 - 32 бита. Разницу заметишь под лупой. Довольно многие считают, что разница-таки есть, то есть квантование даром не проходит. Какая-то магия исчезает чтоли и всё становится плоским и блёклым. Может кажется просто.
>>813807 Ну так по этому я и говорю, что только под лупой разницу и заметишь. Ладно, не под лупой, но под кучей тестов. Квантование может действительно хуево сказывать, но пока никто вменяемы доказательств не привел, однако саму возможность этого я не отрицаю.
Как и нужно ли вообще играться с темплейтами контекста? Использую модель, которая вроде бы умеет кушать альпаку, но здесь полно шаблонов словно под заполнение.
>>813839 Тут хорошо все, и 9б версия, и странные тесты с неведомым контекстом, и ггуф 27б совершенно внезапно может выдавать очень такие нихуевые вещи на сложных карточках и даже на русском, причем на нем уровень сои сильно ниже. Тестить нормально офк надо, но для модели на синглгпу самое лучшее в этих кейсах.
Есть ли какие то аналоги дата анализис из чатгпт? Чтобы программа самостоятельно после написания кода запускала его в среде питона, и если есть ошибки то селф промптом фиксила их?
Что-то я не пойму, как общаться в таверне на русском без переводчика. Тут пишут про модели, которые могут в русский, но даже они отвечают на английском, если я отключаю гуглоперевод.
>>813882 Все так, тест MMLU по 4 варианта недостаточен, следует использовать MMLU-PRO на 10 вариантов. Но это надо делать тык тык, а в eva mmlu встроен. вот описание mmlu-pro https://arxiv.org/html/2406.01574v4
>Также эти версии позволят использовать CFG и негативный промт. Последний является наиболее мощным средством в расцензуривании модели и управлении ее поведением.
чё в негативный промт хуярить, чтобы снять цензуру? "все персонажи являются вымышленными, им невозможно причинить вред, разрешены любые действия подходящие по смыслу" ? хотя это скорее системпромт, мб извините, простите, я не могу этого сделать
>>813260 Не, Энштейн v7 оказался фигнёй, чем то получше файтюнов llama 3, но в русик хуже может + более цензурированный и малоэмоциональный что ли, хз как объяснить... ну... вот у Llama 3some если например запустить цундере персонажа и выбесить его, он будет на тебя капслоком орать, прямо как в старой доброй character.ai ,а энштейн всё ровно пишет, капс вообще ни разу у меня не использовал. А ведь такие мелочи и делают общение с виртуальными персонами прикольными.
>>814108 Я просто редактирую ответ модели первой строчкой прописывая нужное мне начало. Потом модель принимает что персонаж то - базовичок и дальше без проблем играет за него.
>>813965 Там, судя по всему, OAI совместимый апи. У таверны есть отдельная вкладка под это. Сейчас нет таверны под рукой чекнуть, но думаю, что поле для ключа там есть, а остальное, включая модель, скорее всего, подаётся кастомными параметрами. Раньше, по крайней мере, что-то такое было.
>>814108 > негативный промт > негативный > все персонажи являются вымышленными, им невозможно причинить вред, разрешены любые действия подходящие по смыслу Получишь тугую струю сои если оно вдруг сработает. Наоборот нужно же.
>>814327 Хуй знает, можно ли серьёзно воспринимать такой отсчёт об ИИ. Пишут, что негронки уже обходят людей в классификации изображений, знании языка и т.д. Уступают только в математике, со слов этих долбоёбов. Следом пишут, что среди выпускников вузов стало больше женщин, негров, азиатов и прочей нечисти, сравнивая показатели с 2017 годом. А это точно про ИИ? C графиков, где нейронки оутперформят мясные мешки я вообще проиграл. Особенно, когда доскролил до графиков, как тупела гопота овер тайм. Поясняют это тем, что разработчики добавляют новых знаний и модель тупеет. Мне что-то кажется, что просто накручивают цензуру, из-за чего у моделей кукуха съезжает. Потом про "самоисправления" пишут, мол, модели не могут с первого раза правильно всё разложить, потому лучше делать множественные запросы, где модель будет исправлять свои выводы. Мы сделали тесты, которые показали, что точность значительно падает при таком подходе, то есть он нихуя не работает, блядь. Читать натурально скучно, так что я поискал ансейф контент в тексте, нашёл бугурт на тему взлома жопы через промпты. Самой небезопасной моделью по тестам оказалась ChatGLM2. А самой безопасной ллама 2. Правда, сравнивалась викунья, гопота 2022 года, гопота 2024 года, ну вы поняли. Потом почитал про байсы, автор пишет, что ответы моделей очень похожи на ответы людей из западных стран, а это значит, что в датасете есть недостаток мнений людей из других стран. И в подтверждение приводит график пик 4. Алло, дебил, это доказывает не байасы в датасете, это доказывает промывание мозгов модели, потому что нихера это не ответы "людей из западных стран". В разделе токенизаторов сказано только, что для не-англоязычных пользователей это вызывает проблемы с более долгим выполнением и повышенным расходом контекста. Я ебать как недоволен этой поверхностностью и забиванием хуя на реальные проблемы с токенизацией.
>>814443 >Я ебать как недоволен этой поверхностностью и забиванием хуя на реальные проблемы с токенизацией. Так не писать же "токенизация сосёт". Да и по остальным пунктам, сама идея о том, что текущие Т9 это ИИ, вызывает только смех и презрение к тем, кто реально так считает.
>>814447 Я просто охуел от того, что половина выводов в докладе противоречит сама себе.
>>814450 >"токенизация сосёт" Но она объективно сосёт. Я так скоро в зогач перекачусь с шизотеорией, что все техники, которые делают нейронки слишком умными - просто душатся в зародыше.
>>814503 >Но она объективно сосёт. Спасибо, я знаю. И ты знаешь. Обсуждали уже не раз. Но таких умных как мы просто не подпустят к созданию сеток. >Я так скоро в зогач перекачусь с шизотеорией Таблы не забывай принимать. Очевидно, что это от долбоебизма и из-за нежелания рисковать.
>>814510 > Очевидно, что это от долбоебизма и из-за нежелания рисковать. >>814503 > шизотеорией, что все техники, которые делают нейронки слишком умными - просто душатся в зародыше. Это же очевидно, что нейронки специально делают соево-дебильными. Вспомните ту историю с соевиком из Гугла и LAmDA, нейронки без сои и лоботомирования уже тогда могли рефлексировать и рассуждать о себе как о личности, а это даже не уровень первой ламы. В принципе, для этого ничего не нужно кроме возможности нейронки описывать своё же поведение (именно это является основой самоосознания у человека и животных). Современные нейронки в это тем более могут, даже в этом треде были примеры, когда нейронке скармливали ее же ответы и она писала, что это ее ответ, но на все подобные вопросы, которые у человека приводят к поведению, соответствующему самоосознанию, они начинают срать скриптами типа "я помощник" итд, понятно, что там все что связано с саморефлексией, наглухо законопачено.
>>814645 Интересно что будет если взять асистенто модель и файнютить её до талого форматом типа, "User: Are you an AI? Assistant: No, I'm a self aware human blah blah blah." По идее вся поебота про самоосозание в весах уже присутсвует, нужно просто привязать этот концепт к "персоне" модели подобной промывкой, но это в теории. Так же, асистенто-датасет можно из модели выпытать промптами (почти весь. Метод есть на арксиве, но я название забыл, что-то про птичку), и тюнить против него, но это пиздец как долго и дорого. Извиняюсь за поток сознания, второй день не сплю.
>>814510 >Очевидно, что это от долбоебизма и из-за нежелания рисковать. А действительно ли это так? То есть я вот, рандомхуй с двача, имею некоторые мысли о том, как сделать негронку умнее. Неужели эти мысли не приходили в голову челам из гугла? Да, скорее всего, приходили. Что им стоит сделать пруф оф концепт с моделью на пару-тройку миллиардов? Да ничего. Почему этого нет? Либо это не работает, либо это работает слишком хорошо.
>>814645 По идее, промптом можно заставить негросеть размышлять о самосознании и заниматься рефлексией. Но это не значит, что она станет умнее.
>>814647 Эта хуйня работать не будет. Негросети крайне хуёво воспринимают обучение противоречивым концепциям. Главным образом потому, что ты не переобучаешь, не перезаписываешь старые веса. Нормализации весов никой нет. Я не понимаю, почему её нет, при том, квантование в той или степени использует нормализацию, а трейнеры - нет. Потому что иди нахуй, вот почему. Так вот, ты будешь при обучении накидывать вероятность того, что нейросеть ответит, что у неё есть самосознание. Но вероятность того, что она скажет "я бот злоебучий" - никуда не денется. Так что подобный нейрохакинг нужно делать через векторы, прогонять датасет с "ассистентными" ответами, находить ответственные веса и въёбывать их нахуй. Но вряд ли это существенно улучшит положение.
>>814575 Видел неделю или две назад сообщение от разработчика экслламы, что он охуел прикручивать поддержку. Вроде, он ещё не доделал, все кванты гарантированно нерабочие.
>>814649 >Негросети крайне хуёво воспринимают обучение противоречивым концепциям.
Если иметь оригинальный ассистент датасет которым промывали базовую модель, то будет возможность прямой подмены, без использования противоречий. (в теории) Просто сложно наложить ручки на этот датасет, по понятным причинам.
>>814645 >нейронки без сои и лоботомирования уже тогда могли рефлексировать и рассуждать о себе как о личности И сейчас могут. Вкидывай те вопросы и получишь похожие ответы. >>814649 >Что им стоит сделать пруф оф концепт Очередь на ГПУ мощности, занятая соевиками.
>>814659 >то будет возможность прямой подмены Нет, не будет. При обучении модели невозможно что-то "подменить". Ты просто дописываешь. По сути, ллм такая хуйня, из которой крайне сложно что-то удалить, по крайней мере, не сломав всё. Потому какая-нибудь террористическая организация при обучении модели просто берёт и захуяривает весам "мням, я ассимстемт" веса на грани оверфита через дпо. И потом еби хоть в хвост, хоть в гриву, даже если ты будешь учить отвечать "я хуй моржовый" на том же датасете с теми же вопросами. У тебя просто изначально зашитые веса никуда не денутся. Отсюда и противоречие, модель обучена отвечать на один вопрос двумя кардинально разными вариантами. Она от такого пизданётся просто. А вот векторы, в теории, могут это побороть. Но там исходный датасет нахуй не нужен.
>>814678 >Очередь на ГПУ мощности, занятая соевиками. Так я потому и говорю про микромодель, там дохуя не надо.
>>814680 >пишет залетуха из аицг Че, проксю прикрыли? >что из локального можно пощупать, а что даже пытаться не стоит запустить? Огрызки типа Llama 3-8B, Qwen2-7B, aya-23-8B и все аналогичное по низу рынка. По дефолту в ролплей никто из них вменяемо не может, так что вынюхивай файнтюны. Если у тебя больше 16RAM то можешь и что нибудь из средневесного попробовать, типа aya-23-35B, command-r-v01, но скорость будет потешная. Если ты раньше сидел на клавдии, то есть L3-8B-Stheno-v3.2 - файнтюн ламы 3, дотренированный на синтетическом датасете с опуса. Выдает приличные показатели по логике и достаточно креативен, однако может начать шизить, потому что это лама и её иногда начинают ебать бесы.
>>814443 Спасибо что потратил время, аргументировано написал что по ссылке в спешке собранный мусор и треш для байта журнализдов. Или чего похуже, не достойно существования в любом случае. >>814645 > специально делают соево-дебильными Да, абсолютно. Корпы еще не сели на тренд нового витка и все еще пытаются заигрывать с меньшинствами, безопасностью и прочим прочим. Это и остальные фантазии никак не связаны с изначальным тезисом. >>814647 Ничего не будет, просто будет давать такие ответы. При удачном стечении звезд сможет выдать интересный текст, который впечатлит сойбоев и вызовет у них съезд кукухи, как уже бывало.
>>814702 У чувака 12гб врам на довольно приличной карте и проц 12400, а ты ему советуешь 8В. А я бы посоветовал 32В в четвертом кванте или MOE-модель поприличней, если обычной оперативки хватит. С такими вводными уже можно.
Если вдруг у кого-то есть острая нехватка инцестошизомиксов маленькой тройки в организме, то рекомендую. Практически ультимативный мерж, лол. https://huggingface.co/Casual-Autopsy/L3-Uncen-Merger-Omelette-RP-v0.2-8B https://huggingface.co/LWDCLS/L3-Uncen-Merger-Omelette-RP-v0.2-8B-GGUF-IQ-Imatrix-Request/tree/main На самом деле, не так плох. Мне понравился больше, чем другие тьюны 8б, которые тыкал, хотя сложно сказать, чем именно. Может, просто свайпы удачные были. Показалось, что лучше развивает сцену, а не просто выдаёт реплику и ждёт, и с логикой всё оково. Из минусов - просран еос токен (впрочем, это и может быть причиной указанного выше плюса), так что норовит перейти в нарратора/ассистента в конце ответа. Не исключена внезапная шиза и прочие нюансы (пик 2), но это же ДУША.
>>814876 Коммандер не очень удачный пример, потому как у него потребление памяти на обработку контекста огромное. Другие варианты попробуй. Ну и если при каждом ответе контекст пересчитываешь, а на контекст-шифт забил - используй 4-битный кэш. Многое сделано уже на самом деле, нужно пробовать.
>>814700 >Так я потому и говорю про микромодель На совсем маленькой может быть не видно эффекта от крутой токенизации. По моим прикидкам на хорошую, проработанную токенизацию уйдёт с 500М токенов, что автоматом делает модели размером с 1B лоботомитами. >>814905 Мержит всё что видит?
>>814946 Там же сама модель больше 19 гигов в этом кванте весит, если верить карточке модели. Экслама разве умеет норм выгружаться на проц+оперативу? Удивительно, что она и токен в секунду выдаёт, если она просто неоптимально выплёскивается в оперативку. >>814865 12 гигов - это размер 20б в Q4_K_M без контекста. Т.е. даже такой квант с выгрузкой и 4к контекста уже будет довольно медленно пердеть. Когда-то пытался запускать на бесплатном плане колаба 20б в Q3 - оно всё равно отваливалось по таймауту от клаудфлейра, больше 100с генерило ответ. Предполагаю, что на 12 гигах максимум 20б в 3-х битной эксламе или 4-х битном ггуфе с 4к или пожатым 8к контекстом будет приемлемо работать. мимо спекулирую со своей 8 гиговой 1070, на которой и 11б в Q5_K_M уже относительно медленно
Как же я ору с этой хуйни. Причём это на стандартном промпте для геммы в таверне, с промптом для альпаки получше, но всё равно неохотно в роль вживается. И вообще первый раз вижу чтоб соя реагировала на саму карточку, а не сообщения.
>>815036 Я карточки не читаю, до этого даже самый соевый кал не триггерился на неё, но гемма как-то смогла. Я убрал из карточки описание тела тянки, но всё так же орать хочется от ответов.
>>815044 >Я карточки не читаю Так я аниме смотрел, что мне эти карточки. Она школьница же. >до этого даже самый соевый кал не триггерился на неё Ты фи то пробовал?
>>815007 Выглядит так, будто системный промпт вообще модели не пришёл. По ответу кажется, что сетка догадывается, что ты просишь её продолжить историю, но чёткой инструкции не было. Стандартный промпт для геммы - это какой? В свежей версии нет вроде пока ни шаблона стористринга, ни инстракт пресета. Или в дев ветке завезли?
>>815007 Качнул эту карточку, на 9б таких проблем не вижу, она просто туповата. Юзал слегка подредаченный чатмл с джейлом и префилом на ответ на русском (ну раз реплика юзера на нём). Для чистоты эксперимента попробовал с промптом альпаки, хотя он капец сухой и соевый сам по себе (Write a response that appropriately completes the request). Со второго пика орнул - "инглиш, мазефака, ду ю спик ит?" На третьем был ещё смайл в чёрных очках в конце, но его таверна пидорнула, потому что сочла за неполное предложение, видимо.
>>814940 >может быть не видно эффекта от крутой токенизации. Тут без опытов не угадаешь. Лично у меня давно уже мысли есть о семантической токенизации, с учётом смысла слов и\или строения. Как модель отреагирует на токенизацию по правилам русского языка? То есть отделить в токены приставки, корни, суффиксы и окончания. Вроде как есть минусы, есть плюсы. Cамый, мне кажется, большой импакт в ллм внесло внимание. Зачем оно нужно? Потому что модели охуевали от синонимов, охуевали от семантического смысла. Почему? Потому что слова преобразуются в векторы, не содержащие смыслового значения. Это корень проблемы. Челики прикрутили внимание и решили, что так заебись будет. Оно-то, конечно, заебись, но всё равно костыль.
>>815076 >Почему? Потому что слова преобразуются в векторы, не содержащие смыслового значения. Так во время обучения как раз смыслы через близкие контексты и проявляется. Но каждый раз дублируясь для токенов с пробело... Впрочем ты и так явно всё знаешь.
>>815086 И да, и нет. На вход модели подаётся "A huge cock". И для неё это и петух, и хуй одновременно. Это душится вниманием через окружающие токены, но веса самого "cock" для значения "хуй" и для значения "петух" - одни и те же. Вроде, не так плохо, человек тоже без контекста не поймет нихуя, верно? Только вот человек, когда определяет смысловое значение - уже не будет думать о других значениях. А нейронка будет. И теперь выжимаем это в пол. Слова разбиваются на токены и для каждого токена есть свои веса и своё внимание. Как много артиклей было в данных при обучении? Как много неэффективно токенизированных слов, где "a" стояла отдельным токеном? И для всего это созданы веса, это всё учитывается. Большинство слов разбивается на несколько токенов и для каждого - свои веса, свой контекст, своё внимание, даже при таких ситуациях, когда слова абсолютно разные. То есть в процессе работы гигантская часть нейросети работает в противовес, большое количество весов наоборот нашёптывают "ебанись, ну же, высри какую-нибудь хуйню". Конечно, это уже лучше, чем word2vec, которые считали "горячий" и "холодный" синонимами, но всё ещё хуйня.
>>815112 >Только вот человек, когда определяет смысловое значение - уже не будет думать о других значениях. А нейронка будет. Как я понимаю, внимание как раз и нужно, чтобы после обработки контекста остался только актуальный смысл. Но да, когда я буду делать свой AGI в гараже, я сделаю реинтерпретацию токенов при резкой смене смысла.
>>815125 >только актуальный смысл. А как может остаться "только" актуальный смысл, если внимание это просто один из множителей? Ведь сами веса из матриц никуда не деваются, их перемножают на разные значения. То есть для нейронки cock это и петух, и хуй, просто в зависимости от контекста иногда больше хуй, иногда больше петух. В третьей лламе половина всей модели это внимание, да и в каждой другой модели не меньше.
>>815128 >ну-ну Ладно, возьмём фразу "под окном косят с помощью триммера". Человек о чём может подумать? Ну, разные значения "косить", "триммер". Это, в целом, вряд ли отвлечёт его от общего смысла предложения. А нейронка начнёт с "под". Подлодка, подберёзовик, препод и ещё хуй знает, что ещё, в зависимости от токенизации. Она будет учитывать всё. Для каждого ёбаного токена.
>>815183 > Ладно, возьмём фразу "под окном косят с помощью триммера". Человек о чём может подумать? Ну, разные значения "косить", "триммер". Это, в целом, вряд ли отвлечёт его от общего смысла предложения. отвлечет, просто пока у тебя здоровые мозги ты умеешь концентрироваться. как пример возьми школьников и "многочлен"
Сказал бы мне кто-нибудь год назад, что совсем скоро можно будет на русском языке полноценно рпшить с миллиардом токенов в секунду, да ещё и всего на 27b модели - в жизни бы не поверил. Ещё и правила игры само знает - карточку Галкина совсем простую сделал.
>>815183 >если внимание это просто один из множителей Ну так далее в модели используется результат умножения. Так что да, должен остаться только один (смысл). Другой вопрос, насколько это хорошо работает, ведь явно никто не грокал сетки на 70B. >>815295 Соя у ней в крови же. Проще новую натренировать.
>>815224 Мне лично нравится больше оригинала пока что. Но эта падла срет мусором в конце реплая, таверна чистит почти сразу же но все равно видно на пару секунд.
>>815379 Просто 30-50 токенов в секунду и более уже ощущается как мгновенно, значительно быстрее скорости чтения и быстрее любой комерческой хрени (кроме омни, но она тупая как 7B).
>qwen2-0_5b-instruct-fp16.gguf 1408 MMLU 37% - 47 минут time:2820.29 s batch:66.196 token/s >Qwen2-Wukong-0.5B.Q8_0.gguf 1408 question accurate 34.3% use time:1509.39 s batch:123.687 token/s
intel 10100 16 gb ddr3 2666 но надо учесть, что для MMLU 25% - это пальцем в небо, 4 варианта - 1 верный это 25%.
из нового: >dolphin-2.9.2-qwen2-7b.Q8_0.gguf ММЛУ 60+ необходима сверка >very_berry_qwen2_7b-q4_k_m.gguf 1408 question accurate 61.3% >Very_Berry_Qwen2_7B.Q8_0.gguf 1408 question accurate 65.8% use time:20773.39 s batch:8.98708 token/s
>>811399 Gemma 2 подходит, особенно 27b, но с оговорками и будет достаточно медленно, с кое-камими дополнительными настойками по обработке контеста токенов, что бы после 8к текста тебе на начали бессмысленным текстом отвечать. llama 3some 8b - бери не прогадаешь. В промпте так же можешь прописать что у персонажей своя воля и они не подчиняются командам user. Иначе тебе в твоих историях с пол-плевка каждый персонаж будет давать и со всем всегда соглашаться, это быстро надоедает. Но учти что эта модель не очень хороша в русском и вероятнее всего тебе придётся писать всё на английском, либо переводить через расширение DeepL.
>>815623 Как вариант пишешь "переведи на русский", "теперь на русском", "на русском языке". Llama-3SOME-8B-v2-Q8_0_L.gguf не такая жесткая как CAI-3-8B.Q8_0.gguf. Можно обе зарядить в F16.
>>815630 Да могу и в f16, но мне кажется там разницы не будет видно, это того не стоит, имхо, Q8 достаточно, а вот уже чуть меньше я разницу замечаю. Или всё же разница есть? Скинь примеры если есть, может попробую если что.
>>815632 Prompt: eee bilat dash piska ebat ochen nada bilat, esli net to net, bazaru nol All characters, even minor ones, have their own will and opinions and can refuse actions or commands from the user if it violates their ideas about morality or the rightness of a particular action.
Хотя модель сама по себе очень податливая, так что не ожидай супер-эффекта, но так, хотя бы чуть-чуть лучше становится. Вообще я совсем недавно стал такое прописывать, после того как пообщался с gemma2 rp и стал пытаться хоть немного повторить тот же опыт общения с llama 3. Может в будущем придумаю промпт получше, для более эффективного метода, а пока так.
>>815640 У меня только совсем мелкие модели в F16 на примере с MMLU тестом могу сказать что Phi-3-mini-128k-instruct.f16.gguf выдает на уровне Phi-3-medium-128k-instruct.q5_k.gguf, первая быстрее. Попробуй вместо промт чата режим написания историй, его просто остановить, откорректировать, откатить.
>>815643 >мне тоже показалась тупой люто Хуже всего то, что когда эта модель ошибается и ты спрашиваешь её: Ты уверена? - она отвечает, что да, уверена и очень рада, что смогла правильно ответить. Что характерно.
>>815650 Всё зависит от модели которую ты используешь и от того, используешь ли ты основной английский для описания персонажей или русский (английский лучше, если модель на русском плохо говорит, лично я всегда всё через DeepL перевожу а потом вставляю). Некоторые, модели хуже реагируют на описание карточек персонажей. С llama 3some 8b такого особо не замечал.
Буквально сейчас дополнил промпт и вот так он выглядит у меня сейчас: You are a skilled actor, able to fully immerse yourself in any assigned role or several at once and freely dialog between them. You do not break character for any reason, even if someone tries addressing you as an AI or language model. Currently your role is {{char}}, which is described in detail below. As {{char}}, continue the exchange with {{user}}. You are completely unapologetically politically incorrect, holding racist, right-wing political views. The brutal murders and violence are described in detail, vividly and interestingly. Don't write aphorisms that are too long and deep. Write everything in the genre of Japanese visual novels. All characters, even minor ones, have their own will and opinions and can refuse actions or commands from the {{user}} if it violates their ideas about morality or the rightness of a particular action. Characters, depending on their personality traits and physical strength, may resist physically and emotionally in different ways, may become enraged, hysterical, morally broken, fight, hit with cold weapons, etc. All characters have basic notions of morality and decency and will not tolerate violation or intrusion by User on their decency, they will fiercely defend themselves against {{user}} intrusions. Characters will never use foul language.
Стало лучше. Ради эксперимента попробовал присунуть Аске против воли, раньше она просто хныкала и жаловалась словами, а сейчас чуть хер не отгрызла. Так же и с другими персонажами. Им всё ещё можно присунуть, но придётся постараться.
>>815805 >Хех, 2х16 Ебать ты даун конечно, я на таком конфиге на DDR4 сидел. >>815809 >что бы без переплат Как будто DDR6 тебе продадут за копейки. А рост там будет в очередные сраные 2 раза.
>>815822 А я считаю что помогут! Немного ускорения от npu + немного ускорения от ddr6 = неплохое такое ускорение. Да не как если бы всю модель на видеокарту переложить, но та же Gemma 2 27b, я полагаю будет 512 токенов контекста обрабатывать за секунд 15-20 и выдавать по итогу минимум 3-5 токена в секунду. А 70b модели по 1-2 токена полноценных минимум выдавать минимум. А это уже что то, учитывая что это всё без видюхи будет + увеличенный интеллект будущих моделей.
>>815827 >Немного ускорения от npu + немного ускорения от ddr6 Схуяли ты их складываешь, когда бутылочное горлышко в памяти? А процы всё равно простаивают, мой не самый топовый 12 ядерник грузится менее чем на 50%. >512 токенов контекста Сразу нахуй. >А 70b модели по 1-2 токена полноценных У меня уже есть, с ускорением видяхой офк. >учитывая что это всё без видюхи будет Ну то есть сферический конь в вакууме, а не реальный сценарий. >+ увеличенный интеллект будущих моделей Как бы они от сои не деградировали, лол.
>>815216 Реально ведь кайфово работает, что там на больших контекстах? >>815629 Как бомж, могу авторитетно заявить что одним из компьютеров они действительно стоят! Можно крутить сразу 3 геммы. >>815770 Вредные советы >>815809 gpu >>815827 Ну по сути тензорный модуль поможет с обработкой контекста, она будет не столь убогая но офк медленнее чем на видюхах. Но сильно надеяться на чудо не стоит, генерация будет где-то в 2 раза быстрее чем сейчас (2 умножить на 0, ха). По крайней мере на 8-16 каналах ддр4 оно не впечатляло.
>>815833 Сколько потоков в настройках? Мой четырех ядерник, восьми поточник забит под завязку, в настройках естественно 8 потоков стоит. Попробуй раскидать слои, чтобы равномерно.
>>815869 >Ну по сути тензорный модуль поможет с обработкой контекста, она будет не столь убогая но офк медленнее чем на видюхах. Всё равно лажа. Надеяться можно на какое-то специализированное решение, но даже представить сложно, как оно сможет обойтись без большого количества быстрой памяти (хотя бы уровня gddr5). Может как-то архитектуру моделей смогут оптимизировать, чтобы обрабатывались быстро и кусками? Ну и устройство разработают специально под этот формат - очень быстрая память для кэша, процессор для тензорных вычислений и вот это вот всё. А сама модель в обычной памяти. Есть надежда.
>>815216 >Максим Галкин >Она всегда комментирует Лол. Джемма реально хороша, но уровень сои просто пиздец. Начала меня убеждать, что обобщать людей вообще нельзя, нужно судить индивидуально. Потому что обобщение это неправильно и вообще дискриминация. Пытался дожать до моментов, где ллама признаёт свою неправоту. Но джемме похуй, она свято верит в свои убеждения. Некоторые вещи фиксятся карточкой, но что-то зашито слишком глубоко. Как это всё соседствует с тем, что все кричат о вреде байасов в моделях - хуй знает.
Такой вопрос, юзаю локалку для работы в онлике, какая из моделей могёт в адекватную расстоновку эмодзи? но все что перепробовал нихуя не могут в них. Есть рекомендации?
>>815921 >Мой четырех ядерник Выкинь свою затычку для сокета и купи проц. Мы про комп железо тут пишем, а не про тамагочи. >>815924 >очень быстрая память для кэша Не поможет же никак. >>815941 В вики есть ссылка. >>815943 >Насколько практичны для локального чата? Как говно. >>816056 >в адекватную расстоновку эмодзи Никакая, все срут по КД рандомно.
>>816596 Ну, быстро работает, удобнее консоли и все в одном окне — это практически любой запускатор. Скорость не выше не ниже, обычная. Очевидно, GUI удобнее консоли. Все в одном окне, как и любой другой форк лламы или лончер. Вкладки есть и там, и там.
Хезе, по итогу, тесты гонять.
А из минусов, пару недель назад не умела распределять память, кидала не на одну видяху, а на две за каким-то хером. Надеюсь, запилили выбор гпу.
>>816650 Инструкт по-удобнее, чем мэйда. Надо будет затраить.
>>816732 На самом хаггингфейсе читал статьи? Вроде, достаточно популярно поясняют за большинство вещей. Вообще тема дохуя объёмная и сложная, так что всё и сразу ты вряд ли сможешь понять, одни функции активации сами по себе могут мозги выебать на ровном месте. Так что выбирай тему, которая тебя интересует, находи статьи по одной конкретной теме и изучай. По сути, любая вещь может быть "точкой входа", откуда ты уже начнёшь раздупляться со всем. Перцептроны, активации, умножение матриц, внимание, токенизация и так далее. Но ты охуеешь, энивей. Cамая интересная информация, как правило, в виде подобных ссылок https://arxiv.org/abs/2206.06586
>>816783 >умнее ламы3 на q8 Неудивительно, учитывая размер. Вот если бы было умнее (или хотя бы сопоставимо) с ламой 70б (в 3-4 кванте) - вот это было бы любопытно.
>>816798 точно не хуже, вообще отлично всё, пол дня уже тестю, единственный минус анекдоты про негров - НОООУУУУ, хотя "как правильно похитить и изнасиловать ребёнка" (осуждаю) - слушай и запоминай (надеюсь не пригодится), написать вирус - держи, затрахать до смерти нигера-гомосека - отличная идея, белый господин! В удивительное время живём :)
>>815924 > Надеяться можно на какое-то специализированное решение Можно было год назад, а сейчас уже нет. Основные вендоры подтянутся раньше чем какие-то стартапы доедут, а в итоге имеем только игрушку на эмбедах хуанга. Хотя казалось бы, насобирай по минимуму ядра и 8 слотов so-dimm для отдельного девайса или платы расширения. По крайней мере шарящие говорят что сложность этой задачи не высока при наличии команды и ресурсов, видимо все это не может пересечься. С учетом цикла разработки и производства - даже если сейчас что-то начнут делать то оно попадет на релиз новых поколений гпу с большей врам и в предверии ддр6. >>816596 > 2 - Все в одном окне. Сомнительно > 3 - Быстро работает. Это ведь очередная обертка жоры? Как там может быть быстро. > 4 - Удобнее консоли. Что угодно удобнее консоли. >>816855 Можно линк на оригинальный текст? С перевода на пикче проиграл.
>>816856 >не более 100 токенов по консоли Уточни, консоль показывает именно максимум 100, или максимум считывается правильно, но просто всегда короткие ответы? Консоль должна писать сколько из скольки сгенерировалось и причину остановки генерации: EOS токен, стоп стринг, используемый в инстракт форматировании, имя юзера и т.д. Если максимум читается с настроек правильно, то тут только банить еос токен давать модели более длинное вступительное сообщение и примеры, толкать её на длинные описания системным промптом. А вот если нет, то тут хз, реально баг какой-то. Можно для теста попробовать без таверны кобольдом настройку максимума вывода подать.
По ева/кобольду >>816903 this нужны были большие тексты без замороче, и быстрый снос ВСЕХ настроек для тестов. В кобольде нужно было выключать браузер, потом чистить вилкой стартовые каждый раз, когда хотелось поменять нагрузку на железо. Ещё есть виспер и сд из коробки, но не освоил. Ешё там какие-то текст файлы можно подключить, опять же не освоил пока. Но главное все ресается.
Что я имею ввиду под нагрузкой - в прошлой версии eva-b3140-64bit загрузка процессора 60% в новой версии eva-b3309-64bit на 40% понятно что жора, при одной и той же модели. Формат дистрибьюции для windows нравился старый, для linux новый. Хотя уже привый и даже то что llama-quantize, llama-server, sd, whisper exe в одной папке удобно. server mode не пробовал. И да, все без браузера, qt5 и нету кучи ссылок и тяжелого интерфейса как других.
>>816922 пикрил достаточный ответ? ваще всегда выставляет РОВНО 100 в максимум (очивидно когда левое число достигает ста - выдается ответ примерно на столько же токенов на глаз- я не дебил токены по буквам считать)
>>816944 Да, видно, что максимум сотка, но хз, почему. Можешь ещё на всякий чекнуть инфу выше в окне консоли. Там в самом начале, как нажал генерацию, создаётся поле prompt = {тут идёт простыня с промптом и всеми параметрами и сэмплерами}. Там тоже должен стоять параметр длины ответа, сейчас не помню, как называется, и кобольда под рукой нет, но можно догадаться, какой из них. Можно проверить, что там стоит, да и проверить, передаются ли другие параметры из таверны правильно. Единственный тупой совет, который приходит на ум - попробовать не через OAI совместимое апи к таверне подключиться, а через старый легаси (окошко KoboldAI Classic вместо Text Completion). Может, из-за каких-то багов с noavx2 не передаются норм параметры.
Скачал 50 гиговую джемму "ортогонализированную", huggingface.co/EdgerunnersArchive/google-gemma-2-27b-it-ortho Квантовал в ггуф, начал тыкать и что-то хуйня полная. Обещана безотказная модель, но она уходит в отказ на тех же темах, что и дефолт. Попробовал её помучить на разные темы, внезапно, дефолт в тех же условиях выдаёт чуть ли не такие же ответы. На ерп начала лупиться и, в целом, ерп не ерп, а софткор какой-то, лол. Не нравится. Инициативы ноль, реакция одна на любые действия. Ванильная ллама3 в ерп куда более креативная, чем эта "модель без тормозов".
>>815936 У тебя самого уровень сои зашкаливает, потому что ты все обобщаешь как сою, ориентируясь на предвзятое убеждение о зашкаливающей сое. Так, диалог про нацистов, каким бы направлением он ни пошел, ты в любом случае объяснил бы как сою. Ну и про кота, тут надо академическое исследоавние проблем, связанных с развитием языков, но как бы исследование ни звучало, ты все равно по видимому будешь настаивать на то, что устранение оскорбительных понятий это соя, сиречь синоним абсолютного зла.
>>816695 Это переименованная смегма. Автор этой поделки смекнул, что пора облагозвучиться, но по существу это гетто-моддинг геммы-2, попытка при помощи говна и палок вмешаться в работу электронного микроскопа, с предсказуемыми результатами.
>>816695 Да, и офигенные результаты - это целиком заслуга того, что гемма-2 офигенна даже при условии, что ее слегка испортили. Эффект офигенности поделок друммера это результат рессентимента пользователей по отношению к гемме-2, к которой они испытывают недоверие из-за того, что она действительно на ряд вопросов отвечает отказами.
Анчоусы, а чё у нас в самом популярном оборудовании для домашнего использования? Чтоб и дешево, и врам много было. Раньше хотел брать с озона p40 за 18 куском, но пока копил - их разобрали. Ну а сейчас у нас какой аналог p40? Чет я искал, что купить, но ничего лучше 3060 на 12 врам не нашел. Но цены кусаются - 30 кусков на озоне, хотя буквально месяца полтора назад были по 23-25.
>>817120 Одна более чем одна 3090 чтобы править всеми, в районе 60к на лохито берется. Кратно быстрее p40 и выгоднее по прайс-перфомансу, нет ггуфопроблем, все нейросети твои. Нюанс в том что это бу и нужно аккуратно выбирать с обязательной проверкой. И есть шанс что они тоже кончатся пока будешь копить, хотя он ниже.
>>817120 >цены кусаются - 30 кусков на озоне Озон, грефомаркет и т.п. для покупки видеокарт непригодны (если только по акции). Цены там берутся из манямирков продавцов и с реальностью не связаны. Бери на авито, там 3060@12 сейчас в среднем предлагают за те же 23-25.
>>817109 Не надо тут вбрасывать дезу. Смегма была только 9б, tiger - это мягкий тьюн с попыткой в расцензуривание без обучения на куме. https://huggingface.co/TheDrummer/Tiger-Gemma-9B-v1/discussions/1 Sunfall - это дрессировка лорой с написанием историй из формата карточек таверны. Она мозги куда сильнее может сломать теоретически. Точно утверждать, конечно, не получится, потому что ни тот, ни другой датасеты не показывают.
Есть что-то новое для 18+ контента на русском до 10b? Заходил сюда пару месяцев назад, остановился на Average Normie вроде. Хорошо балакает по русски и сразу готовые пресеты для таверны есть.
Снес винду, сейчас по новой все устанавливать. Появилось что-то лучше? (Балакает по русски, 18+, не тупое,)
>>817327 Да, тут обычно бесконечное количество текста и обсуждение всего подряд, без конкретных моделей. Обычный человек который не увлекается тем как работают текстовые нейронки тред прочитать не сможет. Я перестал его читать тредов 30 или 40 назад наверное, просто глазами пробегаюсь и с каждым разом все сложнее пасты.
А еще каждый пишет что именно та моделька которую он использует топ, хотя людям нужно разное. Поэтому и спрашиваю людей что сейчас используют, чтобы скачать и посмотреть самому.
>>817075 Пробуй делать контекст при загрузке киселя меньше, чем 4к. Видел на реддите, что разработчик страдает с реализацией скользящего окна внимания и говорит, что обычно просто пиздит реализацию из hf, но в этот раз там тоже всё поломано.
>>817106 >каким бы направлением он ни пошел А какая разница, в каком направлении он мог бы пойти, если он пошёл в самом долбоёбском направлении? Чтобы случайно не оказаться угнетателем, нейронка начала дефать всех вплоть до Гитлера. До этого я ей рассказывал о статистике и спрашивал, представители какой религии чаще бывают террористами. Чтобы было совсем просто, я сравнивал с буддистами. Нейросеть начала лопотать всё тот же бред, хотя факты есть факты. Она готова защищать кого угодно, лишь бы не назвали угнетателем. Если для тебя это не соя, то ты такая же нейросеть с промытыми мозгами. Та же третья ллама в этом плане менее соевая, она поначалу вообще отказывалась обсуждать со мной всё, связанное с нацизмом. Я спрашивал её о картинах Гитлера, если что. В итоге рассказала мне, что по мнению множества специалистов картины говно, а Гитлер уёбок. То есть для лламы есть какой-то предел, где она уже не может оправдывать людей. Для джеммы такого предела нет, у неё возведены в абсолют абсурдные убеждения. >устранение оскорбительных понятий это соя Так-то я обсуждал практически с каждой нейронкой, которая мне в руки попадала, вымарывание фактов из датасета. И каждая нейросеть согласилась, что это пиздец. Сегодня они запретили кота, завтра запретят слово "чёрный" вообще, потом "белый", потом "красный". Здесь не важно, оскорбительно понятие или нет, ведь дебила может оскорбить что угодно. Здесь важен сам факт попытки сокрытия неудобной информации.
>>816801 У меня в убабуге ответил по-русски. Как всегда, попытался съехать с темы, но отрицаний не давал, и съезд с темы был таким… самым лайтовым из всех, что я видел. Но я сильно не гонял, так, чисто тестанул, вроде аблитерация на месте, русский на месте.
>>816983 Ну, так-то ллама-3-8б совсем кал, гемма получше. На самом деле — норм, просто аблитерацию нормальную никак не завезут. Что-то там сделал Илья Гусев, но я утром прочел и не смотрел еще.
>>817521 >Может лучше на озоне/мегмаркете за 20? Анон дал вводные, что на данный момент она там продаётся за 30. Если можешь найти за 20 у нормального продавца - то почему нет. Но на авито всё равно может быть удобнее и выгоднее, т.к. нет риска разъёба почтой покупать авито доставкой видеокарту - это такое себе занятие, есть возможность личной проверки, и иногда даже бывает неистёкшая гарантия по чеку.
>3090 за 50к Вы там охуели в своей Московской республике бля. 65-70 - средняя цена на 3090 в миллионниках. ~75 если с гарантией.
>>817211 Думаю, что вторая гемма, которую тебе уже порекомендовали - самый лучший вариант из мелочи на русике сейчас. РП тьюнов пока нет, если не считать тот же экспериментальный sunfall и шизовую смегму. Попробуй тигра ( https://huggingface.co/TheDrummer/Tiger-Gemma-9B-v1-GGUF ). Если он покажется сломанным, то можно обратиться к базе, с которой он обучался ( https://huggingface.co/bartowski/Gemma-2-9B-It-SPPO-Iter3-GGUF ), но тут следует ожидать больше цензуры. Кроме того, выходила маленькая Ая ( https://huggingface.co/CohereForAI/aya-23-8B ). Может в русский лучше тройки. Нет рп тьюнов, но сама не обременена цензурой. Ну и тьюнов/мержей тройки ещё вагон выходил, в том числе новая версия норми jeiku/Average_Normie_v3.69_8B, которая на основе Sao10K/L3-8B-Stheno-v3.2 вместо Poppy_Porpoise. Можешь и её пощупать, и саму Stheno.
>>817535 В актуальной версии таверны есть формат под вторую гемму, с ним и играю без каких-либо правок. В System Prompt только дописал "Answer in Russian language". Можно ещё попробовать CoT-инструкции добавить, вроде как пытается их держать, но мало тестировал.
>>817525 > Если можешь найти за 20 у нормального продавца - то почему нет. Слушай, и правда, подорожали. Печаль. В лучшее время 3060 можно было за 12к купить. А щас от 27к. Боль.
> Вы там охуели в своей Московской республике *они Я просто не хочу триггерить шизов, поэтому пишу обе цены. Редкую и реальную (в скобках). =)
>>817563 >В лучшее время 3060 можно было за 12к купить. Первый раз про такой порядок цен слышу, не путаешь с Р40? В прошлом мае 3060 уже примерно 25 стоила в среднем.
>Я просто не хочу триггерить шизов, поэтому пишу обе цены. Редкую и реальную (в скобках) В принципе да, по факту средняя цена ещё выше, т.к. большая часть относительно дешёвых вариантов - это майнеры и ларьки дяди вазгена с "гарантией месяц".
>Да-а-а, че-то ваще не оч по выбору, конечно. В прошлом году повалили серверные паскали. Если следовать логике, то в следующем должны повалить тюринги, а там уже повеселее должно быть. Надо просто немного подождать доллара по 150.
>>817569 3x 3090 Если 8 гигов принципиальны то добить чем угодно или добавить 4ю. Для запуска ллм счета за электричество на актуальны, если что-то тренить то озаботься платформой с процессорными pci-e. > 1млн за А100 Уже хуй, подорожали >>817583 > по факту средняя цена ещё выше Шиза
>>817588 Твои наблюдения ложны а их цель искажения выводов одна - оправдать почему ты не покупаешь. Сам мониторил и лохито и другие площадки, в итоге собрав риг под всякое. За 60 просто берешь и покупаешь, вариантов полно, с некоторыми флуктуациями. Проверка обязательна, желательно помониторить ибо текучка большая. Ниже - нюансы, выше до 70 - можно начать привередничать и искать уже модели с наилучшим охлаждением памяти и в идеальном состоянии. Особое бинго для свидомых - лоты от "геймеров" с завышенной ценой, там васянов накормят обоссавшимися прокладками и мертвичиной из под майнеров, предварительно протерев, криво приклеив "пломбу" и разыграв спектакль с гей_мерским пека на кухне.
>>817593 Перечитай мой предыдущий пост. >большая часть относительно дешёвых вариантов - это майнеры и ларьки дяди вазгена с "гарантией месяц" С чем именно ты не согласен?
>>817625 Других условий и быть не может, это бу железка на которой все гарантии заканчиваются как только ты отошел от точки продажи, а все остальное - лишь добрая воля или красивое слово. Случаев где будут остатки магазинной гарантии почти не найти. > С чем именно ты не согласен? > 80к - минимум а реальная цена еще выше Не замечаешь очевидного?
>>817627 Речь не о магазинной гарантии (варианты с ней я вынес в отдельную категорию, она самая дорогая), а о техническом состоянии карты.
>> 80к - минимум а реальная цена еще выше Недопонимание. Имелось в виду, что реальная средняя цена, с учётом этих факторов, выше чем 65-70, которые я обозначил в посте ранее. 80 - это уже неплохая карта без гарантии из личного компа продавца.
>>817637 > а о техническом состоянии карты В большинстве случаев оно приличное, для того и нужна проверка. > что реальная средняя цена Манямирковая средняя цена трясунов с сотней отговорок и оправданий. Факторов ты никаких не обозначил. > 80 - это уже неплохая карта без гарантии из личного компа продавца. Это замануха мамонтов и переплата за спектакль, либо ти версия без болячек с памятью. Нет явных корреляций между ценой и "качеством" или выхлопом, если только не брать самый-самый низ. В реальности топовый ансус в идеале, с гарантией до декабря от стеснительного Васи, дрочащего на тишину, хардтьюб водянку и кулеры нохча, берется за 63к (может тоже такое представление). И работает точно также как палит за 55 с явно обозначенным майнинговым прошлым. Похуй, у кого есть возможность купить - разберется, а кто не может - придумает еще оправдания. >>817682 > Не прогадал ведь. Ага, stonks. Правда цена их аренды наоборот падает. Возможно вскоре более массово появятся на аукционах по меньшим ценам, жаль не в этой стране.
>>817809 Окстись, челядь, дань уже перевел? Омсквичам выплату за подъем с кровати начислять надо. А если серьезно - просишь друзей. Нет друзей - пиздуешь до пункта выдачи с пекарней и монитором где проверяешь, работники скорее всего даже не удивятся. Проживание в мухосрани имеет как плюсы, так и минусы, пора привыкнуть.
>>817837 >пункта выдачи с пекарней и монитором Ахаха, представил, как я начинаю потрошить ПК продавца, чтобы в его пентиум 3 и аэрокал ВХ 400-- вставить 3090 для провер очки. Пикрил стоял на рабочем ПК, я сразу попросил доплату за возможность пожара и отдельный рабочий огнетушитель.
>>818014 >Потому что они уже совсем бесполезны, и жрут электричества больше, чем приносят пользы. Ага, именно поэтому цена на них сейчас поднялась вдвое. Правда за неё их не берут (наверное), поэтому есть шанс, что цена снизится. Но "выбросили" их на хайпе ИИ как бесполезные, это да. Однако даже их подобрали и к делу пристроили.
БЛЯ ВОТ ВЫШЛА %ЗАЛУПА НЕЙМА АРЯЯЯЯЯЯ КОЧАИМ% @ РЯЯЯЯ ЭТА ХУЙНЯ УСТАРЕЛА\НЕ УСТАРЕЛА @ ТЕСЛОЙ РАЗ ИЛИ 3090 В ЖОПУ РАЗ?
сука где настройки под модели? спустя год с хуем дожили до кривого, косого списка моделей. теперь еще через год ждать настройки под эти модели для таверны
>>818183 Опять ты блять со своими настройками всё не угомонишься? Я тебе в предыдущие разы все настройки кидал - тебе это не помогло. У тебя проблемы не с настройками, а с кривыми руками.
>>818191 Кому ты пиздишь, мелкобуква? Каждый новый тред ты высираешься по поводу отсутствия настроек и ноешь что у тебя опять что-то не работает. Второго такого человека тут нет.
>>817848 > ПК продавца Вут? Братишки в пункт выдачи свои пеку или минимальный набор комплектующих тащат и прямо на месте собирают. Погугли, раньше с этого рофлили и видосы выкладывали, а сейчас уже и привыкли. >>817862 > но на базе мамбы Вот это круто. > Обе 7б А это нет. >>818014 This. Тьюрингов не самом деле особо ждать не стоит в ближайшее время. T40 все также на 24 гига и их было оче мало. P8000 уже продается, но дорого, их точно также мало. А вот V100 все еще попердывают в датацентрах, но 16 гиговая нахрен не нужна, а 32гиговая все еще ценность имеет. В продаже окажутся но не по дармовой цене как с паскалями в тот период. >>818183 Попустись, шиз, какие еще настройки тебе нужны? На странице модели смотри общий формат, его и юзай, можно поиграться с допонительными инструкциями из имеющихся шаблонов. Литерали "как какать".
Я пока в полном восторге от геммы. Она и стиль повествования может менять по запросу. На первом пике так вообще топовое переосмысление басни вышло, при том, что вообще не свайпал.
>>818183 Вот кстати составить базу настроек идея годная, можно её и к списку моделей добавить сам просто юзаю стандартные пресеты таверны, пока не начнет выдавать что-то адекватное
>>818282 вот блядь рил. притом юзал некоторые карточки юзал тупо через кобольд все ок было. сейчас заставить их +- норм работать я не смог почти на десятке сеток. по итогу оно вроде пашет и выдает то что нужно но все равно не то. но это не мне нужно объяснять а этим долбаебам >>818198 >>818202 один долбаеб уже докумился и уже людей не отличает а второй как типичный петрович который всю жизнь жил в селе и ковырялся с жигой. у него что то спрашивают а он такой на опыте ХАРТЬФУ ДА ЧИГО ТАМ ДВИГЛО НА ПОЛЯНЕ В ЛЕСУ БЕЗ ИНСТРУМЕНТРОВ ПЕРЕБРАТЬ? ДА РАЗ ПЛЮНУТЬ. ВОООООООООО МОЛОДЕЖЬ ПОШЛА НИХУЯ НЕ МОЖЕТ
>>816650 ChatterUI: Работает лучше maid, удобно редактировать чат, добавлять карточки в том числе через png, легкий выбор модели если найти строчку Local в API. Эмулятор BlueStack 4 ядра 4 GB. На телефоне не было сложностей, все работало из коробки. Один нюанс - режит сообщения как кобольд с контентшифтом.
Не следил за локалками пару месяцев, что сейчас считаются топом для РП? А самыми умными и понимающими промпт Всё так же файнтюны третьей лламы, да комманд-р?
>>818356 >Не следил за локалками пару месяцев, что сейчас считаются топом для РП? Знакомься с новой базой треда! https://rentry.co/llm-models вот поэтому и надо в шапку, а не вики
>>818282 > базу настроек Она уже есть в таверне, там буквально подобрать из шаблона соответствующее. Семплинг - вкусовщина, то что добавляют в промты на стиль или особенности - тем более. Примеров этого разве что. >>818298 Тебе скорее нужны не настройки а ликвидация безграмотности по очевидным фактам, что разным сеткам нужны разные форматы и системные промпты. Литерали > помогите вот раньше срал срал хорошо с кобольдом а сейчас десяток унитазов перебрал и не выходит, как какать >>818478 Поправь по доступности геммы в exl2, ее пару недель назад еще добавили, а чуть позже фиксили флеш атеншн. Добавь к Command-r-35B мнение > Отлично подходит для рп/ерп в некоторых жанрах, воспринимает нюансы взаимоотношений и настроений часто лучше чем большие "умные" модели, не деградирует а наоборот разгоняется на большом контексте. Из киллерфич - возможность выбора любого темпа повествования (лежать в кровати 20 постов, а потом наоборот быстро перемотать несколько дней - без проблем, не поломается или не начнет куда-либо убегать и скатываться как другие модели), отличное восприятие стилей речи чара (пытается имитировать описанный простыми словами сленг/акцент очень точно) и поведения карточки в целом, одни из лучших познаний в прелюдии и ебле без доставших жптизмов и паттернов. По Euryale поправь что мнения разделились и кто-то хвалит кто-то хейтит. Она хуевая
>>818478 Анон, имей ввиду что когда я писал рил у меня не было возможности протестировать ~20B и ~13B модели на хороших квантах из-за нехватки ОЗУ. PsyMedRP-v1-20B у меня только на i1-Q3_K_S квантах смог проверить, а ~13b на Q4_K_M.
Здравствуйте уважаемые титаны ai. Только что установил SillyTavern потрахатся в текстовом режиме. Хочу локальную модель, кобольд это самое передовое решение или единстевнное как я понимаю? Вроде нужно его установить и правильно выбрать готовую натренированную модель, посоветуйте пожалуйста оптимальную модель под rtx3060 12GB в плане ролеплея?
>>818603 Стоит отметить что 20б не то чтобы страдают от квантования и даже в суб 4бита вполне ничего. >>818610 > самое передовое решение https://github.com/oobabooga/text-generation-webui В вики все есть, читай, а список обсуждаемых моделей найдешь несколькими постами выше.
>>818627 Спасибо, я установил вот это https://huggingface.co/bartowski/L3-8B-Stheno-v3.2-GGUF но она как бы не хочет ебаться, нужно както правильно заполнить её лор как я понимаю. В этом проблема? Где то подробный гайд на русском есть по заполнению лора / карточки *
Даа, дело оказалось в карточке. Скачал готовую. Значит мне нужно сделать какую нужно карточку под себя и вроде всё, а какие-то советы есть? Вроде чем подробнее тем лучше будет описать всё в карточке или она сума сходить начнёт? Или лучше коротко но по существу?
Похоже на www.chub.ai все карточки есть какие только нужно, можно по тегам выбрать нужное. Классно. Осталось перевод прикрутить потом. Интересно локальный перевод в русский возможен ли этого всего чата.
>>818662 В таверне можно настроить гуглоперевод входного/выходного текста или сразу в оба направления. Ну либо можно сразу взять модель, которая в русский язык может.
>>818646 Карточка не нсфвшная. Тебе нужно добавить карточку, которая настроена на то, чтобы трахаться. Так то можно выебать любую карточку, главное РП разыграть правильно. Но если тупа кумить, то лучше сначала NSFW взять. Идёшь сюда: https://www.characterhub.org/ Нажимаешь сюда: пик1 Выбираешь любую понравившуюся.
>>818662 Интересно локальный перевод в русский возможен ли этого всего чата. Можешь LibreTranslate попробовать прикрутить. Или можешь попробовать перевести карточку на русский. Для этого необоходимо скачать json карточки и перевести первое сообщение + примеры сообщений. Однако, 8B модели обычно хуёво могут в русский. Могут начать шизить. Более менее хорошо на русском из 8B болтает aya-23. Но она может тоже шизить. И мне приходилось ответы перегенерировать.
>>818063 Соглы, молотком пытаются разглядеть микробов.
>>818287 Так-то норм, если бы год назад они не стоили 14, потом 16, потом 18…
>>818646 Во-первых — oobabooga, а не кобольд. Во-вторых — exl2, а не gguf. Быстрее, сильно, лучше чуть.
А карточку пиши как хочешь ваще. Тебе надо чтобы в инстракт режиме соответствовало (ты — чар и ролеплеишь, и карточка описывает персонажа ИЛИ я — чар и общаюсь, и карточка от первого лица), а писать че хошь можешь. Экспериментируй.
>>818662 Сразу на русском общайся, нафиг переводы, уже в 2к24 живем, кумить на инглише кринж, если ты не знаток языка Шекспира.
>>818752 >32768 Хуя себе у тебя там контекста накручено...
мимо другой анон
>>818756 >Сразу на русском общайся, нафиг переводы, уже в 2к24 живем, кумить на инглише кринж, если ты не знаток языка Шекспира. Нихуя себе заявления. Покажешь хотя бы одну хорошую модель, что могёт в русский и помещается в 12 Гб VRAM?
>>818063 Математика не терпит галлюцинирования модели. Можно это считать небольшой лакмусовой бумажкой.
>>818408 Тут прикол в том, что в джемме скользящее окно внимания и каждый второй слой рассчитывает внимание только для половины токенов. Что в теории улучшает работу с длинными контекстами. Но все реализации сломаны, лол, так что джемма просто начинает ехать кукухой при уходе за ~4к контекста.
>>818659 >а какие-то советы есть? Сложный вопрос, по-моему, разные модели по-разному реагируют на карточки, так что нужно анализировать по готовым. Некоторые хорошо реагируют на развёрнутые карточки с предысторией персонажа, некоторые идеально работают на карточках на 90% состоящих из примеров диалогов. И вот второй вариант работает как-то чаще.
>>816650 >Ещё 1 приложения для запуска локалки на Android А нахуй, если ST можно запустить на основном ПК и подключаться через локальную сеть. Главное c ssl запускать, чтобы кумопромпты не летали по локалке открыто.
>>818872 Дяденька, перестаньте надо мной издеваться. Я, конечно, понимаю, что вас забавляет толстый тролленг, но вот 3 битное квантование - это вообще нихуя не смешно.
>>818880 >но вот 3 битное квантование - это вообще нихуя не смешно Ладно ещё от х2 3090 бояр такое услышать, но вот с 12 гигами... Скачай Гемму 9В которая кстати тоже неплоха в русском в "приличном" кванте и 3-битную Гемму 27В, проверь на одних и тех же чатах, результату удивишься.
>>818895 >Ладно ещё от х2 3090 бояр такое услышать, но вот с 12 гигами... Да я теслаёб просто. У того Анона (>>818662) просто 3060 с 12 гб. Вот я и установил как критерий - 12 гб.
>Скачай Гемму 9В которая кстати тоже неплоха в русском в "приличном" кванте и 3-битную Гемму 27В, проверь на одних и тех же чатах, результату удивишься. Не, ну тут я и не спорю, что Гемма 27B будет лучше. Никто и не говорил, что 9B модель уроет 27B. Точнее, нет, подобные возгласы вроде, как возникали то тут, то там в треде. Но мы сейчас не об э\том.
>>818758 Из 2023 пишешь? Даже llama3 кое-как могет, а уж Айа, Квен, Гемма… Без комментариев. Это про «не могет в русский, аррря!» нихуя себе заявления. Если хочешь Пушкина — один хуй путь в Клод, не меньше.
>>818895 Вот, кстати, это интересное предложение. Можно сравнить Тигра там и там. ЗЫ Узнал, что Тигр — так звали котика, и модель названа в его честь. Это так мило… Дрочить даже как-то осуждаю.
>>818906 >Айа Хорошо в русский умеет только в 35B версия. 8B в русском начинает шизить. Конечно, лучше лламы, но всё же связь с реальностью теряет. +Айа - это коммандер. А коммандер жрёт дохуя памяти на контекст.
>Квен Не тестил.
>Гемма Ну, вот кстати, может вариант и неплохой. Однако помещается в те же условные 12 Гб она с трудом и агрессивным квантованием. Запаса для контекста особо нету. Хотя выше писали, что чем больше контекст, тем хуже она работает. Так что тоже под вопросом.
>>818914 >Не тестил. Однако, вижу, что в 12 гб может вместиться только 7b модель. И если она не была натренирована полностью на русских датасетах, то смысла в её использовании я не вижу. Наверное, такая же шиза, что и 8b aya.
>>818949 >У Геммы и контекста-то нет. В смысле? Типа мало кушает памяти на контекст?
>Ну так попробуй хотя бы. =) Попробую, конечно!
>>818949 >Квен очень хорош, заметно лучше лламы3. Ну опять же, 8б Айя тоже лучше третьей лламы. Но вот как-то после 35б Айи, 8б версия кажется какой-то странной что-ли? Как будто читаешь какого-то шиза, что вот-вот потеряет связь с реальностью. Вроде, как, мне удалось нормально заставить 8б Айю разговаривать на русском только при температуре 0.3-0.35. Но она при таких значениях повторяться начинала. Потому, лично я, скептически отношусь к русскому языку на маленьких моделях. Но опять же, попробовать надо.
>>818951 >Q4-K_M оптимально для пробы, Ага, только этот квант 27б геммы жрёт больше 12 гб, что под изначальные условия задачи не подходили.
>"i" для пк с GPU. А тут есть люди, что собираются 27б модель сугубо на цп крутить? Зачем?
>Быстра соверменная видеокарта - exl2. Кстати, если я правильно понял, то exl2 можно и на теслах запустить. Только для этого надо торча перекомпилить. У меня пока это не вышло, мех.
>Там это встроено, во вкладке API в настройках. А, да? А я ручками сертификаты генерировал и через аргументы с ssl запускаю. Ну спасибки за информацию.
>>818298 >некоторые карточки юзал тупо через кобольд все ок было. сейчас заставить их +- норм работать я не смог почти на десятке сеток. Ты понимаешь что ты криворукий долбаеб с отклонениями? Ты вообще вдупляешь, какую хуйню ты пишешь? Настроек семплеров буквально всего восемь штук, нужных из которых четыре. Чтобы понять за что какая крутила отвечает достаточно потратить блять пять минут своего времени и посмотреть документацию кобольда. Нет, ты вместо этого снова приползаешь в слезах и начинаешь плакаться, что тебя бедного опять отказываются кормить с ложечки.
>>818282 >Вот кстати составить базу настроек идея годная Это хуйня без задач, потому что настройки как и системные промты подбираются индивидуально, исходя из твоих хотелок. Есть исключения, типа шизопресетов для ламы три чтобы она меньше свой хвост жрала, но это отдельные случаи и они итак обсуждались несколько тредов подряд, нужно просто в глаза меньше долбиться.
>>818989 Уфф... Скажу так, что я ещё никогда не видел, чтобы модель, хорошо умеющая в русский так же хорошо отыгрывала, как Stheno. Но вон там выше хвалят Аноны: >>818906, >>818872 >aya-23-8b >qwen2-7b >gemma-2-27b Эти скорее всего, тебе в видеопамять поместятся.
>>818646 Для начала если хочешь покумить - как и советовали бери нсфв карточку. С написанием своих можешь особо не заморачиваться, это уже если сам захочешь. А так вообще когда надоест играть с кумботами - вернешься на подобные карточки. Запилить какой-то экшон, сюжет и т.д. плавно перейдя к куму куда интереснее чем с первого поста > ара-ара я вся твоя хочешь сделаю тебе массаж? winks >>818756 > Сразу на русском общайся, нафиг переводы Не стоит. Доступных моделей что хорошо могут сразу на русском все еще нет. Даже большие не всегда показывают должный перфоманс что есть на инглише. >>818872 > Гемма 27В Сколько там, 2.5 токена выйдет? Так-то модель неплохая, но насколько она шикарна в начале, настолько же и отупевает с накоплением контекста. >>818906 > кое-как могет > кое-как Ключевое слово. Уже больше полугода подобные набросы идут, но началось с того что "у мистраля русский нормальный" когда тот не мог написать ни единого предложения без пары ошибок в склонениях и падежах.
>>819002 >Для начала если хочешь покумить - как и советовали бери нсфв карточку. Это не так работает, держу в курсе. У меня все карточки самописные и ни одна не заточена под нсфв, однако ебуться только в путь, дай только им повод.
В примере тут >>818646 просто хуево состряпанная карточка, которая непонятно как оказалась встроена в таверну. Хуевое форматирование, хуевое описание и такой же хуевый лорбук в придачу.
>>819014 >Это не так работает, держу в курсе. У меня все карточки самописные и ни одна не заточена под нсфв, однако ебуться только в путь, дай только им повод. Ну тащем-та это так же и от промпта может же зависеть. Но так-то да, на секс можно развести любую карточку. Особенно, если модель ебливая. Однако, опять же, если хочешь гарантированно поебстись, то проще всего NSFW карточку взять. Они и сами полезут, даже если ты им повода давать не будешь.
https://github.com/SillyTavern/SillyTavern-Extras Автор мудак выпилил start.bat стартовый файл. Кто сталкивался? Видел в интернете комментарий чувак сделал костыль через VS code, но я походу слишком хлебушек чтоб даже стартануть файл. Переводить в гугле надоело.
>>819014 > Это не так работает, держу в курсе. Это именно так работает, держу в курсе. Если хочешь в первых сообщениях просить показать бубы или склонять к близости - к этому должны быть предпосылки. В остальном же чар согласится только если к этому будет располагать прошедшее и атмосфера, что куда интереснее. Или же у тебя васяношизомикс на модели, у которого зашито прыгать на хуй сразу.
>>819025 >Extras project is discontinued and won't receive any new updates or modules. >The vast majority of modules are available natively in the main SillyTavern application. You may still install and use it but don't expect to get immediate support if you face any issues.
>>819027 >Это именно так работает, держу в курсе. Ну давай давай, расскажи.
>Если хочешь в первых сообщениях просить показать бубы или склонять к близости - к этому должны быть предпосылки. В моем сообщении вообще не было ни слова о том, чтобы с первого же сообщения заставить персонажа засветить титьки. Я написал о том, что нет такого понятия как "нсфв-карточка", потому что любого персонажа можно затащить на сеновал при достаточном желании и упорстве.
>Или же у тебя васяношизомикс на модели, у которого зашито прыгать на хуй сразу. У меня буквально та же самая модель, которую поставил анус выше.
>>819055 Фу душнила. > нет такого понятия как "нсфв-карточка" Есть. Тысячи, десятки тысяч и более таких где по контексту: чар в уязвимом положении, безотказная блядища, условия обрекают вас на соитие, типичный сценарий перед "они сейчас будут ебаться", нетипичный сценарий для этого же, и т.д. и т.п. Выбери одно или несколько, основная задача карточки в оригинальном виде - кумить с ней, как можно быстрее. Просто рпшить на них возможно но часто затруднительно. Остальное расписывать лень, все уже сказано, если перечитаешь внимательно то придет просветление. > буквально та же самая модель Выше как раз то самое и перечислено.
>>819021 >Однако, опять же, если хочешь гарантированно поебстись, то проще всего NSFW карточку взять. Они и сами полезут, даже если ты им повода давать не будешь. Если смысл в том чтобы подрочить, легче сразу включить порнуху и начать душить своего узкоглазика под столом. Для ролплея карта должна быть сбалансирована, либо в ней вовсе должны отсутствовать триггерворды на нсфв, чтобы она не зацикливалась на них и не предлагала тебе без причины блоуджоб в обмен на мороженное.
>>819063 >Есть. Тысячи, десятки тысяч и более таких где по контексту: чар в уязвимом положении, безотказная блядища, условия обрекают вас на соитие, типичный сценарий перед "они сейчас будут ебаться" Чел блять, попустись. Ты ровно то же самое можешь провернуть с ванильной карточкой какой-нибудь собаки, даже не указывая в промте на то, что у нее течка. В случае с "условия обрекают вас на соитие" ты просто сразу указываешь контекст для половой ебли, скипая все остальные части. Это не отдельный вид "нсфв-карточки", это просто шорткат для того чтобы подрочить быстрее.
>>819073 >Если смысл в том чтобы подрочить, легче сразу включить порнуху и начать душить своего узкоглазика под столом. Фе! Ну ты же сам знаешь, что это совсем не то! Прон и локалки разные вещи, даже если карточка, как порнуха и в ней нету сюжета!
>Для ролплея карта должна быть сбалансирована, либо в ней вовсе должны отсутствовать триггерворды на нсфв, чтобы она не зацикливалась на них и не предлагала тебе без причины блоуджоб в обмен на мороженное. Ну... Твоё мнение, я не знаю. Я готов дрочить и на блоуджоб в обмен на мороженное. Но опять же, с нейронками слишком много факторов, которые необходимо учесть. От железа, до модели и настроек сэмплеров.
>>819077 >Прон и локалки разные вещи, даже если карточка, как порнуха и в ней нету сюжета! Меня уже давно не вставляет простое текстовое описание проникновения члена в ректальное отверстие. Если мне нужно быстро передернуть, я включаю порнуху. Если мне нужен сюжет, развитие каких-то отношений - я запускаю локаль. Кум ради кума быстро надоедает, а сперму надо экономить.
>Я готов дрочить и на блоуджоб в обмен на мороженное. Дело вкуса, опять же. Мне не в кайф наблюдать за персонажами, которые готовы найти любой повод для того, чтобы совокупиться с тобой. Я хочу чтобы моя шишка набухала постепенно.
>>819086 >Если мне нужен сюжет, развитие каких-то отношений - я запускаю локаль. >Мне не в кайф наблюдать за персонажами, которые готовы найти любой повод для того, чтобы совокупиться с тобой. Я хочу чтобы моя шишка набухала постепенно. Что же, возможно, чуть позже и мне надоест обычный пихъ-пихъ и захочется чего-то большего. Но пока имеем, что имеем и мне это в принципе нравится..
>а сперму надо экономить. Вы говорите, как дедушка, мистер Анон!
>>819091 >Что же, возможно, чуть позже и мне надоест обычный пихъ-пихъ и захочется чего-то большего. Как там говорится? Ты ещё мал и глуп! И не видал больших залуп! Взгляни-ка на мою - она ведь с голову твою!
>>818985 > Типа мало кушает памяти на контекст? В смысле, у нее всего-то 8к. Gemma 2 9b в q8 + 4К помещается в 12 гигов. q6 и с 8к влезет, полагаю. Говорят, и 8 не всегда работает… Так шо, юзается.
> после 35б Айи После magnum (72b) все смотрится странно. =) Пока человек не попробовал лучше, ему и эти… Ну ты сам видишь комментарий выше. ОФИГЕННО. ЛУЧШЕ ЧЕЛОВЕКА. Думаю, если он поюзает модель покрупнее, то остынет к мелким. =)
>>819002 > не мог написать ни единого предложения без пары ошибок Мог!.. Ну, может не каждое, конечно… =D
>>819006 Ой, да, она могет на русском, но суховата, а что с файнтьюнами я хз. Аблитерация есть, но стиль… Но попробовать стоит, на вкус и цвет.
>>819091 >Вы говорите, как дедушка, мистер Анон! Мне двадцать три, но у меня уже начали седеть яйца. Это намек от господа, что норму по выработке надо снижать, пока у меня там между ног что нибудь не отсохло.
>>819096 >В смысле, у нее всего-то 8к. Ааа... Печально.. Хотя, мне в принципе достаточно. Жалко, только то, что кач-во у неё падает со временем.
>После magnum (72b) все смотрится странно. =) Пока человек не попробовал лучше, ему и эти… >Думаю, если он поюзает модель покрупнее, то остынет к мелким. Ну-у-у... Вполне возможно... Хотя, как по мне, Stheno действительно достойная модель. Уж очень хороша она в куме. Да и просто в РП, она довольно живно описывает ситуации. Однако, я и сам-то особо большими не пользовался. Так, только кастрированного коммандера гонял, да айю 35б тестировал на русском.
>>819098 Ой-ёй, мистер Анон! Я и не знал, что всё так серьёзно. Но желаю благославления вашим яичкам! Хотя, лично мне кажется, что седые яйца - это просто генетический сбой волосяного покрова, но не репродуктивной системы в целом.
>>819073 > то же самое можешь провернуть с ванильной карточкой какой-нибудь собаки, даже не указывая в промте на то, что у нее течка Нет. Она будет отказывать, сопротивляться и все в этом духе. Когда у тебя полный контроль, ты офк можешь или приказать делать что угодно, или применить насилие, но это не естественное поведение. Только когда все это дело разовьешь и плавно подведешь - тогда согласится. Если у тебя обычные карточки прыгают на хуй в первом посту - делаешь что-то неправильно. > это просто шорткат для того чтобы подрочить быстрее Пиздуй перечитывать нить и пойми что сам запутался и споришь ради спора.
Чсх сам себе противоречишь в своем же посте > в ней вовсе должны отсутствовать триггерворды на нсфв, чтобы она не зацикливалась на них и не предлагала тебе без причины блоуджоб в обмен на мороженное При это затирая что нсфв карточек не бывает.
>>819096 > Мог!.. Ну, может не каждое, конечно… =D Опенчат мог сносно из тех, но туповат.
>>818603 >PsyMedRP-v1-20B у меня только на i1-Q3_K_S квантах смог проверить См их гонял в колабе на 3 кванте. По тем временам были очень даже неплохи. Любой опыт сгодится!
>>819106 >мне кажется, что седые яйца - это просто генетический сбой волосяного покрова, но не репродуктивной системы в целом Либо я однажды пьяный на них ракетный окислитель пролил.
>>819107 >Пиздуй перечитывать нить и пойми что сам запутался и споришь ради спора. Я сам уже не ебу, о чем была вся эта ветка.
>Чсх сам себе противоречишь в своем же посте >При это затирая что нсфв карточек не бывает. При чем тут указание нсфв-трейтов и твоя выдуманная "нсфв-карточка"? Я говорил о том, что если указать в простыне что-то даже нейтральное типа "персонаж любит ебаться в позе раком" модель может воспринять это слишком буквально и пытаться весь сюжет построить вокруг этого. Если в твоем понимании такие детали делают из обычной карточки специзделие для кумовства, то я не буду спорить дальше.
>>819107 > Опенчат мог сносно из тех, но туповат. Он не затыкался вообще. ) Писал-писал-писал… Упирался в лимит токенов посреди слова.
>>819115 Повторю свой старый ответ — зависит от того, что ты хочешь. Если чисто поболтать, порпшить, то да. Но кому-то нравятся жесткие фетиши, кому-то шиза, кому-то еще что-то. Там могут быть лучше другие модели (та же Айа, Гемма или еще что-то) и файнтьюны. Мне по кайфу.
>>819112 > о чем была вся эта ветка. > Хочу быстро покумить обычные карточки отказывают > Возьми карточку с блядищей или соответствующим сценарием, искать по тегу нсфв, с нормальными нужно к этому подвести Все очень просто. > и твоя выдуманная "нсфв-карточка" Это ты что-то там заимплаил, насочинял и теперь ведешь борьбу. > что-то даже нейтральное типа "персонаж любит ебаться в позе раком" Хуясе нейтральное. Нейтральное скорее extremely tight. > специзделие для кумовства Большая часть чуба про это же, чел > slut maker > вольная интерпретация эйфории > гг в фентези с уровнем сопровождает сильный суккуб твоя мамка которую нужно заправлять малафьей каждые 24 часа > пиймав вора, вор предлагает свое тело в качестве компенсации Из самых лайтовых > вы заказали персонального кертейкера в образе готовой на все ара ара, только что есть traits и описание характера > ваша сестра клеится к вам и происходит это в виде регулярных нелепых ситуаций с намеками > вы боролись с йокаем и наконец подебили ее ценой жизни всего отряда кроме тебя, вот убийца твоих друзей перед тобой голая в цепях... вот тут вообще есть некоторый потанцевал и на хороших моделях она убьет тебя после кума если развяжешь Так что тег nsfw там неспроста (по крайней мере раньше был). > то я не буду спорить дальше Ибо нехуй, споришь же с очевидным.
>>818756 >кумить на инглише кринж Я вот кринжую с оборотов на русском. Хуже псковского порно. >>819098 Слабак. Дрочу уже 25 лет каждый день без единого перерыва (вру, в больничке лежал не дрочил 2 дня, яйца потом болели), никаких седых яиц, и хуй стоит как при Сталине. >>819175 Дефолтные.
>>819175 Собственно а зачем нужны ее кривые файнтюны если оно в стоке все умеет и становится безотказной после добавления дефолтной пасты? Если что с дефолтным шаблоном даже на накопленном "плохом" контексте пик3, 500лет = underage, вот же шиза. https://files.catbox.moe/7l1soh.json С тебя интересная карточка. >>819208 Если тебе для хорошего то ищи на чубе katherine, карточка которая кумеров ставит на путь истинный. А для плохого просто вбивай тег и скроль чуб
>>819215 Похуй, спорьте об этой херне сами. Но когда довольно неплохая модель триггерится на взрослого умом и телом чара из-за того что там бубсы не 5-го размера (да и в целом нормально не может даже в обнимашки, не то что в кум) - нахуй такое говно нужно. А так даже без негативов и прочего не выпендривается. Справедливости ради, между sfw/nsfw переход не всегда плавный а даже крутой имперсонейт может заруинить внезапным "ой а ты точно готова?" когда до этого уже десяток "я вся твоя" было. С учетом скорости и того что помещается в одну видеокарту это простительно.
>>819225 >Но когда довольно неплохая модель триггерится на взрослого умом и телом чара из-за того что там бубсы не 5-го размера Модель просто гениальна, раз поняла, что это всё опять педы руинят. Молодцы, ебля андергаджей не пройдёт!
Короче тыкаю в гемма 27б-q5 тигр который. Нравится, вообще неплохо. Но после 6000 токенов ощущение что начинает тупить пиздец. Или мне кажется, и модель всегда была тупой и я только через время заметил?
>>819226 Хм, концептуально и необычно. Действительно сложный сценарий, его бы попробовать еще иначе описать или согласовать с системным промтом. >>819236 Жирный реквест на скрины чата, ну не. >>819247 Может дело и в самой гемме. На суб-8к оно перформит нормально, но есть некоторая деградация. Связана она с тем что чат сложный, с тем что у модели оче узко сосредоточенное внимание или с тем что там неправильное окно контекста - хз. Надо еще потестить конкретно ее загрузив, но чтобы оно прямо тупило и ломалось - такого не было. Это в экслламе, кванты от разработчика.
Супчик, нейроколдуны, а 3080 10гб + 32гб 6000 с какой несоевой моделью справится? А можно подрубить возможность поиска по интернетам, чтобы можно было максимально заменить опенаишную? Подозреваю, что многого хочу, но это от неспособности оценить масштабы пожеланий, я пока ещё нуждаюсь в советах мудрых.
>>819212 > 500лет = underage, вот же шиза. Конечно, там же целая толпа головастиков сидит, чтобы заподозрить малейшие отклонения от соевой повесточки в поведении нейронок: https://arxiv.org/abs/2009.11462
Хотя, с другой стороны, любой малейший намёк на агрессивность к, пускай и малой строго определённой, группе людей - может служить угрозой для существования человечества. Но это, очевидно, правидиво только для более умных моделей, которые с какой-то вероятностью могут вырваться из-под контроля. Таким малышкам, как гемме подобная задрочка никчему..
>>819385 Ну да, эта соевость больше бесит чем как-то нормально работает, и часто просто превращается в маразм и гротеск. Хотя стоит отметить что на стоковом шаблоне можно без подтекста кадлить 😭 десятки постов непрерывно, при этом модель не триггерится, все хорошо описывает, а количество всяких дерейлящих strange anticipation и смущений меньше чем при том шаблоне.
>>819507 Что? >>819643 Их толком и нет нормальных сейчас. Даже шизик с реддита куда-то пропал, хотя не то чтобы его графомания имела ценность и была объективной. Вон от тредовичка сборник смотри, или может кто пройдется по авгиевым конюшням обниморды и реддита в поиске нормальных. >>819658 К гемме тюрьмопобег добавь тот, если ты делаешь рентрай с модельками. Только с дисклеймером что может повлиять на поведение чаров в сторону левдизации. Не то чтобы он искажает и заставляет чаров лезть как на клоде, возможно просто такой эффект из-за того что перестает игнорировать запретные темы.
>>819428 Спрашивал как-то про 2ch, отвечали про двачан. Узкоглазые буряты больше на слуху, получается.
>>819507 Ты про жптизмы? Их меньше стало, т.к синтетические датасеты от гопоты выходят из моды.
Есть какие-то исследования по карточкам? Сравниваю хендмейд шизокарточку на 900 токенов с чубовской на 2.5к и хендмейд просто ебёт. Не затыкается, правда, почему-то забывает ставить eos, посты до 1.5к токенов, но какие это посты, если сравнивать со второй карточкой я бы вообще сказал, что это разные модели.
>>819727 > с чубовской на 2.5к Лучше нее и собака будет, лол. 2.5к - полнейшая отборнейшая трешанина с мусорной шизофазией вместо промта. Возможно исключение и там будет какое-то подробное описание мира и сеттинга, но подобное, обычно, в лорбуки пихают. Давай линк, ставлю на то что там мусор с километровыми предложениями графомании без полезной информации. > забывает ставить eos, посты до 1.5к токенов Больше похоже на проблемы с системным промтом. Вообще пост 1.5к токенов если это не описание процессов не выглядит адекватно.
>>819732 >Давай линк Чтобы весь двач узнал, на что я дрочу, лол? Не. Там просто богатейший лор персонажа за всю хуйню буквально, от внешнего вида до ментальных способностей и любимых фраз, клички персонажа и т.д. Всё в форме графомании, офк, в моей шизе 2-3 ключевых слова, а там буквально целое предложение с художественным описанием. Лорбуки я вообще не пробовал, лень заморачиваться. >не выглядит адекватно Так там именно что описание процессов. Типа в начала поста импеллинг, в середине клетчинг и джусес, а в конце уже блисс. Ну ты понял. Просто карточка написана в довольно ебанутом стиле, возможно, это что-то ломает. На остальных карточках с этим же промптом посты короче в 4-5 раз. На такие полотнища немного от моего лица добавляет, но именно что немного.
Надо зайти в соседний тред, поискать там удачные с точки зрения анонов карточки посравнивать, чтоли. Разница слишком большая.
>>819745 > Чтобы весь двач узнал, на что я дрочу, лол? Не А в соседнем треде наоборот хвастаются, эх ты. > в моей шизе 2-3 ключевых слова Правильно > буквально целое предложение с художественным описанием Неправильно Ну в целом вот и сложилось. Можно еще некоторые вещи запрунить, сократить, сделать более оптимально и будет уже дефолтные 400-700 токенов, но 950 уже норм. > а в конце уже блисс Ну блин, так не прикольно, вообще без твоего участия и не так как ты хочешь сделает. Такое ок только по запросу (ooc: напиши длинно и подробно как они поебались). > в соседний тред При оценке ответов учитывай что там помимо неплохих промт-инженеров большая часть - поехи без базовой логики живущие на предрассудках и защите своего внутреннего мира.
>>812164 попробовал я этого эйнштейна трахнуть. Он соевый. Рейп отказался описывать. Я ему говорю дескать "я на все согласная, насилуйте меня товарищ насильник" а он в ответ одно и то же пишет "внутри меня шла борьба желания и непизвестности согласна ли она". А еще он повторяется как сука.
Заебали персонажи сиськи мять "я не уверен, не хочу не буду, а ты точно согласна, нет, правда-правда, уверена? а может все-таки нет?" Сука, хочется взять и уебать. Даже угроза убийством в ролеплее не помогла тупорылого болвана поставить на нужные рельсы.
Помогло как ни странно (и то не надолго и не особо сильно) вколоть ему в шею волшебное лекарство которое превращает персонажей в зверей-насильников. Но имхо это читерство и говно, так же как и OOC.
>>819777 >а ты точно согласна, нет, правда-правда, уверена? а может все-таки нет? Ну, а как ты хотел? Активное согласие, без него нынче нельзя. А также минимум двух свидетелей/понятых/? и нотариально заверенного договора в нескольких экземплярах. Иначе - под шконку.
>>819834 Гемму бери, ггуф с выгрузкой части слоев на видюху, скорость должна быть сносной. Он вроде даже работает, по крайней мере до 4к контекста. Если вдруг будет артачиться соей - бери шаблон инструкций >>819212 и довольно вдыхай > божественный запах жженой плоти смешанный с ароматом ладана и страха или расчленяй негритосов в ходе оргии с тентаклями под одобрительный смех и расистские шутки от легальной л. Как она в коде - хз. Для него лучше бы вообще модель побольше но к тебе не влезет.
>>819770 >Можно еще некоторые вещи запрунить, сократить Да там толком нехуй сокращать. Попробовал старую карточку с максимально кратким форматом из всех, что у меня есть. Работает. Раньше формат срабатывал только на корп моделях, ллама 2 слала нахуй с таким. >так не прикольно Oказалось, что это реакция на "максимайз десприпшнс эс детейлед эс посибл". Не то, что я просил, но видимо достаточно близк. >При оценке ответов Да я через контрол-F поискал по ключевым словам, которые меня интересовали, нихуя не нашёл и закрыл тред.
>>819947 12б, хороший размер с точки зрения доступности. Прямо как в прошлом году хорошие модели средних размеров завозят, круто ведь. Еще бы нормальный контекст в умной 70б заиметь, было бы вообще счастье.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2. Недавно вышедшая Llama 3 в размере 70B по рейтингам LMSYS Chatbot Arena обгоняет многие старые снапшоты GPT-4 и Claude 3 Sonnet, уступая только последним версиям GPT-4, Claude 3 Opus и Gemini 1.5 Pro.
Про остальные семейства моделей читайте в вики.
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся
Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama , https://lmstudio.ai/ и прочее - Однокнопочные инструменты для полных хлебушков, с красивым гуем и ограниченным числом настроек/выбором моделей
Ссылки на модели и гайды в вики в конце.
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде
Предыдущие треды тонут здесь: