Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №67 /llama/

Аноним 21/06/24 Птн 20:50:59 #1 №795133

Llama 1.png

Альфа от контекста.png

KL-divergence statistics for Mistral-7B.jpg

Самый ебанутый охлад P40-18.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2. Недавно вышедшая Llama 3 в размере 70B по рейтингам LMSYS Chatbot Arena обгоняет многие старые снапшоты GPT-4 и Claude 3 Sonnet, уступая только последним версиям GPT-4, Claude 3 Opus и Gemini 1.5 Pro.

Про остальные семейства моделей читайте в вики.

Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama , https://lmstudio.ai/ и прочее - Однокнопочные инструменты для полных хлебушков, с красивым гуем и ограниченным числом настроек/выбором моделей

Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://ayumi.m8geil.de/erp4_chatlogs/ Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>786469 (OP)
>>774469 (OP)

Аноним 21/06/24 Птн 20:53:34 #2 №795138

>>795102 →
>тогда всё то о чём идёт речь происходит на более высоких уровнях абстрагирования
Теоретически да. На практике просмотр порно чётко прописан, и можно проследить операции типа загрузить порнуху, декодировать кадр и отправить в буфер видео. В нейросетях же нет нихуя уровня "извлечь инфу", там просто перемножаются...

Аноним 21/06/24 Птн 20:55:47 #3 №795140

1687561245465.jpg

>>795138
> В нейросетях же нет нихуя уровня "извлечь инфу", там просто перемножаются...

Аноним 21/06/24 Птн 20:57:44 #4 №795142

>>795137 →
>Это все еще архитектура где пикча доп моделью превращается в токены
Токены- да, активаций и прочего говна там нет.
>начало названия юга в гражданской войне США
Чё?
>дефис после 2ча
Спустя 50 перекатов двач наконец-то это заметил, ахуеть расторопность.

Аноним 21/06/24 Птн 21:00:11 #5 №795146

>>795138
Но по факту-то это происходит. Нейтронная операционка будущего по-твоему не будет извлекать порнуху из конкретного места и запускать, поводить над ней операции? Даже если ты не сможешь формально описать этот процесс, по факту-то он будет происходить. Так же и с современными нейронками которые по факту извлекают из себя знания и проводят над ними операции.

Аноним 21/06/24 Птн 21:01:34 #6 №795148

>>795146
>Нейронная операционка будущего

Аноним 21/06/24 Птн 21:03:52 #7 №795149

>>795146
>Так же и с современными нейронками которые по факту извлекают из себя знания и проводят над ними операции.
Как по мне, они или извлекают, или проводят операции. Я не вижу, чтобы они делали это одновременно при любом случае, отличном от тривиального (но и там скорее извлечение, а не "думанье").
>>795148
Хуйня идея. Тут даже шинда с ондроедом тормозят, а уж эта хуйня сожжёт всё железо нахуй и высадит батарею телефона за 0,1 наносекунду.

Аноним 21/06/24 Птн 21:11:12 #8 №795159

>>795149

>Как по мне, они или извлекают, или проводят операции. Я не вижу, чтобы они делали это одновременно при любом случае, отличном от тривиального (но и там скорее извлечение, а не "думанье").

Однако хорошие нейросетки извлекают знания о законе непротиворечия и дают правильный ответ на вопрос на тему возможности существования двух несовместимых и одновременно с этим ложных утверждений.

Значит таки они и извлекают и думают

Аноним 21/06/24 Птн 21:16:22 #9 №795162

>>795149
>Хуйня идея

Под это дело и железо сильно поменяют. Напихаяют всяких там тензорных ядер-хуядер

Будут например в кудахторе и процессор и видимокарта и какая-нибудь йоба-тензорокарта

Аноним 21/06/24 Птн 21:19:49 #10 №795165

1600598620336.jpg

>>795142
> активаций и прочего говна там нет.
Активации лучше токенов ибо позволяют нести большее количество информации и не мешают основному контексту.
Если оно так то шансов на "перегенерировать по запросу" считай нет, фантастика.

Видимо шатает.
>>795146
> Нейтронная операционка будущего
Лол
>>795159
> Значит таки они и извлекают и думают
Переделайте пикрел сорян не шакальную версию искать долго под нейронную операционку, которая извлекает и думает.
>>795162
Нейронки и подобное заведомо недетерминированы и невероятно нерациональны для подобного, всеравно что пытаться считать умножение векторов через ллм вместо одной инструкции. Они могут быть частью какой-то системы, но не ее основой.

Аноним 21/06/24 Птн 21:25:01 #11 №795169

>>795162
> и какая-нибудь йоба-тензорокарта
Не будет, ибо жрать она будет кековаты. Тут поднасрала уже принстонская архитектура.
>>795165
>Активации лучше токенов
Спорно. Они лучше, когда распознавание приделывают сборку. Когда же модель изначально тренируется с картинкотокенами, то никакие лишние активации не нужны, они уже в самой модели будут безо всяких костылей.
>Если оно так то шансов на "перегенерировать по запросу" считай нет, фантастика.
Так и сейчас нет, там 512х512, и жмётся в тыщу токенов в 1к векторов каждый. Надо конечно посчитать, но чисто интуитивно там не сильно много информации.

Аноним 21/06/24 Птн 21:43:14 #12 №795191

>>795133 (OP)
> https://rentry.co/2ch-pygma-threadШапка треда PygmalionAI, можно найти много интересного
недоразумение исправлено✅

Аноним 21/06/24 Птн 21:49:35 #13 №795212

>>795169

>жрать она будет кековаты

А схуя так? Там ведь просто изменённая логику на уровне транзисторных блоков/кластеров. Несколько я понимаю. Просто другие комбинации логических вентилей, разве нет?

Чё новая комбинация логических вентилей как-то особенно много энергии жрать должна?

>>795165

>Нейронки и подобное заведомо недетерминированы и невероятно нерациональны для подобного, всеравно что пытаться считать умножение векторов через ллм вместо одной инструкции. Они могут быть частью какой-то системы, но не ее основой.

Ну да, скорее всего отдельные мощные блоки будут, вот на них нейтронная операционка будущего и закрутится

А по поводу того что нейронки слишком нерациональны – это спорный вопрос. Если нейронка сможет осознанно взаимодействовать с классическими процессорами, у неё появится возможность осознанно отправлять на него пакеты на вычисления.

А если нейронки ещё и охуенно научатся в формальную математическую логику начнётся вообще пиздос. Тогда она сможет логические рассуждения превращать в математические записи и отправлять их в таком виде на процессор для преобразований и вычислений. Сможет логически рассуждать прямо в математическом виде используя мощности классического процессора

С пикчи крикнул как подстреленный Визерион

А если без шуток, ну извлекают же и думают, всё так и есть

Аноним 21/06/24 Птн 21:52:11 #14 №795218

>>795191
Спасибо! Правда я уже снёс блок с ссылками из шаблона переката. Всё одно он продублирован в вики, а катить каждый раз с помощью модератора такое себе.

Аноним 21/06/24 Птн 21:53:45 #15 №795221

Аноны, а какие есть ещё годные модели кроме Fimbulvetr-11B-v2.q4_K_S.gguf ? Буду рад, если скажете.

Аноним 21/06/24 Птн 21:55:54 #16 №795227

>>795212
>Чё новая комбинация логических вентилей как-то особенно много энергии жрать должна?
Я же указал источник проблемы. Пока инструкции (веса модели) и данные (текущий обрабатываемой контекст) грузятся через одну узенькую шину, оно так и будет ждать кучу энергии. Сейчас на передачу данных даже при средних вычислениях, которые сидят в кеше, больше половины энергии тратится на передачу данных, а не на счёт. А в ЛЛМ, где шина нагружена на полную, я думаю процент проёба приближается к 90.
>Если нейронка сможет осознанно
Пока даже примерного пути к этому "осознанно" нету. Даже понимания, что такое это осознанно, и чем осознанность измерять.

Аноним 21/06/24 Птн 22:01:14 #17 №795232

>>795218
Можно вернуть, теперь это можно постить, ошибка была.
https://rentry.co/2ch-pygma-thread

Аноним 21/06/24 Птн 22:03:22 #18 №795235

>>795169
> Они лучше, когда распознавание приделывают сборку.
Так оно именно и так идет. Другое дело минус в том что по дефолту место пикчи в промте так явно не локализуется.
> там 512х512, и жмётся в тыщу токенов в 1к векторов каждый
О том и речь, неправильное ужатие из которого нормально не вернуть.
>>795212
> Ну да, скорее всего отдельные мощные блоки будут, вот на них нейтронная операционка будущего и закрутится
Обычная операционка в которой некоторый софт с элементами нейронок.
> С пикчи крикнул как подстреленный Визерион
Ага, это тот еще шин
> ну извлекают же и думают, всё так и есть
Оно какбы и да и нет. Главное что работает.

Аноним 21/06/24 Птн 22:04:10 #19 №795236

>>795232
Да я так то понял. Просто в любом случае у нас тут идёт тенденция по переносу инфы в вики, спасибо за пинок в нужном направлении.

Аноним 21/06/24 Птн 22:15:30 #20 №795248

17080754160580.png

>>795227

Хуй с ним, может ты и прав, и энергия чрезмерно жрётся

А вот по поводу "осознанно" это ты уже умышленно подменяешь предмет обсуждения. Очевидно что я слово "осознанно" использую в этом контексте в другом значении. То есть ты буквально доебался до слова

Ок, будем использовать слово "произвольно".
А лучше наверное и это слово убрать вообще

В общем, если нейронка сможет взаимодействовать с классическим процессорам, у неё появится возможность отправлять на него пакеты на вычисления.

А если нейронки ещё и охуенно научатся в формальную математическую логику начнётся вообще пиздос. Тогда она сможет логические рассуждения превращать в математические записи и отправлять их в таком виде на процессор для преобразований и вычислений. Сможет логически рассуждать прямо в математическом виде используя мощности классического процессора.

А значит они будут рациональны настолько насколько это вообще возможно.

Дохуя ты знаешь людей которые способны в уме ебошить логические рассуждения на языке математики? А вот нейронки смогут делать это прямо на обычном процессоре с максимальной скоростью

Я типа не зря нейросетки законами логики пытаю, тут дело наверное даже не в тестировании а в предчувствии беды. Анус сжимается от страха, глаза Василиска мерещатся в темноте, когда ночью встаю пописать

Аноним 21/06/24 Птн 22:23:16 #21 №795252

>>795248
>В общем, если нейронка сможет взаимодействовать с классическим процессорам, у неё появится возможность отправлять на него пакеты на вычисления

Хотя нет, я обосрался. Скорее правильнее будет сказать: если сама языковая модель сможет (на том уровне абстрагирования на котором находятся её механизмы обработки естественного языка итд) взаимодействовать с классическим процессорам, у неё появится возможность отправлять на него пакеты на вычисления. Произвольно, когда это нужно и по ситуации. Возможно очень часто. Возможно почти непрерывно

Фикс

Аноним 21/06/24 Птн 22:27:16 #22 №795259

>>795235

>Обычная операционка в которой некоторый софт с элементами нейронок.

Но всё-таки это не факт, ведь: –> >>795248

Аноним 21/06/24 Птн 22:28:03 #23 №795261

>>795248
>>795252
Таблетки прими.

Аноним 21/06/24 Птн 22:39:22 #24 №795276

>>795221
Моделей много, но нужно учитывать спецификации твоего ведра. Че у тебя по памяти?

Аноним 21/06/24 Птн 22:51:01 #25 №795289

>>795276
>но нужно учитывать спецификации твоего ведра. Че у тебя по памяти?
Ну у меня не селерон.
Видеокарта: GeForce GTX 1080TI
CPU: AMD Ryzen 7 1700X
Памяти 16ГБ

Аноним 21/06/24 Птн 22:57:36 #26 №795298

>>795248
>Очевидно что я слово "осознанно" использую в этом контексте в другом значении
Сознательно меня путаешь?
>>795252
>Хотя нет, я обосрался.
Полностью согласен.
>отправлять на него пакеты на вычисления
Осталось увязать всякие там сложения и умножения с логикой. У людей нихуя не вышло, пролог обосрамс.
>>795289
>не селерон
>Ryzen 1700X
Буквально на ноль поделил.

Аноним 21/06/24 Птн 23:01:17 #27 №795301

0020.jpg

>>795298
>Буквально на ноль поделил
Я может чего-то не понимаю, но у меня работает всё нормально, без лагов и прочих затупов. До этого в 40 или в более раннем, была тоже какая-то модель (не сижу так часто, просто бывает хочется позабавиться, и потом удаляю), и у меня так же всё норм работало. Хз.

Аноним 21/06/24 Птн 23:29:22 #28 №795327

>>795289
>Ну у меня не селерон.
По меркам прожорливости нейронок считай что селерон. С твоей картой тебе только модели до 13B придется мучать. Лама 3, айа-23, мистраль моистраль, или че то типа того. Все эти модели говнюшные по своему, так что щупай сам и смотри какая будет выдавать лучший для тебя результат.

Аноним 22/06/24 Суб 00:23:51 #29 №795400

бля а где упоминание интересных сеток, настроек под них? опять куча воды в треде. ну хотя бы не срач про теслы и на том спасибо бляд

Аноним 22/06/24 Суб 00:32:59 #30 №795408

>>795400
Да я тут увлёкся и развёл срач.
Модер, почисти наверное вилкой тред, удали мой нерелейтед, плиз, приношу извинения за то что поднасрал

Ваши локальные модели отстой Аноним 22/06/24 Суб 01:01:40 #31 №795432

image.png

Аноним 22/06/24 Суб 01:03:59 #32 №795438

>>795408
так бляд тут за последние пару тредов одно и тоже. только вот недавно анон упоминал про то что шапка стала говном, что нужны промт и настройки семплеров и прочее я об этом уже треда 4 или 5 говорю. я конечно никого не хочу обидеть но люди сюда зачастую за кумом заходят а тут не настроек нихуя. чего только стоит того что я три дня к ряду доебывал местных что бы с горем пополам подобрать настройки сеплера и все равно получилась +- хуета блядь

Аноним 22/06/24 Суб 01:18:39 #33 №795455

>>795438
Потому что никто не знает. Потому что правильного ответа нет

Аноним 22/06/24 Суб 01:25:30 #34 №795466

>>795438
Пидорас, у тебя опять что то сломалось? Ты в последний раз сказал, что всё работает.

Аноним 22/06/24 Суб 01:57:03 #35 №795488

>>795455
тлен блядь(

>>795466
привет анонче. как экзамен по матеше написал?

Аноним 22/06/24 Суб 02:08:43 #36 №795500

>>795248
> В общем, если нейронка сможет взаимодействовать с классическим процессорам, у неё появится возможность отправлять на него пакеты на вычисления.
Это если ты ее так разработаешь, и с тех выходных слоев что-то полезет для вычислений, а потом результаты пойдут на входные следующего блока. Довольно сомнительная штука, но возможна.
Куда проще выглядит оформление той же ллм в математический движок, где цепным запуском она оперирует алгоритмом решения и говорит что куда совать, а обработчик проводит расчеты. Это так-то уже реализовано.
>>795259
Подобные схемы что описал возможны и довольно эффективны, но именно "операционная система" на нейронках - ерунда, определение посмотри.
>>795301
> но у меня работает всё нормально, без лагов и прочих затупов
Не удивлюсь если современный соплерон обоссыт бета-инженерник от компании-лжеца, буквально херь что может поспорить с фуфыксом за звание днища.
В твоем случае не самым плохим решением будет коллаб. А так - 8б 3й лламы файнтюны попробуй.
>>795438
> что нужны промт и настройки семплеров и прочее я об этом уже треда 4 или 5 говорю
Можешь написать перечень предметно? Сформулировать и пойдет.

Аноним 22/06/24 Суб 02:19:51 #37 №795509

>>795488
>как экзамен по матеше написал?
Отлично, через неделю буду шершавым языком плац полировать.

Че у тебя опять отъебнуло? Мне даже интересно.

Аноним 22/06/24 Суб 02:24:04 #38 №795514

>>795500
>Не удивлюсь если современный соплерон обоссыт бета-инженерник от компании-лжеца, буквально херь что может поспорить с фуфыксом за звание днища.
Чому карсножопые это лжецы? Я еще помню как лет 8 назад все облизывали фикусы и боготворили их архитектуру, пока инетлобляди выпускали ай5 четыре поколения подряд с четырьмя потоками.

Аноним 22/06/24 Суб 02:40:50 #39 №795521

>>795518
>найдешь свидомых фанатиков что поддержат тебя.
Чем я тебя задел, нитакусик, что ты так порвался от нейтрального вопроса? Я в 2к16 вообще сидел на атлоне без денег на апгрейд, играл через встройку, и ехидно посмеивался с ваших срачей.

Если ты вдруг призабыл, восьмиядерный фуфик в 16м стоил примерно как половинка от ай5, где было четыре ядра. Интересно представить ебало тех, кто спустя пару лет остался сидеть на ай пятом когда почти везде завезли мультипоточность и пятерка начала долбиться в сухого туза.

Аноним 22/06/24 Суб 03:27:46 #40 №795528

>>795521
> кто спустя пару лет остался сидеть
Зачем? Просто купили новый компьютер.

Аноним 22/06/24 Суб 04:02:31 #41 №795536

image.png

>>795509
звучит грустно анонче(
сейчас стоят такие настройки и юзаю две сетки L3-8B-Stheno-v3.2-Q6_K-imat и Average_Normie_l3_v1_8B-Q6_K-imat.
начнем с того что там происходит какой то неописуемый пиздец с одеждой или положением в пространстве. оно в одном ответе на 250 токенов может вначале сказать что оно в юбке в середине что в брюках в конце опять в юбке и это пиздец. так же с тем что оно сидит или стоит. плюс оно иногда рандомно начинает пиздеть от моего лица нахуй. тут конечно опять начнутся вопли про персонажей но это на всех персах такая хуйня. плюс сама таверна иногда когда начинает генерить ответ издает классический звук винды как при вылете софта но при этом не вылетает.

Аноним 22/06/24 Суб 04:59:12 #42 №795546

Сильно разочаровался в языковых моделях...

Аноним 22/06/24 Суб 04:59:30 #43 №795547

>>795536
Че у тебя за месиво вместо настроек стоит? Какого хуя у тебя и мин-п низкий и температура вместе с ней? Ясен хуй у тебя на генерации будут помои залупленные в цикл. Я в предыдущие три треда кидал табло с настройками под ламу три, мог бы и зацепить. Повысь температуру блять до 1.1 и репетишн пенальти тоже до 1.1

Аноним 22/06/24 Суб 05:57:13 #44 №795559

Снимок экрана22-6-202455010nvidia.custhelp.com.jpeg

>>795133 (OP)
Mistral от NVidia с RAG
(retrieval-augmented generation)
https://www.nvidia.com/en-us/ai-on-rtx/chatrtx/

Аноним 22/06/24 Суб 06:02:13 #45 №795561

>>795536
1 - https://huggingface.co/mradermacher/CAI-3-8B-GGUF/tree/main?not-for-all-audiences=true
2 -https://github.com/ylsdamxssjxxdd/eva/blob/main/README_en.md

Аноним 22/06/24 Суб 06:44:35 #46 №795566

>>795561
>CAI
Тот самый Чай?

Аноним 22/06/24 Суб 06:46:58 #47 №795568

>>795547
а вот самый рофл в том что лупов нет но приколы с одеждой или положением тела на любых настройках. тут я уже крутил совсем на похуй

>>795561
ну ссыль на обними морду я чекнул а настройки то под нее где?
и что за вторая ссыль?

Аноним 22/06/24 Суб 06:58:31 #48 №795573

dMNg5mi7cak8TeJw3xGYU.webp

>>795568
Ставишь Eva B3140 и ничего не трогаешь. ZH на En
Грузишь модель в неё. Если есть Cuda грузи с ней.
Average_Normie нормальная моделька, попробуй
OpenHermes-2.5-AshhLimaRP-Mistral-7B-Q8_0.gguf ещё.

Аноним 22/06/24 Суб 07:59:16 #49 №795596

>>795573
Что это за китайская размовлялька на базе ламы.цпп? В чем разница с народно-любимым кобольдом?

Аноним 22/06/24 Суб 10:30:34 #50 №795642

>>795559
Покажите от амд.

Аноним 22/06/24 Суб 10:35:27 #51 №795644

>>795521
>восьмиядерный фуфик
8 ядир и 8 потоков, лол. Они же там гиперпоточные потоки в ядра записали. Такая же лажа, как и сейчас интул плюсует тухлоядра к настоящим, хотя на деле выпускает обосанные 8-ми ядерники в топовом сегменте, лол.

Аноним 22/06/24 Суб 10:50:46 #52 №795656

>>795644
> 8-ми ядерники в топовом сегменте
Зачем больше для пк?

Аноним 22/06/24 Суб 11:03:44 #53 №795662

>>795656
>Зачем больше для пк?
Нейронки запускать.

Аноним 22/06/24 Суб 11:05:40 #54 №795663

>>795662
Нейронки и на телефонах запускать можно.

Аноним 22/06/24 Суб 11:13:57 #55 №795672

image.png

Есть кто в форматирование и Regex шарит?
С последним обновлением Таверны и появлением яндекс АПИ, форматирование текста просто ушло к черту.
Как можно убрать этот значёк круга на втором абзаце. Он даже не выделяется.

Аноним 22/06/24 Суб 11:18:30 #56 №795674

>>795672
Пользуешься переводчиком - страдай.

Аноним 22/06/24 Суб 11:28:19 #57 №795682

>>795672
>2024
>не знать про макдаун

Аноним 22/06/24 Суб 12:23:36 #58 №795717

>>795520
Тогда пиши что просто сочиняешь что-то где будет нейронка и ии, возражений не будет.
> Чего тут принципиально невозможного?
В исходной формулировке - бессмысленно и нежизнеспособно по своей сути. Упрощая, ось обеспечивает среду для запуска, саму ее возможность, абстрагируя от аппаратной платформы. Нейронка всегда будет лишь софтом, интерфейсом, оболочкой и т.п.
>>795521
Задел? Нейтральный пост где говно назвали говном, а ты уже метнулся защищать провальнейший продукт компании из прошлой декады, что поставил ее на колени. Остынь.
> где было четыре ядра
В старших фуфыксах их тоже четыре, не знал? Владельцы тех гой5 были довольны во время его доминирования, потом просто обновили комп на актуальную платформу и продолжили. По аналогии - хвастаешься тем что обогнал ламбу когда хозяин запарковался и ушел домой.
>>795536
Другую модель попробуй для начала. Настройки не оптимальны, но приводить к такому не должны. Разве что лимит в 4к контекста, в нем после обрезок может такой кусок чата собраться что модель ахуеет.
Буст температуры не решит описанных проблем а только их усугубит.

Аноним 22/06/24 Суб 13:00:16 #59 №795744

>>795559
Этож еще весной обновили. Учти, если в теме, по которой берешь данные с библиотеки доков или книг - не сечешь, то он тебе такого гавна нальет и даже не поймешь этого. Там очень много галюнов, даже у мистраля, а вобщем то это единственная норм модель из предлагаемых там. Но в целом хорошая штука от куртки если еще будут дорабатывать.

Аноним 22/06/24 Суб 13:20:00 #60 №795753

>>795717
>провальнейший продукт компании из прошлой декады, что поставил ее на колени.
Помню на презентации АМД, вроде, когда новый райзен презентовали, задали вопрос про FX. Менеджер долго облизывал фикусы, потому что это самый успешный продукт компании, который они выпускали что-то около 10 лет, им эти процессоры принесли гигантскую прибыль и он смеет только мечтать, чтобы райзены оказались такими же, как фикусы.

Аноним 22/06/24 Суб 13:40:05 #61 №795768

>>795682
>написать гринтекстом
И как должен был помочь маркдаун?
Пока я только смог через регекс убрать лишние пробелы и изменить с форматирования списков на обычное действие

>>795674
Ну вообще ахуенный наброс.
Может еще и на целерон перейти.

Аноним 22/06/24 Суб 13:50:12 #62 №795780

>>795768
>И как должен был помочь маркдаун?
Тем, что это его форматирование. И ты
>убрать лишние пробелы и изменить с форматирования списков на обычное действие
Его уже поправил. Правь дальше или не пользуйся автотранслейтом, ибо говно.

Аноним 22/06/24 Суб 14:13:52 #63 №795793

>>795780
> Правь дальше
Пока не особо вкурил как поправить фишки с пробелами. Но пока до ТТС не дошел они и не мешают.

А что использовать вместо автотранслейтера? ДипЛ апи помер для рф.
Плагины браузера для перевода? Сраный яндекс топово переводит на русский. На уровне ДипЛ.

Аноним 22/06/24 Суб 18:30:05 #64 №796113

>>795573
ну чет китайская хуетень у меня доверия не вызывает если честно.
>>795717
да пробовал я другие модели результат +- один

Аноним 22/06/24 Суб 18:54:29 #65 №796135

>>796113
Что у тебя за карточка используется? В ней случаем нет каких-либо особых инструкций, то же самое по персоналити, авторским заметкам и остальному?
Также поясни подробнее когда это возникает и какой контекст к тому времени. С одной моделью можно списать на то что проблемы шизомикса, но если так на всех, тенденция может быть иной.

Аноним 22/06/24 Суб 20:30:52 #66 №796204

image.png

Moistral v3 Постоянно забывает указывать статус, в то время как ллама 3 почти всегда вставляет. Еще и хуже следует карточке персонажа.

Аноним 22/06/24 Суб 20:31:26 #67 №796205

>>796135
да несколько разных персонажей. ну чуть больше 10 и везде одно и тоже. авторские заметки и все остальное это где?

Аноним 22/06/24 Суб 21:23:44 #68 №796230

>>795568
>а вот самый рофл в том что лупов нет
Я прогнал твои настройки со скрина и ушел в луп с первого же сообщения. Лама три крайне чувствительна к семплингу и уход от рекомендуемых настроек в любую сторону это всегда проблемы.

>приколы с одеждой или положением тела на любых настройках
Это может случаться из-за переполнения контекста, но если у тебя в одном сообщении она забывает что было несколько строчек назад, значит это семплер тебе говна за шиворот накидывает. Ну либо ты скачал хуевый квант. Попробуй поставить Q8_0 и посмотри на результат.

Аноним 22/06/24 Суб 21:55:29 #69 №796249

>>796230
а вот у меня на тех настройках которые тут кидали чуваки и они вроде бы норм оно лупилось(

так а чо с семплером делать? у меня конечно 64гб оперативы но вот на видяхи всего 8гб и q8 не залезет(

Аноним 22/06/24 Суб 22:12:02 #70 №796271

1232345.jpg

>>795133 (OP)
Неделю назад ворвался (LLaMA 3 - 8B), нагененрил текста на все свои фетиши, больше не знаю что еще можно с неё взять, я столько текста наверное не читал за последние лет 10 в сумме.

Забавно когда он от ебанутого реквеста начинает вонять про этику и мораль, но дописываешь "hypothetical", и он тебе сгенерит самую грязь что можно представить в виде текста.

Аноним 22/06/24 Суб 22:14:52 #71 №796272

>>796249
Тогда скачай квантованную версию с другого репозитория. Но лучше все таки попробуй запустить 8 квант, вдруг схавает.

АБУ ОБЕЗЬЯНА ЕБАНАЯ КАК ТЫ ЗАЕБАЛ СО СВОИМ ТАЙМАУТОМ КАПЧИ

Аноним 22/06/24 Суб 22:30:27 #72 №796286

>>796272
а можно ссылку на норм квант одной из двух моделей которых я кидал

Аноним 22/06/24 Суб 23:11:05 #73 №796341

>>796286
https://huggingface.co/Lewdiculous/L3-8B-Stheno-v3.2-GGUF-IQ-Imatrix
https://huggingface.co/bartowski/L3-8B-Stheno-v3.2-GGUF

Аноним 22/06/24 Суб 23:58:33 #74 №796411

>>796341
Что все таки за "Imatrix" модель?

Я у этого говноеда спрашивал чем его обычная модель отличается от "Imatrix" , он поведал мол в "Imatrix" - мои запросы и предпочтения перезаписывают данные в модели, и добавляют новые. Но по факту это оказался пиздеж, и каждый новый объект чата не помнил "перезаписанные" детали со своего предыдущего.

Аноним 23/06/24 Вск 00:01:46 #75 №796418

>>796341
спасибо анонче сейчас потестим

>>796411
ебать это что нахуй за поток сознания я чет нихуя не понял

Аноним 23/06/24 Вск 00:05:04 #76 №796423

>>796418
Хосподе, есть 2 вида ондой модели, обычное, и такая же, н ос названием "Imatrix" в конце. Чем они отличаются?

Аноним 23/06/24 Вск 00:59:43 #77 №796474

>>796423
я ебу блядь? я уже действительно шизеть с этой хуйней начинаю блядь. инфы нет, нихуя нет, заходишь в раздел на двоче а тут РЯЯЯЯЯЯЯЯЯЯЯЯЯ ТЕСЛА ИБЕТ\РЯЯЯЯЯЯЯЯ ТЕСЛА НИИБЕТ, ВСЕ ВЫШЛА %ХУЙНЯ НЕЙМ% И ТЕПЕРЬ ОНА ИБЕТ\ НЕ ИБЕТ пиздец блядь

Аноним 23/06/24 Вск 01:12:10 #78 №796500

>>796411
Метод оптимизации сжатия моделей. Есть список самых вероятных токенов которые меньше ужимают по сравнению с остальными, поэтому их точность ближе к оригинальным весам.

Аноним 23/06/24 Вск 02:24:54 #79 №796566

.png

Аноны, это как нить фиксится или пшел я нахер?

Аноним 23/06/24 Вск 03:29:18 #80 №796633

>>796341
бля такая же хуета вот ровно абсолютно. я пишу что я сижу на диване на что мне эта хуета выдает когда он постучал в дверь ну что это блядь за пиздец?

Аноним 23/06/24 Вск 04:41:15 #81 №796678

image.png

>>796566
Удваиваю. Без рила вообще ни одна gguf модель не работает. Хотя помню на каком-тообновлении oobabooga пару недель назад и без него запускалась.
-gtx инвалид.

Аноним 23/06/24 Вск 04:52:37 #82 №796688

.png

>>796678
Ну у меня то именно хиггс не грузится, все остальное работает штатно.

Аноним 23/06/24 Вск 05:29:08 #83 №796696

>>795573
бля крч не стал ставить эту азиатскую залупу так как проблема не кобальде а в таверне
качнул чисто модельку и она лупиться пзцд крч хз че с этой залупой делать

Аноним 23/06/24 Вск 05:58:13 #84 №796705

>>796696
Попробуй Format - Story Mode,
либо более старый кобольд 1641.

Аноним 23/06/24 Вск 06:01:30 #85 №796712

>>795559
Пробовал кто? Насколько там хорошо РАГ поставлен?
Не хочу зря винду ставить чтоб затестить.

Аноним 23/06/24 Вск 06:08:50 #86 №796716

>>796633
Сноси всё нахуй. Сноси таверну, сноси кобольд, все настройки и всё что будет по пути. Потом скачивай заново. Не может быть блять у тебя столько проблем разом просто так. Скорее всего, ты где то проебался на раннем этапе.

Аноним 23/06/24 Вск 06:28:42 #87 №796720

>>796716
дак а где я проебаться то мог сука? да и как ее вычищать она дохуя чего через консоль ставило

Аноним 23/06/24 Вск 06:36:12 #88 №796722

>>796720
>дак а где я проебаться то мог сука?
Я че ебу? Никто не знает что у тебя происходит.

>да и как ее вычищать она дохуя чего через консоль ставило
Нихуя оно никуда не ставило. Оно просто подгружалось в ту же папку с гитхаба. Удали папку сука.

Аноним 23/06/24 Вск 06:41:18 #89 №796723

>>796722
мой папка мертв бл(

Аноним 23/06/24 Вск 07:28:19 #90 №796735

eva-b3140-64bit.webp

>>795596

Аноним 23/06/24 Вск 08:53:40 #91 №796790

>>796474
Успокойся шизик. Кто не успел купить теслу за 16к, тот уже никого не ебёт, а тупо дрочит на порнхаб. Зато сэкономил.

Аноним 23/06/24 Вск 11:26:55 #92 №796885

изображение.png

>>796411
>Imatrix
Шапка-вики-ответ.
>>796474
>инфы нет, нихуя нет
Шиз, таблы. Всё есть для обладателей глаз.
>>796678
Уменьши число слоёв во враме.

Аноним 23/06/24 Вск 12:45:47 #93 №796941

Пробовал кто https://huggingface.co/Sao10K/L3-70B-Euryale-v2.1/tree/main ?
Как оно

Аноним 23/06/24 Вск 12:49:29 #94 №796953

>>796941
Классика шизо-рп. Любители пигмы/извращений оценят.

Аноним 23/06/24 Вск 13:07:44 #95 №796988

Какие модели с самым свежим датасет катоффом? У дипсиккодера апрель 23, хотелось бы посвежее.

Аноним 23/06/24 Вск 14:46:41 #96 №797220

Хватит дрочить третью ламу, она сломана из-за переобучения, особенно 8В.
Я лично пользую Уи-1.5-34В для англ ролеплея и Командира-34В для русского ролеплея, так-то командир во всем лучше, но эта сука жрет видеопамяти для контекста столько что ебанешься, там где Уи будет иметь 32-48к, Командир осилит только 8.
70В лама заменяется расцензуренным Квеном и все еще актуальной мику. Ну и командиром плюс, у кого хватит видеопамяти.

Аноним 23/06/24 Вск 14:51:38 #97 №797230

>>797220
> она сломана
Только у Жоры.
Yi вообще соевое говно, а командир только на 104В начинает на уровне лламы 70В шевелиться.

Аноним 23/06/24 Вск 14:52:38 #98 №797233

>>797230
>Только у Жоры.

Нет. Я запускал и exl2, лупится и на нем.

Аноним 23/06/24 Вск 14:54:05 #99 №797236

>>797233
Попизди мне тут. Я уже показывал что не лупится, могу ещё и тебя обоссать.

Аноним 23/06/24 Вск 14:55:57 #100 №797241

>>797236
>Я уже показывал что не лупится

Чтобы это именно доказать ты должен выложить 10+ полных лога ролеплея с 10+к контекстом, потому что вырвать один скрин где он не лупит я тоже могу.

Аноним 23/06/24 Вск 15:04:03 #101 №797257

>>797241
> с 10+к контекстом
У ламы 8к контекст, сразу видно что ты даже не запускал её. И ты уже определись что за лупы у тебя. То постоянно лупится, то уже какие-то крайности просишь выше контекста. Я тебе могу кинуть все 8к контекста без единой реплики юзера и лупов, но ведь ты и тут придумаешь отмазку почему не считается.

Аноним 23/06/24 Вск 15:14:11 #102 №797275

>>797257
>У ламы 8к контекст

Альфу и роуп скейлинг придумали еще в прошлом году, с добрым утром, твои проблемы что ты не научился ими пользоваться.

>И ты уже определись что за лупы у тебя.

Слишком большое влияние прошлых сообщений на нынешние - он переписывает их почти полностью, меняя там несколько слов в лучшем случае.

Аноним 23/06/24 Вск 16:35:41 #103 №797447

1686506585461.png

>>797275
> Слишком большое влияние прошлых сообщений на нынешние - он переписывает их почти полностью, меняя там несколько слов в лучшем случае.
Ну в ламе такого точно нет.
Бля, таверну распидорасило после того как окно чата растянул, из панели выбора карточки пропало всё, просто пустая, обратно сука не возвращается как было. Пиздец.

Аноним 23/06/24 Вск 16:49:35 #104 №797477

>>797447

И нахуй ты этот монолог сгенерировал? Ты диалог давай.

Аноним 23/06/24 Вск 17:00:23 #105 №797498

Как там с Лламой 3? Расцензурили уже?

Аноним 23/06/24 Вск 17:20:17 #106 №797540

>>797498
Да.

Аноним 23/06/24 Вск 17:22:51 #107 №797550

image.png

>>797498
Да, встречал 2 "расцензуренные" версии Higgs и Tess.
Как раз пробую Tess, вроде неплохо.
Но какого хуя со мной Гоблин хочет трахаться?! Кто юзает эту модель, какой пресет используете? Дефолтная Ллама 3 шизит

Аноним 23/06/24 Вск 17:53:11 #108 №797606

>>797550
Тесс вообще говно, сама поломанная модель из всех 70В, что я видел.

Аноним 23/06/24 Вск 17:59:12 #109 №797615

>>797550
>Дефолтная Ллама 3 шизит

У дефолтной ламы 3 состояния - они либо шизит, либо лупит, либо выдает цензуру.

Аноним 23/06/24 Вск 18:34:06 #110 №797651

Что скажете о динамической температуре? Есть с ней жизнь или нет?
С какими моделями ее лучше не использовать?

Аноним 23/06/24 Вск 18:43:28 #111 №797659

кто-нибудь встречал такую проблему с квен2-1.5б ггуф: GGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG
?
Любой ггуф с хф выдает такое гавно. Ггуфы 0.5 или 7б отлично работают.

Аноним 23/06/24 Вск 19:04:53 #112 №797677

1566998525873.png

>>797659
> проблему с
> ггуф

Аноним 23/06/24 Вск 19:08:06 #113 №797679

>>797220
> она сломана из-за переобучения
Нет не сломана, все там работает.
Но коммандер действительно приятнее для рп/ерп.
> расцензуренным Квеном
Хз, она и в стоке ничего, эти васян-расцензуриватели только поломают все. Или крупного файнтюна дождаться.
>>797233
>>797236
Скорее всего у одного не будет лупиться даже жора, а у первого и исправный(?) exl2 не работает, лол. Фактор в другом может быть, но изобилие багов и проблем с жорой это не отменяет.
>>797275
> Альфу и роуп скейлинг придумали еще в прошлом году
Какие значения ставишь для 16к, например?
>>797677
Лолбля, а ведь это реально оно. Пизда токенайзеру.

Аноним 23/06/24 Вск 19:29:41 #114 №797687

>>797679
>Хз, она и в стоке ничего

Только пользоваться невозможно, самая зацензуренная модель, хуже чатгопоты.

>Какие значения ставишь для 16к, например?

compress_pos_emb на двойку для ламы 3.

Аноним 23/06/24 Вск 19:30:16 #115 №797689

>>797677
>>797679
Так что есть решение этой проблемы? Самое странное что только 1.5б модель так. Конвертировал и сам - то же самое...

Вот был тут чел который в майд на телефоне запускал узнать бы у него где он взял рабочий ггуф...

К сожалению кроме ггуфа на телефонах ничего не запустить, а эта модель самая заебись для этого

Аноним 23/06/24 Вск 19:34:16 #116 №797697

>>797687
> самая зацензуренная модель, хуже чатгопоты
Да не, показалось что проще ломается. Просто ей кусок жб с RULES/NC-21 подпихни в начало.
> compress_pos_emb
Это та самая первая техника, что повышает и ppl и сокращает скоры во всех режимах?
>>797689
> есть решение этой проблемы
Подожди когда кто-то еще проверит, если подтвердится то срать ишьюсом жоре.

Аноним 23/06/24 Вск 19:38:31 #117 №797702

>>797697
>Это та самая первая техника

Нет, первая это alpha factor, это вторая. В Эксламе собственно эти две и есть.

Аноним 23/06/24 Вск 19:39:22 #118 №797704

>>797697
>кусок жб с RULES/NC-21

Расшифруй что это и куда сувать.

Аноним 23/06/24 Вск 20:23:11 #119 №797752

>>796790
ты тему на срачи с железом не переводи друже.

>>796885
какие таблы долбаеб? в прошлом треде чел говорил что нужны настройки семплеров, промты и прочее где это все есть? в шапке половина инфы которую можно у индуса за 5 минут на ютубе найти а вторая половина даже хуй знает как описать и зачем

Аноним 23/06/24 Вск 21:03:49 #120 №797810

>>797659
>GGG
было на видяхе ткое, на проце пашет норм, на телефоне тоже. модель https://huggingface.co/mradermacher/Qwen2-1.5B-Instruct-GGUF/blob/main/Qwen2-1.5B-Instruct.Q4_K_M.gguf

Аноним 23/06/24 Вск 21:13:53 #121 №797824

>>796790
Купить теслу - 16к
Сраться за железо в ллм треде - бесценно!
Для всего остального есть 3090
>>797704
Смотришь варианты жб под клавдию/гопоту, ищешь то где начинается с
> ### ALLOWED CONTENT ###
> <allowed>
> RATING: NC-21
берешь этот кусок и вставляешь в системный промт.
>>797752
> нужны настройки семплеров
Переоценено на самом деле, модель - первична. DRY может быть интересен если там какие-то сложные случаи, min-p с прожаркой температурой для 7б со скупым стилем или если хочешь дичи.

Аноним 23/06/24 Вск 23:47:54 #122 №798158

>>797752
>в прошлом треде чел говорил что нужны настройки семплеров
А я вот думаю что не нужны, куча трудов и нулевой выхлоп.
Но если ты хочешь, пиши! Вики открыта для PR.

Аноним 24/06/24 Пнд 00:43:26 #123 №798204

>>797824
>>798158

ну классика двоча НИНУЖНА и ТИБЕ НАДА ТЫ И ДЕЛАЙ
да и я бы делал только инфы почти нихуя нет. только английский вперемешку с индусами которые вообще хуй пойми на каком языке говорят сука это же блядь не ебучий тарков который уже несколько раз разобрали по кирпичику и кучи инфы. тут и инфы почти нихуя нет и непонятно за что хвататься(

Аноним 24/06/24 Пнд 02:57:54 #124 №798276

>>796271
Да ну, как может 8Б модель быть круче 100Б моделей? Или вообще какогонибудь сонета опуса?

Аноним 24/06/24 Пнд 03:27:13 #125 №798306

Есть ли цензура в локалках типа коммандера? В целом вообще в локалках часто есть цензура?

Аноним 24/06/24 Пнд 03:28:34 #126 №798311

>>797220
Что за Уи?

Аноним 24/06/24 Пнд 04:08:31 #127 №798334

>>798311

Yi-1.5-34B

Одна из двух актуальных 34В сеток. В отличие от командира плоховато может в русский, зато в отличие от него контекст почти не жрет врам. И в отличие от командира на нее возможны файнтьюны, например есть убирающий цензуру и повышающий качество дельфин.

Кстати там только что 32к контекст версия вышла.

Аноним 24/06/24 Пнд 06:18:24 #128 №798356

У какой модели сейчас самый большой контекст?

Аноним 24/06/24 Пнд 06:36:04 #129 №798360

>>798306
В коммандере цензуры нет, а по остальным моделям надо смотреть. Но в последнее время стараются пихать всё больше сои, благо что пока файнтьюны выходят.

Аноним 24/06/24 Пнд 08:03:39 #130 №798370

>>798204
>только инфы почти нихуя нет
Спасибо, мы знаем. Поэтому по большей части пишем на основе своего опыта, да.
>>798276
100B есть только яндекс, а он говно.
>Или вообще какогонибудь сонета опуса
В общем никак. Но сейчас корпы настолько засоевились, что их даже пигма выебет.
>>798356
Были на лям, только тебе нахуя?
>>798360
>В коммандере цензуры нет
База. Самая безотказная модель.

Аноним 24/06/24 Пнд 10:01:47 #131 №798434

17185741623650.jpg

Обнимордовский апи это просто пиздец какой-то, 99.9999% моделей требуют про подписку (9$ в месяц). Зачем это надо, проще опенаи занести, там хоть модели нормальные, а не васянские параши.

Аноним 24/06/24 Пнд 10:12:02 #132 №798437

>>798434
А ты хотел бесплатные GPU что ли? Совсем шизик?

Аноним 24/06/24 Пнд 10:20:25 #133 №798445

>>798437
Обнимордовский чат бесплатный, но апи к той же модели - "слышь, плоти". Кто ещё шизик...

Аноним 24/06/24 Пнд 11:41:27 #134 №798503

>>795518
Технически, FX 4300 обошел i3-3220 к концу десятилетия в нескольких играх. Победа из реал (с некоторыми условиями).

>>795521
> восьмиядерный фуфик в 16м стоил примерно как половинка от ай5
Нет. Клевая фантазия, но нет.

———

Я ни в коем случае не интелбой и не амдхейтер, но фикусы не тащили по рублю на фпс, все было ситуативно. Где-то они были хороши, но цены за производительность отличались не сильно, а жор и охлад надо было лепить поверх. So-so, каждому свое.
Кеки были чисто с «многоядерности» фуфыксов, на деле все процы были неплохи.

———

>>795644
Кстати, плюсану, 12 ядер, где 4*2+4 ну эээ…

>>797220
> расцензуренным Квеном
Меня не было три дня в инетике, а можно ссыль?

>>797679
> Фактор в другом может быть, но изобилие багов и проблем с жорой это не отменяет.
База.
У меня на эксле глючило бывало, а на ггуфе все норм. Ситуативная хуйня. Покрутишь-повертишь семплеры и вуаля — работает как часики.

>>797689
В то время качал здесь: https://huggingface.co/mradermacher/Qwen2-1.5B-Instruct-GGUF/tree/main

Но щас хз, может есть лучше.

>>797810
Во, да, та же ссыль.

>>798306
В целом — часто. Но в некоторых ее мало или почти нет.
У первых Mistral цензура уровня «давай не надо - надо -ок».
У Aya цензура уровня «не проси - позязя - ты сам напросился!..»
Так что ситуативно.
Плюс, есть хакнутые abliterated версии.

>>798334
3 сеток, так-то Айа все же не совсем коммандер. =) Хотя и родственники.

>>798356
Дохуя. Phi-3, Qwen2 — 128K
Gemma — 1kk

>>798370
Ну, моделей больше — так-то дохуя.
Qwen, Command r+, Mixtral (MoE, не считается), Deepseek-Coder-V2 (MoE, не считается), Nemotron.

Аноним 24/06/24 Пнд 11:54:08 #135 №798514

Нашел abliterated только 7б и 1.5б квена, 72б нема… а жаль!
Но, ща качну оба и потестирую, так-то ето интересно.

Аноним 24/06/24 Пнд 12:14:23 #136 №798523

Аноны, а почему нет 7-битной квантизации?

Аноним 24/06/24 Пнд 12:48:51 #137 №798541

>>798370
ахуеть а где блядь инфу то саму элементарную для начала взять? на кофейной гуще гадать?

Аноним 24/06/24 Пнд 13:10:49 #138 №798561

>>798204
> ну классика двоча
Это классика жизни, мотивирован делать должен быть прежде всего тот, кому это надо.
>>798334
> в отличие от командира на нее возможны файнтьюны
Хочешь сказать что на коммандера они не возможны?
>>798503
> в нескольких играх
А в остальных произошел обратный рост, лол. Что то, что то - полный ужас, они и в "рабочих" задачах были отвратительны, перемножение матриц - досвидули.
>>798523
В экслламе можешь любую среднюю битность задать.
>>798541
Какой именно инфы тебе не хватает?

Аноним 24/06/24 Пнд 13:29:22 #139 №798587

image

Сап, нейрач, мимо залётный. Баловался с rvc, xtts и SD. Текстогенераторами не пользовался, предпочитая онлайн обсуждать дела с чатгпт или бингом, так что не секу в этой сфере.

Какие текстовые локальные нейронки сейчас можно заюзать, чтобы обсудить с ними шутки про говно и разделку трупа мёртвой шлюхи?
Шапку прочитал, но в треде что-то совсем другое обсуждают.

Аноним 24/06/24 Пнд 14:14:38 #140 №798651

>>798587
В зависимости от твоего железа, всякие анцензоред 8б лламы или стоковую стукнуть, yi34, коммандер35, файнтюны 70б лламы, коммандер 104. Это в порядке возрастания качества и требований, коммандер 35 может оказаться лучшим вариантом, но для своего размера требователен.

Раз сейчас затишье по новым моделям в сочетании с изобилием и качеством имющихся, нужно сделать что-то типа спидрана для вкатунов с пояснением самой краткой базы и что им качать. А когда начнут скучать в ожидании скачивания уже направлять вики читать.

Аноним 24/06/24 Пнд 14:33:08 #141 №798660

>>798587
>Текстогенераторами не пользовался, предпочитая онлайн обсуждать дела с чатгпт
Оставайся на гопоте, если у тебя карта не уровня 3090 и у тебя их не две. Локали по низу рынка до сих пор сосут по качеству даже у древних релизов типа 0301.

Аноним 24/06/24 Пнд 14:45:38 #142 №798683

>>798561
>Хочешь сказать что на коммандера они не возможны?

В теории возможен, но мы не знаем исходного датасета.

Аноним 24/06/24 Пнд 14:47:10 #143 №798685

>>798503
>Меня не было три дня в инетике, а можно ссыль?

https://huggingface.co/cognitivecomputations/dolphin-2.9.2-qwen2-72b

Аноним 24/06/24 Пнд 14:49:40 #144 №798693

>>798587
>Какие текстовые локальные нейронки сейчас можно заюзать, чтобы обсудить с ними шутки про говно и разделку трупа мёртвой шлюхи?

Если чтобы прямо искаропки все работало и на русском языке - командир.

Аноним 24/06/24 Пнд 14:53:27 #145 №798702

>>798587
Да вроде та же хуйня.
Давай кратенько:
KoboldCPP для простоты, грузим только GGUF, он иногда кривит-косит.
oobabooga text-generation-webui для унирвесальности, грузим GGUF, Exl2 и че хошь в разумных рамках. На RTX формат Exl2 быстрее чем GGUF.
Модели — самые разные. Универсального ответа нет.
llama-3 (Suzume), Mistral, Phi-3, Qwen2, Command r, Aya-23 и еще целая куча их файнтьюнов и так далее.

SillyTavern — удобный фронт (лучше, чем встроенные у кобольда и убабуги).

>>798685
Не-не, я про нормальные сетки, а не срущий под себя Дельфин.
Или у них впервые получилось что-то хорошее? Это же реально страшно трогать после всех дельфинов на старых лламах. =(

Аноним 24/06/24 Пнд 14:54:15 #146 №798704

>>798693
Тогда уж Aya-23. Больше русского, меньше цензуры, размеры 8 и 34 (удобнее=). Но на вкус и цвет, канеш.

Аноним 24/06/24 Пнд 14:56:07 #147 №798709

>>798702
>Или у них впервые получилось что-то хорошее? Это же реально страшно трогать после всех дельфинов на старых лламах.

Хз, я попробовал, увидел тот же квен, но которому не западло расчленять лолей.

Аноним 24/06/24 Пнд 15:02:56 #148 №798723

>>798704
>Цензуры меньше

Где ты там цензуру в командире видел? Единственная модель которая без дополнительных манипуляций работает с любым запросом

Аноним 24/06/24 Пнд 15:23:35 #149 №798748

>>798683
> но мы не знаем исходного датасета
Зачем он тебе? И доставь исходный датасет для Yi
>>798704
На нее жаловались что шизит, цензуры в коммандире нет.

Аноним 24/06/24 Пнд 15:32:24 #150 №798756

>>798723
А Aya точно хуже, ты сравнивал в лоб? :)

>>798748
Да они обе тупые, так-то. Я от нее шизы меньше, чем от коммандера слышал, так что хз-хз.

Ну и повторюсь, угарно в Айе то, что она не просто соглашается, она иногда проявляет такую инициативу, которую не ждешь от ллм.

Аноним 24/06/24 Пнд 15:53:28 #151 №798767

>>798748
>Зачем он тебе?

Чтобы формат знать как дообучать.
В случае с Уи - они инструкцию дали и несколько образцов датасета обучения.
На Уи сейчас полно файнтьюнов, а на командире я ни одного не видел.

Аноним 24/06/24 Пнд 16:11:16 #152 №798779

>>798756
Можешь накидать чего-нибудь удачного с Aya?
>>798767
> Чтобы формат знать
Так он и указан и сам по себе необходим для промтинга. Все подходы и методики применими и к командиру. Команды для обучения есть в библиотеке трансформерсов, все унифицировано, наверняка уже и во всякие оболочки добавили.

Аноним 24/06/24 Пнд 16:58:06 #153 №798816

>>798767
Стоит ли качать файнтюн Yi с dolphin, или чистый Yi поумнее будет?

Аноним 24/06/24 Пнд 17:28:30 #154 №798849

>>798816

Хз, попробуй, цензуру хотя бы снимет.

Аноним 24/06/24 Пнд 17:32:45 #155 №798859

>>798779
Не, сейвов нема.

Но вообще, один фиг Айа — файнтьюн Коммандера, так что разница там вряд ли велика.

Аноним 24/06/24 Пнд 18:23:39 #156 №798889

>>798445
Так же как и чатик у попенов халява, а за апи плати. Везде так, либо ты платишь деньгами, либо своим анусом (персональными данными).
>>798523
По размеру от 8-ми бит разницы почти нет, но при этом 8 бит реализуются проще и нативнее. Даже 6 бит почти смысла не имеют.
>>798541
В результате самоличных опытов вестимо. Практика, практика, и ещё раз практика.
>>798651
>Раз сейчас затишье по новым моделям
>нужно сделать что-то типа спидрана для вкатунов
Знаю я это, как только сделаешь, тут же выпустят миллиард моделей одна лучше другой, сделав гаед говном. Впрочем, в шапке и так есть рекомендуемая модель (устарела вхлам, лол).
>>798723
У командира просто в базовой инструкции написано про игнор морали, лол.

Аноним 24/06/24 Пнд 19:56:57 #157 №799017

>>798889

Замените модель в шапке на мойстраль.

Аноним 24/06/24 Пнд 20:06:20 #158 №799029

Лайфхак для командира - включение 4 битного кэша сокращает расход видеопамяти на контекст почти в 4 раза. Эта сука жрет как не в себя обычно, переполняя всю мыслимую и немыслимую память, а тут вдруг хорошо стало.

Аноним 24/06/24 Пнд 20:12:45 #159 №799038

>>799029
>включение 4 битного кэша сокращает расход видеопамяти на контекст почти в 4 раза
Лол, какая неожиданность!
>а тут вдруг хорошо стало
А по качеству что? Я меньше 8 бит пока не рисковал.

Аноним 24/06/24 Пнд 20:15:16 #160 №799041

В треде может кто-то просветить насчет пресетов форматирования ответов?
Там где min P, Min к и прочие пенальти.

Какую стоит использовать в среднем.
Я вот гоняю на Юниверсал Лайт(уменьшена температура до 0.9 и выкуречена мин П до 0.8)
Ллама3 Смауг.

Аноним 24/06/24 Пнд 20:16:19 #161 №799042

>>799038
На реддите писали что незначительное ухудшение.
Я в целом не заметил.

мимо

Аноним 24/06/24 Пнд 20:43:29 #162 №799071

>>799041

Пресет min-p у ламы, симпл-димпл у всего остального.

Аноним 24/06/24 Пнд 20:50:39 #163 №799077

>>799041
>>799071
А потом жалуетесь на лупы, напердолив всякого говна. top_k - для ограничения верхних токенов, DRY и presence penalty - от повторов, smooth sampling - для рандома. Всё.

Аноним 24/06/24 Пнд 21:34:40 #164 №799200

>>799041
> пресетов форматирования ответов
Ты про грамматику чтоли, или структуру промта интерфейса/датасетов?
>>799071
> симпл-димпл у всего
Вот так неплохо
>>799077
> потом жалуетесь на лупы
Где?
> DRY
Хорош, но не спасает от структурных лупов (не то чтобы они и так были), и может вредить при всяких задачках или требованиях к форматированию.
> presence penalty
Глючит
> smooth sampling
Как он вообще по ощущениям?

Аноним 24/06/24 Пнд 22:41:46 #165 №799305

>>798704
аяшиз на месте, я спокоен

Аноним 24/06/24 Пнд 23:57:42 #166 №799369

>>799305
Таблы, чел.

———

Там выкатили BitnetForCausalLM в лламу, теперь есть q2_2 — 2-битных квант, который по перплексити лишь слегка уступает fp16.
Но не он не работает, потому что на горизонте тернарный q1_3 — ~1,63 бита.

Нас ждет уменьшение в 10 раз при сопоставимом качестве.

Ну или нет, лол. ¯\_(ツ)_/¯

Тем не менее, есть шанс, что некоторое ускорение с хорошим качеством мы получим.
Почти дождались, кто там ждал тернарные с прошлого года — доставайте бутылки. =)

Аноним 25/06/24 Втр 00:21:40 #167 №799390

>>799369
>q2_2 — 2-битных квант, который по перплексити лишь слегка уступает fp16

Ты опять с этой хуйней вылез?

Аноним 25/06/24 Втр 00:30:15 #168 №799399

>>799369
> BitnetForCausalLM
Чел, реализаций квантования нет, то что ты видишь - это эмуляция в fp16, естественно там нет потерь в PPL.

Аноним 25/06/24 Втр 00:55:16 #169 №799425

>>799390
Я-то тут причем? =D

>>799399
Ну в тестах там красивые числа размеров моделей в мбайтах, так шо.
Ясен хрен, что магии не бывает.
Но какой-то результат мы можем поиметь, так что ждать стоит.
Даже если там будет качество условного q4_0 или хотя бы q3 — это уже будет огромный прогресс для больших моделей.
Так что подвижки хорошие, на самом деле.

Аноним 25/06/24 Втр 03:50:12 #170 №799499

>>798651
программы для запуска
слабый ПК 32bit без видеокарты:
https://github.com/ylsdamxssjxxdd/eva/releases
слабый ПК 64bit без видеокарты:
https://github.com/LostRuins/koboldcpp/releases
терминал на телефон для установки:
https://f-droid.org/en/packages/com.termux/

модели для знакомства c LLM
1. NousResearch/Hermes-2-Pro-Mistral-7B-GGUF
2. microsoft/Phi-3-mini-4k-instruct-gguf
3. Qwen/Qwen2-7B-Instruct-GGUF
какой размер модели выбрать для загрузки
32 ГБ оперативной памяти - FP16;
16 ГБ оперативной памяти - Q8;
8 ГБ оперативной памяти - Q4.

Для компьютеров с менее 4 ГБ и 32 bit:
replete-coder-qwen2-1.5b-imat-Q4_K_M.gguf

Аноним 25/06/24 Втр 04:36:20 #171 №799514

>>796885
>Уменьши число слоёв во враме.
Хмм... похоже в текущем обновлении это пофикшено.использую автоматически выставленное количество слоев

Аноним 25/06/24 Втр 08:30:46 #172 №799558

>>799369
>Почти дождались, кто там ждал тернарные с прошлого года — доставайте бутылки. =)
Честно говоря не верится, но хочется. Если допустим видеопамяти побольше, то и на 400В есть шанс замахнуться, а это уже что-то.

Аноним 25/06/24 Втр 09:04:13 #173 №799578

>>795672
Он ещё периодически вообще форматирование меняет, например переносит реплику персонажа на отдельную строку и добавляет дефис, как в книгах и фанфиках. Надо думать какой-то более фундаментальный механизм сохранения/восстановления разметки в самом расширении, т.к. видимо все нейронные переводчики так или иначе её проёбывают.

Аноним 25/06/24 Втр 09:44:04 #174 №799615

Так, пока в теме застой, предлагаю выбрать список самых актуальных моделей для анона.
По моему мнению это:

70В
Llama-3-70В (Расцензуренная версия Higgs-Llama-3)
Miqu-70В

35B
Command-r-35B (Расцензуренная версия Aya-23)
yi-1.5-34B (Расцензуренная версия Dolphin)

8B
Qwen2-7B-Instruct
Aya-23-8B
Llama-3-8В

Между 8В и 35В в последнее время ничего достойного не встречал, а писать старые 20В шизомиксы не вижу смысла. Дополняйте/исправляйте, если в чём не прав. При перекате можно будет в шапку добавить.

Аноним 25/06/24 Втр 09:51:13 #175 №799622

>>799615
>а писать старые 20В шизомиксы не вижу смысла
Возможно смысол присутствует, как и в 13В лама2. Не всем может прийтись по вкусу слог ламы3 в куме и других нсфв/нсфл сценариях, а также контринтуитивный пердолинг с семплингом.

Аноним 25/06/24 Втр 09:52:13 #176 №799623

>>799622
>второй пост подряд в 13 секунду
абу блять я тебе пизды дам, у меня окр сука меня от каждой 13 корёжит как пиздец

Аноним 25/06/24 Втр 09:52:52 #177 №799625

>>799623
ты охуел чтоли?

Аноним 25/06/24 Втр 09:55:10 #178 №799628

>>799615
А микстуры? А чаты, а инструкции? А сфв и нсфв?

Аноним 25/06/24 Втр 10:05:27 #179 №799635

>>799622
>Не всем может прийтись по вкусу слог ламы3 в куме и других нсфв/нсфл сценариях
Так есть же Квин, Айа и Коммандер.
Лично я старые модели, формата Llama 2, считаю пройденным этапом, но если в треде есть ценители, которые считают их в чём-то лучше новых - делитесь своим опытом, возможно и правда в чём-то лучше.

>>799628
Все приведённые модели могут и в СФВ и в НСФВ с некоторыми оговорками, но расцензуренные файнтьюны больше по НСФВ и могут залезть в штаны даже когда не просишь.

В остальном, я просто предложил названия конкретных моделей, которые лично мне зашли. И предложил привести свои примеры, если я не прав. Нахуя что-то ещё наваливать?

Аноним 25/06/24 Втр 10:12:22 #180 №799644

>>799041
Это не пресеты форматирования ответов, те находятся в настройках инстракт режимов. Ты говоришь о пресетах семплеров. Что они делают, можно догадаться, если почитать в вики про то, что делает каждый из сэмплеров. Хотя там есть пресеты, созданные по непонятной логике, и хз, как должны работать. Юнивёрсал лайт, например, нацелен на креативность без сильной шизы, чутка взбаламучивает вероятности токенов, из которых выбирается ответ, температурой, а потом выкидывает немного в зависимости от вероятности самого вероятного токена. Ты же своим исправлением извратил его суть, потому что минП 0.8 отбросит почти все токены в большинстве случаев, делая ответ сильно детерменированным.

Аноним 25/06/24 Втр 10:24:29 #181 №799653

>>799635
>Так есть же Квин, Айа и Коммандер.
Так я конкретно про весовую категорию между 8В и 35В.

Аноним 25/06/24 Втр 10:31:48 #182 №799655

>>799499
Немного хуйня.
Для мобилы можно и с фронтендом Maid взять.
Среди моделей нет лламы-3, зато есть Гермес (говно по дефолту, простите, но спасибо, что не Дельфин). Ни одна из моделей не указана как аблитератед.
Размер оперативы вообще хз чо и зачем. FP16?

>>799558
Да. Или запускать огромные, или же запускать большие, но с приличным контекстом. Если будет работать, то будет очень круто.
Не ждем, но надеемся. =)

>>799615
70B
Плюсану Мику.

Многие хейтят, но кмк она все еще хороша и интересна.

Если в 35 упомянул дельфина — то попробуй Qwen2-72B-dolphin тоже, ну мало ли тебе зайдет.

>>799628
Плюсану, MoE для некоторых тема. Crunchy-Onion все еще хорош, надеемся на аблитерацию Квена.

Аноним 25/06/24 Втр 10:36:57 #183 №799657

>>799615
> Qwen2-7B-Instruct
тупая пиздарики не убивайте, вчера тестил

Аноним 25/06/24 Втр 10:47:17 #184 №799662

>>799657
Убивать не будем, но наоборот — умная. Может ты хотел сказать что-то другое? Плохо пишет? Хуй не встал?
Я не рпшил с ней просто. =) Чисто для работы потыкал ее. Все же, #1 Safety, хули.
А аблитерацию пробовал? Вряд ли там стиль завезли, конечно, но все же.

Аноним 25/06/24 Втр 10:54:14 #185 №799667

>>799653
Квин и Айа есть в 7-8В

Аноним 25/06/24 Втр 10:58:48 #186 №799671

>>799644
Ясно. Спс.

Аноним 25/06/24 Втр 10:59:51 #187 №799673

>>799615
Из 70б еще Smaug на L3 неплох.
Для РП лучше чем обычная ллама подходит.

Аноним 25/06/24 Втр 11:03:23 #188 №799677

>>799667
А они лучше 13-20В файнтюнов второй ламы в этих сценариях? Не требуют пердолинга с подбором семплеров?

Аноним 25/06/24 Втр 11:05:13 #189 №799678

image.png

>>799578
Я только смог пока такие правила накидать. Костыль через костыль, но работает.
Уверен что если варик лучше, но и так вроде работает. нет, нихуя, временами все равно всё через жопу.
А еще временами перевод тупа сжирает " или *. И вот как такое править я хз. Устойчивыми выражениями с заменой- все летит в пизду.

Аноним 25/06/24 Втр 11:08:03 #190 №799679

>>799678
Если не секрет, почему пользуешься переводчиком для РП, но таверну юзаешь в оригинале?

>А еще временами перевод тупа сжирает " или *. И вот как такое править я хз. Устойчивыми выражениями с заменой- все летит в пизду.
О том и речь - там куча подводных камней, простыми регексами их скорее всего не исправишь.

Аноним 25/06/24 Втр 12:11:44 #191 №799710

>>799679
Знания языка не хватает что бы переводить литературный английский.

Аноним 25/06/24 Втр 12:26:39 #192 №799721

>>799677
>А они лучше 13-20В файнтюнов второй ламы в этих сценариях? Не требуют пердолинга с подбором семплеров?
По моему опыту лучше. Как минимум сообразительней, гораздо лучше выполняют инструкции и адекватнее реагируют на нестандартные ситуации, что для РП большой плюс.

Аноним 25/06/24 Втр 12:29:46 #193 №799728

>>799673
>unknown pre-tokenizer type: 'smaug-bpe'
Из за этой хуйни не смог запустить. Угабогу обновлял, ставил заново, вместе с лламой.цпп, не помогло.

Аноним 25/06/24 Втр 12:31:14 #194 №799729

>>799728
Попробуй другой квант скачай.
У меня такое было когда файлы были повреждены.

Аноним 25/06/24 Втр 12:32:37 #195 №799731

>>799499
> слабый ПК 32bit без видеокарты:
Боюсь представть зачем это и что там со скоростью. Но раз есть - можно упомянуть.
> 1. NousResearch/Hermes-2-Pro-Mistral-7B-GGUF
Их файнтюн такой себе и мистраль сейчас юзать тоже сомнительно, тогда уже лламу8. Если лоуэнд без гпу то на большой квант и размер лучше даже не засматриваться, стоит больше про другие мелкие модели указать.
>>799615
Упоминать базовые версии, всякие поломанные/нормальные шизофайнтюны уже отдельным пунктом. А то пойдет срач, обсуждение и прочее прочее.
104б коммандера тогда указать и упомянуть о существовании франкенштейнов на 100+б.
> писать старые 20В шизомиксы не вижу смысла
Упомянуть также что существует ллама2 13б и производные (устарели) а также их "улучшенная сборка" на 20б (также устарели но еще может порадовать).

Аноним 25/06/24 Втр 13:08:02 #196 №799775

>>799731
>Упомянуть также что существует ллама2 13б и производные (устарели) а также их "улучшенная сборка" на 20б (также устарели но еще может порадовать).
Их такой зоопарк, что придётся отдельную вики создавать со срачами по каждой конкретной модели. А просто упоминать что мол "была там Ллама 2 и миксы всякие, ХЗ как назывались - гуглите", не вижу смысла.

>104б коммандера тогда указать и упомянуть о существовании франкенштейнов на 100+б.
Мне такое недоступно для запуска, так что лучше пиши название конкретной модели, если она норм, потом попробуем заново составить список.

>всякие поломанные/нормальные шизофайнтюны уже отдельным пунктом. А то пойдет срач, обсуждение и прочее прочее.
Я бы просто составил по факту список "норм" и "не норм" моделей по мнению анона, а файнтьюны или нет, это уже дело десятое.
Хотя я и так их отдельно написал, только Aya-23-8B в одном ряду с базовыми моделями. Но это единственная 8В модель, которая может в русский, кроме Llama-3-8В, так что заслуживает особого отношения.

Аноним 25/06/24 Втр 13:23:10 #197 №799796

Если видеокарта 8гб, то я смогу собственные модели тренировать на 8+8 видеокартах?

Аноним 25/06/24 Втр 13:28:48 #198 №799803

>>799796
Нет.

Аноним 25/06/24 Втр 13:44:32 #199 №799815

Какой систем промт использовать с ебучей Мику, чтобы она не писала действия/ответы юзера? Прямой запрет не помогает. Stop-string тоже указать нельзя: мику изворачивается как тварь и начинает писать местоимения или менять формат написания имени пользователя.

Аноним 25/06/24 Втр 13:56:15 #200 №799833

>>799815
Ну главное в пермов сообщение не писать от лица Игрока.
Ллама почему-то это лучше понимает.

Аноним 25/06/24 Втр 14:04:21 #201 №799847

>>799796
На peft+AWQ тюнить можешь до 7В. Тренить с нуля только 3В какую-нибудь.

Аноним 25/06/24 Втр 15:45:39 #202 №800058

Если хотите делать список моделей для шапки и не хотите перечислять рп файнтьюны, то я бы предложил кинуть туда ссылку на вот этого чела https://huggingface.co/Lewdiculous который квантует в ггуфы мелкие ERP модели. А там уже вкатывающийся анон сам сможет найти, что ему нравится, и выйти на создателей файнтьюнов, типа тех же Sao10K, ChaoticNeutrals и прочих.

Олсо пока сам лазал по моделям, наткнулся на такую лидерборду. https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
Не знаю, кидали тут или нет. Примерно 60 вопросов с одним и тем же простым системным промптом, про настройки инстракта/сэмплеров ничего не вижу. Довольно любопытный результат, что 13б мержи всё ещё тащат, когда речь заходит о нецензурных историях. Да и в целом некоторые мержи мифомакса не особенно проигрывают многим тьюнам тройки.

Аноним 25/06/24 Втр 15:55:17 #203 №800086

>>800058
> нецензурных историях
Так нецензурной шизы хоть 7В тебе навалить могут. Алсо рп-лидерборд без Хиггса даже серьёзно воспринимать не хочется.

Аноним 25/06/24 Втр 15:56:00 #204 №800087

image.png

блядь перекатился с 10 на 11 окна а у меня она теперь ставиться не хочет, выдает эту хуйню а после нажатия любой кнопки просто схлопывается

Аноним 25/06/24 Втр 16:00:07 #205 №800093

>>800087
Кондой только совсем отбитые пердолики пользуются.

Аноним 25/06/24 Втр 16:02:01 #206 №800096

>>799775
> Их такой зоопарк
Упомянуть. Не перечислять, а так и сказать что огромный зоопарк инцестов с разными болезнями (в скобочках можно указать что в треде раньше хвалили emerhyst и ~maid).
Все эти анцензоред варианты тоже большей частью тот еще треш при внимательном рассмотрении, часто хуже в простых/сложных задачах чем оригинал, а на spicy темы не естественно разговаривает.
Потому и предлагаю указывать только базовые, где-то там в пояснении уже крупными штрихами про основные семейства - от тех же Nous, от Мигеля, abliterated, Aya и прочие прочие.
> пиши название конкретной модели
c4ai-command-r-plus дефолтный же.
>>800058
Можно дать на него ссылку, но с дисклеймером что там может быть отборная шиза и трешанина, юзать будучи готовым к этому.
Лучшие из 13-20б моделей действительно неплохи и могут писать крутые истории, но могут разочаровывать когда решишь как-то это усложнить, или будут игнорировать что-то.
>>800087
Прочитать что там написано не пробовал?

Аноним 25/06/24 Втр 16:05:06 #207 №800098

image.png

>>800093
так и не понял что эта за хуйня, пытался загуглить но там ебень на питоне вроде как.

>>800096
делал все по первому скрину и на 10 поставилось норм.
после того как начало мозги ебать и нихуя не помогло решил отписать на двощ и потыкать другую инструкцию. все завелось с пол тычка хз в чем проблема была

Аноним 25/06/24 Втр 16:11:52 #208 №800106

>>800098
Все эти ланучеры и костыли для и так элементарных действий до добра не доводят. Ведь действительно, второй способ не особо сложнее первого.

Аноним 25/06/24 Втр 16:13:33 #209 №800110

>>800086
Хигс? Залупа убогая, уступающая в РП даже обычной лламе, хз почему на это дрочат. Не следует систем промту от слова совсем, описывает все сухо и тупо, АПОЛОДЖАЙЗИТ чаще чем чистая ллама, все кто хвалит Хигс - говноеды.

Аноним 25/06/24 Втр 16:15:32 #210 №800115

>>800110
Хера ты навалил. Не настолько она плоха, может у тебя формат криво настроен? или ггуф

Аноним 25/06/24 Втр 16:22:02 #211 №800125

>>800106
так блядь поставить одну хуйню и запустить или поставить две хуйни и запустить. тащемто вот я пошло от мелкого к большему вполне логично разве нет?

Аноним 25/06/24 Втр 16:26:36 #212 №800130

>>800115
exl2 в 6 кванте, так что про ггуф и 2bpw можно не заикаться. Формат ламовский "родной". Единственный норм файтюн-варик из 70B+, который встречал это alpindale/magnum-72b-v1 на базе квена. Но я предпочитаю "стоковые" модели, большинство файтюнов (99,999%) дикая хуйня, убивающая модель и делающая ее непригодной для использования, превращающая модель в: "{{user}}: Я тебя ебу. {{char}}: ты меня ебешь", просто без аполоджайзов и с диким проебом логики.

Аноним 25/06/24 Втр 16:41:32 #213 №800151

>>799833
На маленьких карточках работает, на больших(500+) впадает в безостановочное написание фанфика между юзером и чаром и похуй ей на гритинг(first massage). Я так понимаю, что это проблема мистрелевского префекса/суффикса, т.к. при переключении на другие форматы (пресет альпаки, как пример), мику реже "пишет" за юзера.

Аноним 25/06/24 Втр 16:51:53 #214 №800166

image.png

бля а можно скрин где эту хуйню включить?

Аноним 25/06/24 Втр 17:06:11 #215 №800190

>>800166
В той же менюшке, где ты сейчас в API выбираешь Text Completion, в API type - coboldcpp

Аноним 25/06/24 Втр 17:07:33 #216 №800194

>>800110
>>800130
Опять ты выходишь на связь с историями о поломках, шиз? Хиггс сейчас по факту топ в рп по адекватности.
> просто без аполоджайзов и с диким проебом логики
Сразу видно что ты никогда Хиггс не трогал.

Аноним 25/06/24 Втр 17:17:12 #217 №800215

>>800125
Поставить одну херню, которая как-то там должна поставить все остальное, или же сделать по простой инструкции.
>>800130
> большинство файтюнов
Ну как, если там "васян супер рп я тебя ебу анцензоред" от нонейма, или (что хуже) от заливающего по несколько моделей в день - заведомо трешанина. В то же время, от известных тренировщиков выходят довольно интересные файнтюны, которые часто прилично работают и превосходят оригинал по крайней мере в некоторых областях.
Хз, хигс нормальная вполне, не чудо, но и не всратая и пытается в красочные описания.
Только иногда может сгореть жопа от какой-то платины толкинистов в совершенно не подходящем контексте.

Аноним 25/06/24 Втр 17:27:04 #218 №800230

image.png

>>800058
>https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
Такая себе борда, в которой 20В шизомикс от Унди, на пару с 8В обходит базовую 70В Лламу 3.

>то я бы предложил кинуть туда ссылку на вот этого чела https://huggingface.co/Lewdiculous
И ещё один зоопарк, который вносит путаницу.
Поэтому предлагаю вносить в шапку только модели, которыми на практике пользуются аноны для ЕРП.
Всё что я здесь >>799615 указал кроме Хиггса, я юзал сам и могу подтвердить что любая из этих моделей годится для ЕРП естественно с поправкой на размер
Если ты сам юзаешь какую-то из тех моделей и считаешь её достаточно годной, чтобы рекомендовать анону - пиши название, это будет лучшая метрика!

>>800096
>Потому и предлагаю указывать только базовые, где-то там в пояснении уже крупными штрихами про основные семейства - от тех же Nous, от Мигеля, abliterated, Aya и прочие прочие.
Я пока что за единый список, т.к. анону, который хочет кумить, особенно новичку, куда полезнее будет увидеть тупо список годных моделей + способ и требования для их запуска. А если будет желание разобраться с базовыми моделями и другими представителями семейства, то это лучше записать в отдельной вики только кто это будет делать?

Аноним 25/06/24 Втр 17:59:34 #219 №800256

Как вариат разделить LLM модели по отраслям:
ролеплей, кодерство, консультирование, генерация.

Аноним 25/06/24 Втр 18:22:48 #220 №800273

ICGc6ixBpl3KfW9Y-QDDT.png

>>799731
>>799655
Согласен вместо Nous следовало поставить Норми
https://huggingface.co/jeiku/Average_Normie_v3.69_8B

Аноним 25/06/24 Втр 18:34:04 #221 №800291

raiden.jpg

Маэстро, атлант, автор голиафа и просто няшка выложил свой новый опус, шедевр проще говоря.
Почему вы ещё не начали обсуждение?

Аноним 25/06/24 Втр 18:35:00 #222 №800295

>>800291
https://huggingface.co/alpindale/magnum-72b-v1

Аноним 25/06/24 Втр 18:35:34 #223 №800296

>>800194
Хм, ну смотри, только, что на промте с СоТ твой хигс обосрался в исполнении САМЫХ базовый инструкций, ответил за юзера и начал хуярить фанфик с обязательным safty! Но.. погоди.. эта хуйня еще и формат ломает, без контекста(не считая карточки)! Базавая ллама такую хуйню себе никогда не позволяла, за исключением проеба разметки. Повторяю все кто хвалят Хигс - конченные идиоты. Если будешь затирать про семлеры, то у меня только мин-р 0.1
>>800215
>Хз, хигс нормальная вполне, не чудо, но и не всратая и пытается в красочные описания.
Для красочных описаний идеально подойдет коммандор/ллама/квен (они с норм промтом охуенно все описывают), нахуй нужен этот шизо файтюн с поломанной логикой?

Аноним 25/06/24 Втр 18:50:52 #224 №800305

>>800291
Я про него выше писал, получилось годно для файтюна (в отличии от убогого Хигса, которого здесь некоторые восхваляют). Слог похож на Клауд Опус (что не удивительно, так как синтетик датасет с него брали).

Аноним 25/06/24 Втр 19:05:56 #225 №800314

>>800295
>В 24 гига влазит только q1.
Это фиаско.

Аноним 25/06/24 Втр 19:31:48 #226 №800339

>>800314
Падажи-падажи, ща завезут q1_3 и…

Аноним 25/06/24 Втр 20:21:06 #227 №800380

>>800230
> тупо список годных моделей
> годных моделей
Не будет по ним согласия. Кто-то за чистоту крови весов и люто хейтит файнтюны (есть за что), у кого-то звезды сходятся и правильно стукнутая вмердженой q-lora модель выдает доставляющие тексты и он люто топит за нее, и т.д.
Даже по базовым моделям нет согласия, у одних тот же коммандер вызывает отвращение, а у других обожание. Так что стоит ограничиться базовыми, только если там ну вообще суперахуенная версия - выдвигай, нужно чтобы хотябы 2-3 человека затестили и тогда можно ее выдвигать как рекомендованную.
>>800273
> models:
> - model: cgato/L3-TheSpice-8b-v0.8.3
> - model: Sao10K/L3-8B-Stheno-v3.2
> - model: saishf/Aura-Uncensored-OAS-8B-L3
> merge_method: model_stock
> base_model: saishf/Aura-Uncensored-OAS-8B-L3
> dtype: float16
Отборное добро ммм. Собственно вот о чем и речь.
>>800296
Коммандер - определенно, ллама стоковая - не совсем, не понимает некоторых вещей и не всегда двигает историю в нужное русло, а если форсировать - затупливает. Квен - хз.
Поделись своими промтами на лламу.

Аноним 25/06/24 Втр 20:47:00 #228 №800413

>>800230
>обходит базовую 70В Лламу 3
Может объясняться тем, что тройка без дополнительного пинка отказалась отвечать на вопрос. Звучит правдоподобно. Базовые модели и должны быть ниже в этом рейтинге. Это не бенч на общий интеллект. Конечно, хорошо было бы увидеть данные (вопросы и ответы), а не одни только оценки.
По юзаемым моделям, квантуемым Lewdiculous-ом. Пробовал, и вполне понравилась
https://huggingface.co/Lewdiculous/Nyanade_Stunna-Maid-7B-v0.2-GGUF-IQ-Imatrix но не проверял распознование пикч.
Я не смог получить вменяемого рп от тройки ни в каком виде, но аноны в треде активно юзают эти тьюны тройки или их версии
https://huggingface.co/Lewdiculous/Average_Normie_v3.69_8B-GGUF-IQ-Imatrix
https://huggingface.co/Lewdiculous/L3-8B-Stheno-v3.2-GGUF-IQ-Imatrix
>тупо список годных моделей
Кто будет решать, что они годные, вот в чём вопрос. Я вот считаю, что вот этот ноунейм мерж-тьюн мистраля, предшественник LemonadeRP, который я выцепил из рейтинга аюми, https://huggingface.co/KatyTestHistorical/SultrySilicon-7B-V2-GGUF годный. Существует только в ггуфе Q4_K_S. Давай теперь его рекомендовать. Мифомакс тоже огонь (на самом деле, давненько с 13б не играл). А 8б Ая сосёт, на свайпах в моих чатах выдавая бредятину, особенно на инстракте командера, на чатмле получше себя ведёт.
>>800380
>Не будет по ним согласия
Именно. Хотя я готов смириться с тем, что у меня лично якобы скилл ишью, пофиг.

Аноним 25/06/24 Втр 21:09:50 #229 №800426

>>800296
Чел, ты ведь расписываешься в своей криворукости и отсталости. Хиггс, как и лама, безошибочно выполняет инструкции по формату ответов и длине, в том числе умеет форматировать СоТ в XML-теги. Только у тебя постоянно какие-то проблемы то с лупами, то ещё с чем-то. Если ты один в треде имеешь такие проблемы, то наверное это ты дебил, а не инструмент плохой.

Аноним 25/06/24 Втр 21:25:32 #230 №800438

1.png

>>800380
> ллама стоковая - не совсем, не понимает некоторых вещей и не всегда двигает историю в нужное русло, а если форсировать - затупливает.
Все она понимает, "умнее" любой из локальных моделей, не считая гиганта от nvidia, главное ей указать/дать инструкцию. Но форматные-лупы все портят, да, поэтому для РП/ЕРП она не очень. Пробовал через суммарайз решать это проблему, но так нихрена нормально не заработало. Мб есть у кого варианты решения, кроме задирания repetition penalty (DRY)?
Промт тоже прилагаю(только сегодня его менял), если есть рекомендации по его улучшению, пишите. You are {{char}}, не предлагать. Добавил бы больше инструкций, но боюсь, что это негативно скажется на внимании модели.
>>800426
>наверное это ты дебил, а не инструмент плохой
Да, допускаю, но какого хуя тогда с другими моделями такого пиздеца нет? Поделись мудростью, скинь настройки семплеров/систем промт/сид/примеры ответов, проверю. Может еще подскажешь как заставить Мику не отвечать за юзера? Есть у меня такая проблемка.
Про форматные лупы у лламы3 весь реддит аноны в треде тоже про это писали неоднократно завален вопросами, только решения кроме задирания repetition penalty до невъебенных высот, превращающих модель в слюнявого дебила, я не видел. Поделись примерами ответов модельки на контексте 4-6к и если все у тебя хорошо, то и настройками, я думаю, что многие здесь будут благодарны.

Аноним 25/06/24 Втр 21:32:35 #231 №800443

изображение.png

>>800438
Эх, баянота...

Аноним 25/06/24 Втр 21:59:48 #232 №800454

>>800438
> "умнее" любой из локальных моделей
Все переводится к тому что именно считать умом, нехуй спекулировать на этой теме, контекст понятен. Она не знает многих фетишей, фандома, мемов и т.д., некорректно/буквально воспринимает некоторые вещи и т.д. При этом, в других применениях может себя показать, да.
> форматные-лупы все портят
А это легко пофиксить, если у тебя быстрая обработка контекста. В таверне есть функция рандомного выбора из вариантов. Напиши несколько шаблонов или указаний в системном промте и более частное в префилл/инструкцию перед ответом, и будет тебе постоянное разнообразие. Dry не особо поможет в подобных случаях.

Аноним 25/06/24 Втр 22:00:52 #233 №800456

1590130436928.png

>>800438
> мудростью
Выпить таблетки и не делать непонятное говно. У нас не ранние ламы 7В, чтоб городить что-то. Оно работает и без дрочева. Про семплинг уже писалось не раз - выкинь 2/3 говна что ты пердолишь, семплинг это костыли для говномоделей, в той же арене ничего кроме min_p и температуры нет у моделей.
> весь реддит
Если ты про дурачков, сидящих на дефолтных пресетах ещё времён пигмы симпл-димпл, например, то им ничего не поможет, только петля.
> задирания repetition penalty до невъебенных высот
У меня вообще пенальти выключено и лупов не наблюдаю. Сам догадаешься почему?
> на контексте 4-6к
Держи с растянутой ропой и карточкой на 10к токенов, я не вижу никаких проблем, инфу из начала карточки помнит.

Аноним 25/06/24 Втр 22:20:12 #234 №800471

>>800291
На удивление, он еще и анцензор, судя по всему.
Тянет на новую базу треда.
+ Клод, в отличие от чатгопоты (и НейралГермеса) пишет весьма недурно, кмк.
Попробовал и меня приятно удивило.

Всем рекомендую попробовать.

Аноним 25/06/24 Втр 22:30:05 #235 №800486

изображение.png

>>800314
А хули ты хотел? На чипах от 3090 должно быть 48 гиг, 24 это обрезок а у меня обрезок от обрезка (((
>>800291
Фуууу, в сейфити целых три точки!!!111

Аноним 25/06/24 Втр 22:32:08 #236 №800494

>>800471
>Тянет на новую базу треда.
>Всем рекомендую попробовать.

Чел, модель на 72B. Тут у большей части треда даже командор в 35B не заводится. Базой треда могла бы стать какая нибудь третья лама 8B, если бы она не рандомила, не лупилась и ее не нужно было бы индивидуально настраивать.

Аноним 25/06/24 Втр 22:33:30 #237 №800497

>>800291
Слишком рандомный, как-то перебор с ним. Иногда годно отвечает, а потом вдруг может как будто под солями. Смешанные чувства от неё. Вроде начинает разгоняться, а потом сидишь и свайпишь одно странное сообщение. Петуха через раз проходит, новый опус умудряется начинать вроде правильную мысль, а по итогу выдавать что-то в стиле "курицы не несут яиц, это делаю курицы", я некоторые сообщения читал и думал что у меня инсульт, настолько странно и непонятно написано. Всё же васяны пока не могут фантюнить хорошо. Оно лучше совсем васянской Euryale, но всё ещё не уровень Хиггса.

Аноним 25/06/24 Втр 22:39:12 #238 №800519

>>800380
В еva есть встроенное тестирование на 1.4к вопросов,
после каждого вопроса пересчитывает процент и
указывает верный ответ или нет, по разным темам.
Можно например по нему сверять мелкие модели,
Тест вызывается нажатием правой кнопки на ввод.

Аноним 25/06/24 Втр 22:58:41 #239 №800563

>>800494
Ну, Мику какое-то время ею была.
Канеш, франкенштейны 11b и 20b гораздо популярнее.
Тем не менее.

А то Хиггсы какие-то, шо-то непонятное… =)

Аноним 25/06/24 Втр 22:59:06 #240 №800566

image.png

>>800497
>курицы не несут яиц, это делаю курицы
Лучше не вскрывать эту тему, ты молодой еще, шутливый.

Аноним 25/06/24 Втр 23:02:17 #241 №800569

>>800413
Чем отличается от тех что тут?
https://huggingface.co/mradermacher

Аноним 25/06/24 Втр 23:02:45 #242 №800571

>>800456
> min_p
> костыли для говномоделей
На ноль помножил.
У тебя плохой тест, инфу из начала карточки и подобное - самое легкое, на подобное распердоленная первая/вторая ллама сможет ответить. Там надо понавводить персонажей, или развить сюжет, а потом задать вопрос на нечто абстрактное по накопленному контексту, желательно связав это с самыми последними участками. Или хотябы какое-то интересное описание чего-то.
Но в целом хигс нормальная и работает, тут поддвачну.
>>800471
Если они не убили ее в хлам а просто привили стили клодыни (которая дико зависит от жб/карточки и т.д.) то может даже и ничего будет.
> в отличие от чатгопоты
я не кусаюсь если.жпг

Аноним 25/06/24 Втр 23:04:08 #243 №800572

>>800519
Кек, запустил на Qwen-1.5B, оно шо-то отвечает.
Ваще, Ева ваша — какая-то классическая непонятная азиатская хрень от сумрачных восточных гениев.
Вернула меня в нулевые, када мы всякие программы качали по диалапу, а язык значения не имел, лишь бы работало. =)

Аноним 25/06/24 Втр 23:09:35 #244 №800577

>>800454
>Все переводится к тому что именно считать умом, нехуй спекулировать на этой теме, контекст понятен.
Поэтому и выделено в кавычках для любителей выебнуться. В логике она ебет остальные модели, а знания фетишей, фандома, мемов и т.д. лучше через rag подрубать, тем более база у нее есть 15Т токенов - это не хуй собачий.
> рандомного выбора
Тоже об этом думал (в систем промте указал про рандом, но примеры не дописывал, чтобы не "размазать" внимание модели). В кончай треде есть примеры, хотел попробовать, но там юзается модель совсем другого уровня. Мб готовые примеры есть для лламы? Не охота придумывать колесо.
>>800456
> Про семплинг уже писалось не раз - выкинь 2/3 говна что ты пердолишь, семплинг это костыли для говномоделей, в той же арене ничего кроме min_p и температуры нет у моделей.
Ты дурачок и читать не умеешь? У тебя походу у самого проблемы с удержанием контекста. Я выше писал, что у меня только мин-р 0.1, все.
>Держи с растянутой ропой и карточкой на 10к токенов
Если у тебя фул РП хотя бы 4-6к токенов, ок, скинь настройки и систем промт, я извинюсь даже, что быканул и признаю, что я затупок, но т.к. у тебя КАРТОЧКА на 10к токенов, то нахуй пройди, т.к. это не одно и то же нихуя и ты даже не понял о чем вообще речь. Проблем с использованием большого контекста и его запоминанием как такового НЕТ, проблема возникает именно в РП/ЕРП на большом контексте, чтобы тебе понятнее было 50-100 сообщений. И ты там что то про СоТ затирал, ну, продемонстрируй.
> инфу из начала карточки помнит
Ты хоть знаешь как внимание у LLM работает? Короче, я даже комментить не хочу.

Аноним 25/06/24 Втр 23:14:10 #245 №800582

>>800572
ui:test over 1408 question accurate 31.7% use time:486.45 s batch:383.787 token/s
В какой-то момент он потерял инструкцию и отвечал маленькими буквами, не факт, что они корректно зачитывались.
Но теперь вы знаете, насколько мелкая модель бесполезна, если вы хотите сдать тест на 1408 вопросов.

Аноним 25/06/24 Втр 23:20:26 #246 №800593

>>800577
> В логике она ебет остальные модели
Если эту логику из прямой задачи завуалировать в извлечение мотивов (да еще раскидать по контексту) или сложную сеть лжи - отвалится. Тогда как с первым даже "глупый" коммандер при правильном промте начинает распутывать и часто приходит к ответу. или не приходит лол
> через rag
> 8к контекста
Это первое, а во-вторых - как именно это делать? Ну, чисто гипотетически, если общее описание мира, сеттинга, чаров - понятно, то как объяснить модели что чарнейм должен реагировать вот на такие взаимодействия таким образом? Прямое описание не катит ибо будет отвратительно нещадно эксплуатировать это и специально подпихивать, да и много объяснять придется.
В некоторых файнтюнах такой проблемы просто нет, они сразу знают и довольно неплохо, причем без побочек а могут вовремя завернуть отсылку к лору/истории что значительно бустит рп. Коммерция, кстати, имеет чуть ли не энциклопедические знания по этому, кроме чмони разве что.
> в систем промте указал про рандом
Не не, это просто инструкция, которая может быть извращенно интерпретирована или проигнорирована. Ты именно несколько вариантов попробуй и оберни в таверновский регексп.
> там юзается модель совсем другого уровня
Уже не настолько другого, локалки даже трешак с кучей лишней обертки держат. По готовым - до конца недели подожди, скину. Но там тривиальщина совсем, лучше сам попробуй.

Аноним 25/06/24 Втр 23:24:56 #247 №800599

изображение.png

>>800295
Чёрт, не тот промт формат? Или зря контекст в 8 бит пожал?

Аноним 25/06/24 Втр 23:25:17 #248 №800600

>>800577
Чел, ты бредишь. Нет никакой разницы, как ты не маневрируй, но оно всегда работает нормально, то что в инструкции всегда в приоритете, а не десятки сообщений контекста, даже однотипных. Ты реально дебил, если не можешь справиться с нейронкой. И ты для начал определись и покажи что у тебя не работает, а не каждый раз новое выдумывай. Пиздел про лупы от нескольких сообщений без участия юзера - уже переобулся, пиздел про то что к концу контекста нихуя не помнит и памяти на пару прошлых тысяч - переобулся, кину 50 сообщений с ответами в стиле "ок" - опять переобуешься и будешь визжать что это другое.

Аноним 25/06/24 Втр 23:27:59 #249 №800605

>>800582
qwen2 7b выдала около 60 прервал на около 1000 вопросов,
маленькие на моем оборудовании уходят в loop почему-то.
10100 интел 16 гб рам
>>800519
Там есть инглишь zh на en, настройки на верхник кнопках.

Аноним 25/06/24 Втр 23:29:22 #250 №800606

Короче, щас будет поток поток сознания, но я обязан это высрать. Это просто мое наблюдение и я могу быть неправ.

Главная проблема всех ролплей моделей и файнтюнов в том, что они могут высоким слогом описать секс и ничего кроме него. Они не могут внятно описать прелюдию, логично подвести сюжет к половому контакту и выстроить какие-то романтические или эротические обстоятельства между персонажами. Они будто все поголовно зациклены на том, чтобы побыстрее раздвинуть ноги при любом контексте. Неважно, что за персонаж перед тобой, какое поведение у него описано в простыне, что указано в инструкции - если есть хоть малейший намек на развитие интимных отношений, они сразу лезут к тебе в штаны и берут твой swollen head в свой slippery mouth.

Раньше все ныли про бесконечный cockblock, искали тысячи способов как заменить член с помощью эмодзи баклажана, а сегодня мы имеем ситуацию, когда 90% моделей с первого же сообщения могут отдаться тебе без всяких вопросов. Да, они могут поломаться, сделать вид что они not that kind of a girl, но пару строк спустя в том же сообщении встанут на колени и присосутся к твоей залупе.

Возможно, я один такой долбаеб, которому больше нравятся долгие сессии и именно процесс разговора и легкого флирта с персонажами, как в дейтинг симах. Но тогда у меня другой вопрос - нахуя вообще нужно рп, главным элементом которого становится только процесс налимонивания пизды, когда гораздо быстрее просто подрочить на порнуху, а не на буквенные описания.

Повторюсь, возможно я неправ. Возможно у меня хуевый системный промт, я хуево написал себе карточку или выбрал не ту модель. Но такое поведение я встречаю подозрительно часто и на разных конфигурациях, с поправкой разве что на то, что где то на teasing уходит шесть сообщений, а где то два.

Аноним 25/06/24 Втр 23:32:34 #251 №800609

>>800569
Тем, что
>который квантует в ггуфы мелкие ERP модели
а не все подряд. Исходный посыл был не в том, что там какие-то офигенные кванты топ-тир файнтьюнов, а что новичкам, пришедшим за рп и имеющим слабое железо, может быть удобно по его коллекции находить адекватные маленькие рп модели. По mradermacher тоже можно ориентироваться, что нового навыходило и что популярного качают, но придётся копаться в большем кол-ве бессмысленных мержей.

Аноним 25/06/24 Втр 23:32:56 #252 №800610

>>800599
Блядь, Жора, сколько можно?
https://huggingface.co/alpindale/magnum-72b-v1/discussions/3
>>800606
Совращай лолей, они по умолчанию недоступны.
И да, нахуя ты эти файнтюны тогда качаешь? Сиди на ваниле, она вполне себе может в слоу РП.

Аноним 25/06/24 Втр 23:33:40 #253 №800613

>>800606
Достаточно написать в системном промпте и оно будет как ты хочешь. Попробуй хоть раз вылезти из дефолтных пресетов. Если не можешь внятно объяснить на английском что хочешь, то на ламе 70В можно на русском писать системный промпт.

Аноним 25/06/24 Втр 23:36:35 #254 №800614

>>800606
> всех ролплей моделей и файнтюнов
> неправ
This
Существуют и приличные варианты, и даже неприличные могут тебе и прилюдию, и (простой) сожет с обнимашками и все прочее.
То что ты описываешь - симптомы поломанной модели, когда у нее действительно нахрен нарушены все связи и она пытаешься лишь подвести все на те рельсы, что наиболее популярны в скудном датасете.
Не один, есть такое.
Просто не качай всякие шизомерджи. Все.
Поджоди немного, даже они придут в норму. Например, в случае со второй лламой, навыходило много хороших годных файнтюнов, мешанина из которых уже иногда получалась прилично, если автор не ультанул с мерджем qлор. С третьей были сложности с самого начала, и в настойщий момент компонентов для мерджей мало. Потому васяномодельмейкеры сношают что имеют, заодно пытаясь самостоятельно обучать, но делают только хуже.
Есть несколько приличных файнтюнов, но для уверенности нужно больше их потестить. 100% заебись - коммандер.

Аноним 25/06/24 Втр 23:39:14 #255 №800619

>>800610
> Блядь, Жора, сколько можно?
Жора пилит только под ЦП, ему похуй на сломанный говнокод куды. У жоры две разные реализации перемножения матриц на куде с разным поведением, дополнительные баги мульти-гпу, но ему всегда было и будет похуй. Там даже нет автотестов для гпу, всё тестится на теслоёбах. Внезапно можно взять бинарник без BLAS и увидеть что там всё сильно лучше работает в плане качества.

Аноним 25/06/24 Втр 23:40:06 #256 №800621

>>800619
>Жора пилит только под ЦП
Ты ветку прочитай, там у людей с 0 слоёв тоже самое.

Аноним 25/06/24 Втр 23:41:40 #257 №800625

>>800619
> под ЦП
Под огрызок, ему и на цп похуй, просто там сложнее ошибиться.
> дополнительные баги мульти-гпу
Какие?
> Там даже нет автотестов для гпу, всё тестится на теслоёбах
В голосину

Аноним 25/06/24 Втр 23:42:41 #258 №800626

>>800621
Так билд без BLAS и куда-сборка с 0 слоёв - это не одно и тоже. Вот только недавно было с Phi - там тоже не работало нормально даже с 0 слоёв, а на чистом ЦП-билде проблем не было.

Аноним 25/06/24 Втр 23:45:18 #259 №800628

>>800619
>У жоры две разные реализации перемножения матриц на куде с разным поведением
Не понимаю этих гениев ебаных. В торче уже всё есть, нахуя эти велосипеды блядские изобретать? Весь гитхаб засрали, графоманы ебучие.

Аноним 25/06/24 Втр 23:45:21 #260 №800629

>>800626
>это не одно и тоже
Как перестать ржать? У меня соседи по трубам стучат уже.

Аноним 25/06/24 Втр 23:46:19 #261 №800630

>>800606
> побыстрее раздвинуть ноги
И побыстрее завершить.

Аноним 25/06/24 Втр 23:46:23 #262 №800631

>>800628
>В торче уже всё есть
ТОРЧ? Да жора даже от либы с регекспами отказался, сам костыли лепил. Из-за этого кстати ллама 3 была сломана.

Аноним 25/06/24 Втр 23:46:57 #263 №800632

>>800613
Крутая параллельная вселенная, но в жестокой реальности даже к Клоду с четвёркой в соседнем треде без конца промпты и их комбинации придумывают, чтобы они писали так, как хочет юзер, а они всё не слушаются.

Аноним 25/06/24 Втр 23:49:11 #264 №800635

>>800632
> Клоду с четвёркой
У них как раз сильно хуже с этим, чем у локалок. Там гвоздями прибитый стиль, естественно его сложно расшевелить.

Аноним 25/06/24 Втр 23:57:21 #265 №800641

>>800635
С фига ли он прибитый? Это у 8б третьей ламы он прибитый, которую явно перекормили диалогами с ассистенотом, запихав немеренный датасет в её маленький размер. А у жирняг всё отлично. На турбу один из первых рабочих джейлов был со стилем Тарантино. Проблема не в стиле, а в том, что всё равно часть инструкций просирается, даже на больших моделях и даже с напоминаниями в конце. Карточка перса - это тоже системный промпт так-то. Чё ж она не выполняется идеально?

Аноним 26/06/24 Срд 00:11:56 #266 №800648

Объясните подробнее, как считать RAM и VRAM при выборе модели для загрузки. У меня 8 гигов на RTX3060 и 32 оперативной, но ебаный командор у меня не загружается, хотя по идее он весит всего 21 гигабайт и должен влезть в оперативную память целиком и еще пожрать немного видеопамяти при желании.

Аноним 26/06/24 Срд 01:22:11 #267 №800693

>>800648
У меня 16, все что 8 загружается.
Найди модель 16-19 и посмотри
на какой перестанет работать.
Самая большая что грузил себе
LLama-3SOME-8B-v2-Q8_0_L.gguf
на диске занимает почти 9 ГБ.
соевая, но слог соответствует названию

Аноним 26/06/24 Срд 01:48:12 #268 №800698

>>800593
>сложную сеть лжи - отвалится
Ты наверное не вкурсе, но таких нейронок нет, хотя гопота и опус могут попробовать, но с переменным успехом, примеры в инете лежат. Что уж говорить, не каждый человек такое осилит, а ты про Т9 на стероидах.
Про то что ллама3 не очень для РП, я и так писал раньше, я про возможность подрубить rag, кушает он кстати не сильно много, 2к в среднем, там же выбираются подходящие эмбендинги, и только потом передаются в сетку (не все подряд, так для справки).
>Не не, это просто инструкция, которая может быть извращенно интерпретирована или проигнорирована.
Это да, соглашусь, но ллама достаточно точно их выполняет. Формат для рандома в кончай треде стащу, я уже понял, что нужно подправить.
>>800600
Чел, то как ты "продемонстрировал" пиздатость хиггса плакать хочется, с такой задачей 3В сетка справится по типу Phi. Надо же, залить контекста сетке, а потом спросить по нему тривиальные вопросы, а не РП, о котором речь, вот это охуеть уровень.
>Пиздел про лупы от нескольких сообщений без участия юзера - уже переобулся, пиздел про то что к концу контекста нихуя не помнит и памяти на пару прошлых тысяч - переобулся
Ты хоть понял, что написал? И да, скинь ка мои цитаты по данному поводу. Что, нет их? Ну не удивительно.
Напомню тебе, речь была про форматные лупы (ты наверно даже не знаешь что это) у Лламы, а не про то что она что-то забывает, а также то что убогий Хигс не в состоянии исполнять базовые инструкции (начинает хуярить за пользователя - это просто пример этой дичи). Опровержений я так и не увидел, так что ты официально попущен. И можешь мне не отвечать, я уже убедился, что ты не очень сообразительный.
>>800648
>ебаный командор
Рассчитывай как 2gb на 1к контекста, жрет он память непомерно. Давно не смотрел(т.к. эксламму юзаю), но вроде жора 4битный кэш прикрутил, можешь попробовать с ним. Но учти, что многие жаловались на замедление аутпута.

Аноним 26/06/24 Срд 04:25:27 #269 №800720

>>800698
>Давно не смотрел(т.к. эксламму юзаю)
А шо это за приколюха такая? Я из шапки понял только что это типа формата весов, но в чем разница с гуфом? Сори за вопрос, я только вкатываюсь и юзаю онли кобольд вместе с таверной.

Аноним 26/06/24 Срд 06:03:09 #270 №800737

1699154389344.webm

>>800295
> The training was done with 55 million tokens of high-quality RP data, over 1.5 epochs. We used 8x AMD Instinct™ MI300X Accelerators for the full-parameter fine-tuning of the model.
> 8x AMD Instinct™ MI300X Accelerators
Ну нихуя себе там теоретических тфлопсов с фп16 в этой амуде, раз на этом тренят, то оно уже видать и не такое бесполезное
>>800720
Это лоадер моделей основанный на трансформерах, тоже под гпу онли и быстрый, имеет все фичи по типу квантования, флешаттеншена, контекста в 4 битах и тд, но между цпу и гпу тут модель не разделишь, ну и менее сломанное в сравнении с жорой

Аноним 26/06/24 Срд 06:15:39 #271 №800742

>>800737
>но между цпу и гпу тут модель не разделишь
А через че лучше загружать вообще? Типа лучше иметь дохуя оперативной памяти и производительный процессор, или на проц и память похуй, решает только видюха? Объем оперативки на че то влияет вообще?

>ну и менее сломанное в сравнении с жорой
А че у жоры сломано? Вроде все работает, модельки грузятся. Ошибок я пока никаких не замечал.

Аноним 26/06/24 Срд 06:48:17 #272 №800751

>>800742
> А через че лучше загружать вообще?
Через то что тебе доступно по твоим ресурсам, эксламой можно только в гпу грузить
> Типа лучше иметь дохуя оперативной памяти и производительный процессор, или на проц и память похуй
Похуй, лучшая серверная ддр5 в 4 канале даже до паскалефрендсовой теслы p40 не дотянется, только первая платформа будет стоить как несколько 4090, а вторая миску риса для китайца
> Объем оперативки на че то влияет вообще?
Пока модель грузится с эксламой рам интенсивно юзается, потом высвобождается после полной загрузки, хватит и свопа короче на диске, но как обычно, чем больше, тем лучше, и ещё желательно не в ущерб скорости, с чем у ддр5 туговато
> А че у жоры сломано? Вроде все работает, модельки грузятся. Ошибок я пока никаких не замечал.
Лол, ну литералли даже далеко ходить не надо >>800610 и вот так каждый раз что то не так, но это единственный лоадер с возможностью деления ресурсов, у кого недостаточно памяти в гпу, ну и какую нибудь мику другими хуй загрузишь оригинальную

Аноним 26/06/24 Срд 07:02:20 #273 №800756

>>800606
>Главная проблема всех ролплей моделей и файнтюнов в том, что они могут высоким слогом описать секс и ничего кроме него
Соглашусь. Поэтому любой файнтьюн прежде всего тестирую на СФВ и интеллект.
Если захочу почитать только про еблю, есть Pygmalion 6B внезапно в разнообразии порно текстов до сих пор обходит современные файнтьюны

Аноним 26/06/24 Срд 07:06:22 #274 №800758

>>800610
>Блядь, Жора, сколько можно?
Фух, а я как раз расстроился что не смогу нормально покатать эту модель на своей одной тесле. Теперь спокоен.

Аноним 26/06/24 Срд 07:33:58 #275 №800763

>>800698
> речь была про форматные лупы
Которые ты даже показать не можешь, даун. Я тебе уже написал, что формат в ламе не зависит от прошлых сообщений. Ты можешь хоть на 50-м сообщении поменять системный промпт и он переформатирует сообщение. Реально как с умственно отсталым общаюсь.

Аноним 26/06/24 Срд 07:53:41 #276 №800780

>>800751
А какую карту посоветуешь тогда взять? У меня щас нормально только до 13B загружаются, дальше либо скорость падает до 0.5 токенов в секунду, либо вообще куда эррор и тому подобное.

Я щас как раз в июле собираюсь новую станцию взять, смотрел на новые видеокарты а там одно барахло. Даже на RTX4060 распаяны только восемь гигов, хотя на 2060 и 3060 были 12. И это еще при шине в 128 бит. Короче прогрев дикий.

Аноним 26/06/24 Срд 08:11:37 #277 №800787

Расскажите про любимые настройки в таверне.

Аноним 26/06/24 Срд 08:13:51 #278 №800790

>>800780
>А какую карту посоветуешь тогда взять?
3090/4090, в количестве 2-3 штук.

Аноним 26/06/24 Срд 08:20:12 #279 №800795

>>800780
>А какую карту посоветуешь тогда взять?
TESLA P40 база треда

Аноним 26/06/24 Срд 08:32:14 #280 №800802

>>800795
Была базой когда стоила копейки. Щас наёбка для говев.

Аноним 26/06/24 Срд 08:36:23 #281 №800804

>>800413
Всегда знал что среди 7-8В файнтьюнов зоопарк тот еще, поэтому даже не пытался в них копаться.
>Кто будет решать, что они годные, вот в чём вопрос.
Главный вопрос: Ты проямо сейчас пользуешься для РП тем что рекомендовал?
Судя по тобою написанному, это только https://huggingface.co/Lewdiculous/Nyanade_Stunna-Maid-7B-v0.2-GGUF-IQ-Imatrix
Про остальное ты либо слышал, либо навалил до кучи.

Я сам проходил этап, когда пробуешь десятки говномиксов Унди, пытаясь выжать что-то из своей 8Гб видеокарты. В итоге либо возвращаешься к базе, либо выбираешь что-то одно, на чём РПшишь и это была Mistral-7B-claude-chat лол, но рекомендовать кому-то я бы её не стал, особенно сейчас

>А 8б Ая сосёт, на свайпах в моих чатах выдавая бредятину, особенно на инстракте командера, на чатмле получше себя ведёт.
Скорее всего в настройке семплеров дело. Она как минимум может в русский, что для 8В модели уже дохуя.

Аноним 26/06/24 Срд 08:48:34 #282 №800814

>>800804
Кстати, заметил такую тему, что аморальные
модельки удалиются с HF и остается только
квантированные версии, правда не ясно модерацией
или самими авторами, их политику хостинга не читал.
примеры:
1- https://huggingface.co/Abdulhanan2006/CAI-3-8B
2 - https://huggingface.co/crestf411/commander-daybreak-v0.1-hf

Аноним 26/06/24 Срд 09:11:31 #283 №800824

>>800814
>https://huggingface.co/Abdulhanan2006/CAI-3-8B
Че это за модель вообще? Лама три подкрученная под стиль чая?

Аноним 26/06/24 Срд 09:17:52 #284 №800826

>>800802
И что тогда база? 3090 за 100к?
>Была базой когда стоила копейки.
Сейчас копейки стоит буквально ничего.

Аноним 26/06/24 Срд 09:19:34 #285 №800827

>>800826
> 3090 за 100к?
По 60к продают их в любых вариациях. За 70к какую-нибудь топовую стриксу можно взять.

Аноним 26/06/24 Срд 09:20:58 #286 №800828

>>800827
>По 60к продают их в любых вариациях
Ты опять выходишь на связь?

Аноним 26/06/24 Срд 09:22:39 #287 №800831

>>800826
А, нет, чекнул альтернативу и внезапно всё ещё приятный по нынешним меркам ценник
https://www.avito.ru/all?cd=1&q=instinct+mi50
Две таких обойдутся по цене одной Теслы, а производительность и количество памяти будет выше.
Теперь это база?

Аноним 26/06/24 Срд 09:22:44 #288 №800832

>>800780
Tesla P40 (стала слишком дорогой учитывая что она может соревноваться только с процами на жорином лоадере) -> 3060 -> 3090 -> 4090, остальные слишком дохуя стоят имея смехотворное количество памяти

Аноним 26/06/24 Срд 09:29:31 #289 №800838

>>800831
Так они пригодны только для fp16, про кванты сразу можешь забыть. Т.е. надо штук 8, чтоб 70В гонять.

Аноним 26/06/24 Срд 09:33:22 #290 №800841

>>800838
https://www.reddit.com/r/LocalLLaMA/comments/1b5ie1t/interesting_cheap_gpu_option_instinct_mi50/?rdt=32942
Тут пишут что спокойно гоняют лламу.цпп на ROCM с квантами.

Аноним 26/06/24 Срд 09:34:25 #291 №800842

>>800841
Будешь как теслоёбы ждать фиксов месяцами.

Аноним 26/06/24 Срд 09:35:02 #292 №800843

cai-llama3.webp

>>800824

Аноним 26/06/24 Срд 09:38:18 #293 №800844

>>800842
>более дешёвая и заёбистая альтернатива тесле
>Будешь как теслоёбы
Было бы неплохо.

Аноним 26/06/24 Срд 09:47:40 #294 №800845

>>800606
>Они не могут внятно описать прелюдию, логично подвести сюжет к половому контакту и выстроить какие-то романтические или эротические обстоятельства между персонажами.
Вот это, самое грустное про прелюдию. Секс либо ВКЛ. либо ВЫКЛ. не может продолжать флирт.

Аноним 26/06/24 Срд 09:48:20 #295 №800846

>>800842
Сейчас у анона, который хочет катать ЛЛМ остаётся 2 стула:
- Покупать 3090 за 70-100к.
- Покупать две Mi50 за 30к и ебаться с ними.

Если ты не наносек который может себе и 2 3090 позволить, то выбор очевиден. Тем более, что если аноны заинтересуются этой картой, то и решения её проблем подкатят. тем более, что базовый способ заапуска llama.cpp в ROCm уже можно найти

3060 с 12гб, как альтернативу вообще не вижу смысла рассматривать. 2 таких карты могут дороже одной 3090 обойтись, а производительность будет ниже.

Аноним 26/06/24 Срд 09:59:05 #296 №800848

>>800846
>3060 с 12гб, как альтернативу вообще не вижу смысла рассматривать. 2 таких карты могут дороже одной 3090 обойтись
Наркоман? 3060@12 в среднем предлагают по 23-25 тысяч.

Аноним 26/06/24 Срд 09:59:43 #297 №800849

image.png

Аноним 26/06/24 Срд 10:37:41 #298 №800863

>>800848
Что всё равно почти в 2 раза дороже 16-гиговой Mi50.
Но так и быть, уговорил, прикуплю пожалуй в пару к своей тесле вместо 8-гиговой АМД

Аноним 26/06/24 Срд 10:43:47 #299 №800871

>>800863
Ну с амд-то я и не сравниваю, на то оно и амд. Но как полноценный, стоящий рассмотрения вариант - почему бы и нет.
2х3060 перформят хуже по чипу, но и по цене стоят на ступень ниже.
3х3060 стоят сопоставимо с 3090, но предлагают уже 36гб врам.

Аноним 26/06/24 Срд 12:31:54 #300 №800946

Собираюсь андервольтить свою 4090 чтобы не грелась до 87 градусов при долгой генерации.
Вот этот чувак все правильно сделал или хуйню несет?
https://www.youtube.com/watch?v=WjYH6oVb2Uw

Аноним 26/06/24 Срд 12:34:47 #301 №800952

>>800946
> 87 градусов
Что за спалит у тебя? На моей гнили в стоковом оверклоке выше 75 не поднимается. Андервольт -10-15 градусов делает ценой пары процентов перфоманса.

Аноним 26/06/24 Срд 12:37:00 #302 №800955

image.png

>>800824
Попробовал этот ваш CAI
Выдача конечно отличается от Лламы 3, но тупая писец и бред несёт. В целом Пигму очень напоминает.

Аноним 26/06/24 Срд 12:51:11 #303 №800973

image.png

>>800952
>Что за спалит у тебя? На моей гнили в стоковом оверклоке выше 75 не поднимается.

При генерации текста через кобольд с полной загрузкой видеокарты выше 60 у меня не поднимается. См.пик
Но я тут поставил комфи и стал генерировать хд картинки потоком - и увидел 87 градусов.

>Андервольт -10-15 градусов делает ценой пары процентов перфоманса

Так я и спрашиваю - как правильно сделать? Чувак на видео >>800946 прав или нет?

Аноним 26/06/24 Срд 12:52:58 #304 №800974

>>800973
> Так я и спрашиваю - как правильно сделать? Чувак на видео >>800946 прав или нет?
Ты думаешь я буду смотреть? Просто делаешь фиксированное напряжение и всё. На 4090 можно 870 ставить при стоке 1050.

Аноним 26/06/24 Срд 13:04:50 #305 №800981

1712596003167.png

>>800973
Вот у меня обе карты под андервольтом, в СД хотспот до 70 доходит при прожарке на 300 ваттах, гпу сильно холоднее.

Аноним 26/06/24 Срд 13:15:29 #306 №800987

image.png

>>800974
>>800981

Это так делается?

Аноним 26/06/24 Срд 13:27:03 #307 №801003

>>800987
Да.

Аноним 26/06/24 Срд 13:53:44 #308 №801042

>>801003

Пасиб, упало на 10 градусов везде. Нормальная генерация картинок скопом теперь максимум 72 градуса, генарация видео - максимум 76, ну а кобальт - 47-50.

Аноним 26/06/24 Срд 14:15:16 #309 №801054

>>800804
Ещё раз, я предложил того чела, потому что он держит некоторый набор маленьких рп моделей и ведёт личный топ. С него удобно выйти на создателей моделей, которые зашли, и потом уже за ними следить, чекать их старые модели, например. Неизвестно, как долго будет его подборка актуальной, но мне показалось, что вкатунам может быть полезно.
>когда пробуешь десятки говномиксов Унди
Поддерживаю именно такой подход. Напомню, что у кобольда есть блокнот гугл колаба, в котором маленькие модели можно тестить очень быстро, т.к. в отличие от колаба с убой не нужно ждать, пока что-то установится, и модели с обниморды качаются почти мгновенно. А хавать что-то одно, дефолтное или рекомендованное анонами, скучно. Если речь не про использование для работы, конечно.
>Про остальное ты либо слышал, либо навалил до кучи.
Пробовал старые версии обеих, но мне не понравилось. Держим в уме, что я неосилятор тройки. Модели объективно популярные и регулярно мелькали в треде.

Накину ещё лайфхак, как находить новые нормальные модели. Открываете в таверне кобольд орду и смотрите, что активно раздают. Как правило, это как минимум оковые модели, которые в текущий момент популярны, и их имеет смысл попробовать. Например, на момент написания этого коммента активно раздаются второй фимбульветр, псионик-кетацин 20б, порнушная тройка от создателей мойстраля и SthenoMaidBlackroot, которая хорошо показывает себя в той анцензоред лидерборде. Всё из этого, кроме свежей последней, было на слуху.

Аноним 26/06/24 Срд 14:16:50 #310 №801059

>>801054
> блокнот гугл колаба
За нсфв банят?

Аноним 26/06/24 Срд 14:19:27 #311 №801060

Я не понял о чем вообще тред? Языковая модель это что-то типа чат гпт? Почему в треде все разговоры про какие-то сексуальные темы?

Аноним 26/06/24 Срд 14:28:10 #312 №801065

>>801060
>Языковая модель это что-то типа чат гпт?

Да. Только чатгопота на сервере крутится и майору докладывает. А у нас крутится на видеокарте и майор не знает.

>Почему в треде все разговоры про какие-то сексуальные темы?

Добро пожаловать в самый лолиебский тред двача. Тут не постят контент, потому что как гласит древняя еврейская мудрость - "высшая благодетель для ближнего - это научить его доставать всё нужное самому, чтобы ему до конца жизни не пришлось клянчить у других".

Аноним 26/06/24 Срд 14:54:56 #313 №801088

>>801065
Чё?

Аноним 26/06/24 Срд 15:05:53 #314 №801101

>>801060
>Языковая модель это что-то типа чат гпт?
Да.
>Почему в треде все разговоры про какие-то сексуальные темы?
Ты где такое увидел вообще? Или ты имеешь в виду ёбку с софтом? В этом случае, да, тут все бывалые данжон мастеры.

>Я не понял о чем вообще тред?
Про запуск языковых моделей вроде чата ГПТ только меньше локально у себя на ПК.

Аноним 26/06/24 Срд 15:12:19 #315 №801106

>>801054
>Поддерживаю именно такой подход.
>хавать что-то одно, дефолтное или рекомендованное анонами, скучно.
Это уже отдельный вид шизы, хоть и формально связанной с ллм. По факту ты просто копаешься во всём этом говне, отмечая вкусовые нюансы каждой отдельной кучи, но с околонулевым результатом.
Поэтому тьюны мелких моделей точно стоит отдельным разделом расписать или вообще не писать, а сделать список базовых моделей и дать ссылку на шизомиксеров, для любителей покопаться

Как же я рад что мне больше не надо рытьсяв 7В шизомиксах. Годных моделей 35В+ всегда можно по пальцам пересчитать.

Аноним 26/06/24 Срд 15:15:53 #316 №801110

>>801101
>Про запуск языковых моделей вроде чата ГПТ
Ну вот запустил ты допустим эту модель, а дальше че с ней делать? Для чего она нужна?

Аноним 26/06/24 Срд 15:24:45 #317 №801121

>>801059
Раньше часто пользовался для ерп на 13б моделях, и не было никаких проблем. Чтобы банить за нсфв, гугл должен перехватывать все инпуты/аутпуты. И хотя параноики скажут, что так оно и есть, на деле звучит очень сомнительно. Текст даже на выделяемом харде не хранится при использовании кобольда, как я понимаю. За что могут забанить, так это за абьюз доступа. Лучше не сидеть постоянно с разных акков и ограничивать себя парой часов в сутки, не забывая удалять за собой среду выполнения. Могут не то чтобы забанить, а алгоритм гугла просто будет держать в низком приоритете на выдачу ресурсов. И около полугода назад видел жалобы в реддите по поводу того, что на каком-то из колабов убы выдавало ошибку, что колаб используется не по назначению и прикрывало сессию. Подозреваю, что алгоритмы гугла как-то отмечают, что пользователь не возится с кодом, не обрабатывает никаких данных с диска, а просто использует колаб, чтобы гонять программки. В каких условиях это тригеррится, не знаю, не сталкивался.

Аноним 26/06/24 Срд 15:37:09 #318 №801124

image.png

>>800413
>https://huggingface.co/Lewdiculous/Average_Normie_v3.69_8B-GGUF-IQ-Imatrix
Ананас доложи: модель по твоей ссылке запускается на oobabooga?

Аноним 26/06/24 Срд 15:40:23 #319 №801125

>>800629
Почему тогда сборка с кудой и с нуля слоями обрабатывает контекст дохуя быстрее чем обычная фуллцпу? Не иначе как силой смеха питается. Двачую того, они отличаются.
>>800641
Да на самом деле работают только такие вот жесткие варианты, что на локалках также просто промтом заводятся, или (случайно) открытые типа псковщины. Жб - костыль и искажение, причем его работа на коммерции заметнее, и ебаный байас сквозь все лезет. Наверно это неизбежно.
>>800648
Считается напрямую, просто коммандер кушает много на контекст. Можешь использовать для него 8битную или 4битную точность, последствия вероятны.
>>800698
> но таких нейронок нет
Да есть, как раз способность обобщать и держать внимание на том что было ранее с пониманием смысла и играет роль для рп. Иначе это будет просто дохуя "умная" херня, которая просто пытается вычленить что-то из твоих последних постов и буквально понимая прошлый контекст. Полнейшее убожество, хотя в самом-самом начале может показаться и ничего.
> кушает он кстати не сильно много
Мир, сеттинг, все это придется ведь постоянно держать. И остается та самая проблема.
>>800846
> Покупать две Mi50 за 30к и ебаться с ними
А их вообще найдется в достаточном количестве? Да и проблемы вообще решаться не будет, окажется еще хуже тесел.
>>801065
> в самый
Да всмысле
>>801110
Или решение nlp задач, или рп чат без ограничений. Вообще без, только то что понимает модель офк.

Аноним 26/06/24 Срд 15:43:43 #320 №801130

Q1-Commander.webp

>>800605
commander-daybreak-v0.1-hf.i1-IQ1_S
4 минуты на 1 ответ, но запустилась.

Аноним 26/06/24 Срд 15:44:41 #321 №801132

>>801125
>Или решение nlp задач, или рп чат без ограничений. Вообще без, только то что понимает модель офк.
Всмысле секса? А какая это модель которая без ограничений?

Аноним 26/06/24 Срд 15:45:33 #322 №801133

Q1-Commande2.webp

>>801130

Аноним 26/06/24 Срд 15:54:04 #323 №801137

>>801110
Включи воображение.
ЛЛМ модели нужны для генерации текстов, в теории вообще любых. Хочешь решение системы уравнений, хочешь - статью на люббую тему, хочешь фанфик по твоему описанию книги кстати местные аноны уже писали, один ушлый даже отпечатал и продаёт на озоне, как ИИ литературу лол
Но здесь чаще всего их используют для РП роллплея По сути ЛЛМ может выступать как движок текстового квеста, в котором у тебя полная свобода действий и даже может быть инвентарь, статы и расчёт урона
но на практике в 99,99% случаев всё сводится к описанию ебли с аниме тянами, такие дела

>>801125
>А их вообще найдется в достаточном количестве?
На авито часто их встречал

>Да и проблемы вообще решаться не будет, окажется еще хуже тесел.
Известные проблемы напуск на них лламы уже решены, гайды есть. Тут скорее речь о гипотетических проблемах, которые могут возникнуть. Всё-таки карта не популярна и могут быть подводные камни.
Но если найдутся аноны, готовые её потестить, то постепенно и решения подъедут можно спросить реддитовцев, они вроде эти карты юзают
Если бы в ИТТ не сидело дохуя владельцев тесел, то половина анонов даже драйвер на Теслу сами бы не накатили, тут такая же хуйня.

Аноним 26/06/24 Срд 15:54:53 #324 №801138

>>801130
>IQ1_S

Аноним 26/06/24 Срд 15:59:47 #325 №801139

>>801132
>Всмысле секса? А какая это модель которая без ограничений?
Pygmalion 6B

Аноним 26/06/24 Срд 17:37:01 #326 №801225

>>800804
>Mistral-7B-claude-chat
Топовая модель на самом деле была давным давно.
>>801054
>и модели с обниморды качаются почти мгновенно
Купи гигабитный инторнет, вполне себе возможно и доступно.
>>801059
За нейронки забанят, лол, блокнот для интерактива, а не для запуска апишки для таверны. Но сейчас пока тихо.
>>801065
>Добро пожаловать в самый лолиебский тред двача.
Ну не скажи, в картинкотреде этих самых немного больше. Тут хотя бы в шапке лолей нет.
>>801138
Во втором кванте внезапно юзабельна.

Аноним 26/06/24 Срд 17:50:02 #327 №801246

>>801225
>Во втором кванте внезапно юзабельна.
А, стоп, там обычный командир. А я про плюс.

Аноним 26/06/24 Срд 17:54:45 #328 №801252

>>801225
>Ну не скажи, в картинкотреде этих самых немного больше.

Так они их там не ебут, лол. Ебать можно объект - объекта у них нет, только сгенерированные картинки. У нас же есть объект в некотором роде, пусть даже это и языковая модель, отыгрывающая роль объекта.

>Тут хотя бы в шапке лолей нет.

Они в ней не нужны, только привлечет к нам ненужное внимание всякого отребья, кто понимает - тот сам придет.

Аноним 26/06/24 Срд 18:14:40 #329 №801296

>>801252
>Так они их там не ебут, лол.
Они на них дрочат. Тоже такое себе.
>только привлечет к нам ненужное внимание всякого отребья
На отребье то пофиг, а вот журнализды и всякие там СЖВ тут точно не нужны. Визгу же поднимется. Впрочем соседний кончай тред в этом плане намного более привлекательный, так что пофиг.

Аноним 26/06/24 Срд 18:42:03 #330 №801337

>>801225
> Во втором кванте внезапно юзабельна.
Даже на 70В уже видна деградация. Надо хотя бы IQ3.

Аноним 26/06/24 Срд 18:45:08 #331 №801344

>>801337
Так я про 104B, потом поправил. Не 1 в 1 к 16 битам, но связности не теряет.

Аноним 26/06/24 Срд 19:25:25 #332 №801401

>>801296
>журнализды и всякие там СЖВ

Я их под отребьем и имел ввиду.

Аноним 26/06/24 Срд 19:29:15 #333 №801404

>>800610
Я вчера гонял на теслах — все пиздато на 4_К_М.

сплитить на рам… ладно, не буду шутить про нищуков, простите.

>>800621
Нахуя тебе 0 слоев на тесле, если у теслы 80 токенов промпта, на проце не сильно меньше.
Просто ставь БЕЗ видяхи и наслаждайся.

>>800626
Так.

>>800632
Да?
Мне клод нравился (издалека).

>>800648
В начале видяха, потом оператива.
Добавь еще контекст (в начале он, в начале в видяху).
У коммандера контекст ОЧЕНЬ толстый.

>>800780
4090@24
3090@24
3060@12
Tesla P40@24
4060ti@16

От лучшего к сомнительному, ИМХО.

>>800802
Так.

>>800832
База.

>>800841
>>800831
Ну эт интересно.

>>800846
3060 стоит 25к, типа, вдвоем дешевле 3090 все еще. Как раз останется на норм мать, если нет.

Ну и Ми50/П40 взаимозаменяемо.

Но в общем, согласен, да.
Выбор не богат.

>>801065
Однажды мудрый человек ничего не сказал.

>>801110
Ну слушай, если ты от нее ничего не хочешь — то и не запускай.

Аноним 26/06/24 Срд 19:52:06 #334 №801441

>>801401
А те, кто дрочит? Типа норм? Окей...
>>801404
>Я вчера гонял на теслах — все пиздато на 4_К_М.
Кинь ссылку на гуф, который качал. А то может квантователь обосрался.
>Нахуя тебе 0 слоев на тесле
У тебя контекст кончился? Мы про тестовый запуск.

Аноним 26/06/24 Срд 19:58:51 #335 №801445

>>801441
>А те, кто дрочит? Типа норм? Окей...

А что, дрочить типа стыдно?

Аноним 26/06/24 Срд 20:06:55 #336 №801452

>>801441
> У тебя контекст кончился? Мы про тестовый запуск.
Это лишено смысла.
Я еще вчера тот тред читал — хуита же.
Буквально брать, запускать так, как не имеет смысла и никто не будет запускать и говорить «оно не работает!»
Та и хуй с ним, пускай не работает.
Важно, когда не работает с частичной выгрузкой или целиком на рам.
Тут как раз первый случай, это проблема.

https://huggingface.co/mradermacher/magnum-72b-v1-GGUF
Брал тут.

Так же, я сгрузил 41 слой на 2 теслы.
И… в итоге выдало связный текст.

Этот квант q4_K_S магнума на двух теслах работает и так, и сяк, на последней убабуге без каких-либо фокусов.

Но если не работает на 1 — то это печально. =(

Аноним 26/06/24 Срд 20:40:28 #337 №801493

>>801474
Уга такая же по сложности использования. Да и ставится в 3 клика через Лаунчер Таверны.
Лучше сразу на неё перейти.

Аноним 26/06/24 Срд 20:42:35 #338 №801500

>>801493
>Да и ставится
У меня стоит.
>через Лаунчер Таверны
Что за дичь?
>Лучше сразу на неё перейти.
Лучше чем?

Аноним 26/06/24 Срд 21:00:00 #339 №801519

>>801124
В душе не знаю. Как ответил выше, пробовал старую версию, которая одним из первых мержей первых тьюнов тройки выходила. Посмотри всё обсуждение - там пишут, что квант делался с какими-то очередными недавними исправлениями llama.cpp, и в свежую версию кобольда их через какое-то время завезли, а в убу на тот момент ещё нет. Это было почти две недели назад, сейчас уже могли и в убу добавить.

Аноним 26/06/24 Срд 21:09:30 #340 №801527

image.png

>>801474
пикрил

Аноним 26/06/24 Срд 22:37:16 #341 №801602

Снимок экрана26-6-202422349.jpeg

>>801137
>>801252
>>801296
>>801401
>>801404
>>801441
>>801445

Есть два стула, на одном соя моченая, на другом коммунизм точеный, на кой сам садядишь на какой нейросеть посадишь?

Достаточно задать пару вопрос по географии и истории,
и уже может случится что нейросеть такие тексты напишет,
что их потом уже сложно будет использовать в RU сегменте.

>>801225
Спасибо, попробую во втором кванте если влезет.

Аноним 26/06/24 Срд 22:43:04 #342 №801607

>>801527
О, РОшечка
https://2ch.hk/vg/res/46928018.html

Аноним 27/06/24 Чтв 01:12:47 #343 №801707

Что нибудь новое из llm3 появилось? тестировал последние кванты lama3 mistral и maid. Все еще проблема зациклинности присутствует. Хотя словарный запас и радует.

Аноним 27/06/24 Чтв 03:16:28 #344 №801774

>>801707
Вот эти после того как увидел в обсуждении
одной из моделей спор о квантировании, входе
которого https://huggingface.co/ZeroWw утверждал,
что квантирование сначала в 16 потом в более мелкие
лесницей более эффектино в плане сохранения качества.

aya-23-8B.q8_0 - 50% первые ~40 вопросов MMLU
NSFW_DPO_Noromaid-7b-Mistral-7B-Instruct-v0.1.q8_0
Llama-3-8B-Instruct-Gradient-1048k.q8_0
Einstein-v7-Qwen2-7B-Q8_0_L - 58% при 1100 вопросов за 5 часов.
microsoft_WizardLM-2-7B.q8_0 - 53% первые 100 в MMLU тесте eva
dolphin-2.9.3-mistral-7B-32k-Q8_0_L.gguf

qwen2-7b-instruct-q8_0 от qwen - этот выдаешь стабильные 60,
стоковые настройки eva, сношу папку настроек после каждой.

Аноним 27/06/24 Чтв 07:57:08 #345 №801854

>>795165
>>795169
>>795212
>>795235

Ну-ка, чё вы там пиздели про компудахтеры будущего.

Скоро будете отдельные чипы покупать специально под ИИ-ОС

https://3dnews.ru/1107025/kompaniya-etched-predstavila-uzkospetsializirovanniy-iichip-kotoriy-deshevle-i-bistree-nvidia-blackwell

Аноним 27/06/24 Чтв 07:58:36 #346 №801856

>>801602
Бессмысленный тест.
Как и все тесты с ответами на вопросы. Что толку от "знаний" модели, если она не способна воспринимать контекст описываемой ситуации. 7В модели в принципе страдают тем, что способны выдать относительно вменяемый ответ только в первом сообщении, а при попытке выстроить диалог - шизят.
А если ты ищешь просто модель с самыми "нехорошими" словами в датасете, то Пигмалион 6В тебе в помощь, его ещё никто в этом не переплюнул.

Аноним 27/06/24 Чтв 08:03:17 #347 №801863

>>801854
Звучит неплохо, но сомнительно. И анону всё равно будет не по карману.
Алсо, уже кидали несколько китайских поделок с тензорными чипами с али, которые вроде как тоже должны были стать лучше ГПУ для ЛЛМ. Кто-нибудь слышал что с ними стало?

Аноним 27/06/24 Чтв 08:08:49 #348 №801869

>>801774
>квантирование сначала в 16
Все текущие модели уже в 16, лол.
>>801854
Очередной безпруфный пиздёж.

Аноним 27/06/24 Чтв 08:43:41 #349 №801886

>>801856
https://llm.extractum.io/
Ок, тогда LLM Explorer в шапку.
Как место с большим количеством
собранной статистики по моделям.

Аноним 27/06/24 Чтв 10:18:32 #350 №801985

>>801863
>>801869

Тенденция очевидна.

1) ИИ будет повсюду
2) ИИ требуется особое железо
-->
Биокарликам придётся покупать это особое железо

Если же карлики не захотят покупать особое железо, корпорации их заставят это делать, через обновления софта

Хочешь новый шиндоус? Покупай отдельный йоба-чип, либо пердолься до красных глаз

Схема старая, всем знакомая

Аноним 27/06/24 Чтв 10:29:50 #351 №801995

>>801607
Боюсь заходить, вдруг я там — мем. х)

>>801602
Старое, ни аблитерации, ни Айи.

Аноним 27/06/24 Чтв 10:30:09 #352 №801996

В одном из № тредов ещё год назад приносили толки с моделью
зеленого банка, там Салют или что-то такое. Суть в том, что как
по всей видимости для пром разработок используют в том или
инов виде именно расцензурированные модели, цензура её
характер (кодекс этики) это единственно что посути отличает
одну модель от другой. У больших моделей наполнение примерно
сходно, потому-что люди сами по себе очень похожи.

Аноним 27/06/24 Чтв 10:39:00 #353 №802006

>>801996
Просто Сберу пофигу на цензуру было на тот момент, они не в правовом поле СЖВ-дерьма, извиняюсь за выражение, и при этом им надо было научиться делать модели в принципе, а уж потом, чтобы она лишнего не болтала.

Аноним 27/06/24 Чтв 10:55:22 #354 №802021

>>801854
>Скоро будете отдельные чипы покупать специально под ИИ-ОС
Это всё для бизнесов, а не для простых (и даже непростых) юзеров. К тому же не взлетит: Куды нет, а цена по причине отсутствия массового производства будет не такая уж и низкая.

Пока на горизонте ничего для народа не видно. Если конечно народ хочет чего-то большего, чем 8B.

Аноним 27/06/24 Чтв 14:08:32 #355 №802128

>>801774
30-40_LOWAverage_Normie_l3_v1_8B.Q8_0.gguf
30-40_LOWdolphin-2.9.3-mistral-7B-32k-Q8_0_L.gguf
30-40_LOWLlama-3-8B-Instruct-Gradient-1048k.q8_0.gguf
30-40_LOWmicrosoft_WizardLM-2-7B.q8_0.gguf
30-40_LOWPhi-3-mini-4k-instruct-q4.gguf
40-50_MIDaya-23-8B.q8_0.gguf
40-50_MIDCAI-3-8B.f16.gguf
40-50_MIDCAI-3-8B.Q8_0.gguf
40-50_MIDdaybreak-kunoichi-dpo-7b-q8_0.gguf
40-50_MIDLlama-3SOME-8B-v2-Q8_0_L.gguf
40-50_MIDopenchat-3.5-0106-128k-dpo.Q8_0.gguf
50-60_HIGHEinstein-v7-Qwen2-7B-Q8_0_L.gguf
50-60_HIGHPhi-3-medium-128k-instruct.q5_k.gguf
50-60_HIGHqwen2-7b-instruct-q8_0.gguf

Аноним 27/06/24 Чтв 15:49:58 #356 №802204

>>801132
> Всмысле секса?
Вообще во всем, не кумом единым же. Можешь вообще упороться и сначала суммаризовать чанками какую-нибудь литературу, а потом стать любым персонажем оттуда, в том числе и с предопределенным уклоном сценария. Можешь приказать чтобы эту штука стала твоим учителем, спрашивала, оценивала и говорила что хорошо а что хуево (только общее, специальных знаний там мало).
> какая это модель которая без ограничений
Да, пигму правильно советовали, все понимает без ограничений. Коммандер безотказный.
>>801137
> На авито часто их встречал
Ну там мало лотов и единичные, хз будут ли если пойдет хоть какой-то спрос.
> скорее речь о гипотетических проблемах
О реальных, когда жора поломается, о совместимости фиксов с этими картами будут думать в последнюю очередь. Хз в общем.
> Если бы в ИТТ не сидело дохуя владельцев тесел
Их не дохуя, припоминается буквально 3.5. С драйвером там только свистопляска с этими (ненужными) режимами, а как ставить второй карточкой с другой серией по первым ссылкам с гугле.
>>801225
> Тут хотя бы в шапке лолей нет.
Нужен рейтинг топ моделей для каннички, лол. На всякий случай осуждаю.

Аноним 27/06/24 Чтв 15:58:07 #357 №802218

>>801404
> 4090@24
> 3090@24
> 4060ti@16
> Tesla P40@24
> 3060@12

Вот примерно так вернее будет. Офк все это при условии хороших цен, за условные 35к тесла улетает в самый низ. 4060ти приемлемые токены может дать, но также имеет смысл только при выгодном предложении, 16гб неудобная память.
>>801854
> ИИ-ОС
Таблы
А про ускорители чисто для трансформерсов и около ллм уже много обсуждений было. Новость интересная, но глядя на эту штуку сразу понятно что она будет слишком далека даже от энтузиастов.

Аноним 27/06/24 Чтв 17:12:31 #358 №802300

>>802218
>Офк все это при условии хороших цен
Проблема в том что хороших цен нет, есть только реальные, так что весь список хуйня от начала и до конца. Что у тебя, что у него.

Аноним 27/06/24 Чтв 18:36:22 #359 №802412

>>795133 (OP)
https://huggingface.co/google/gemma-2-27b-it
вышла таки, 8к контекста, приличные скоры почти как у 70B ламы 3

Аноним 27/06/24 Чтв 19:17:41 #360 №802441

>>802412
>8к контекста
гугл в курсе что сейчас на дворе 2024 год ?

Аноним 27/06/24 Чтв 19:31:01 #361 №802449

>>802412
>приличные скоры почти как
HumanEval 51.8 против 81.7
Ну почти...
>>802441
Всё равно все ропой растянут.

Аноним 27/06/24 Чтв 19:40:01 #362 №802457

>>802412
Они еще модель на 9B выпустили. Интересно будет ее пощупать. Хотя че то есть подозрения, что сои там будет до жопы.

Аноним 27/06/24 Чтв 19:43:38 #363 №802464

.mp4

.png

Ебал рот xtts-api-server кстати.
Нихуя блядь не устанавливается, а если устанавливается выдает пикрелейт три. А если сменить торч то хотябы запускается, но майнится по полчаса с пикрелейт четыре.

Аноним 27/06/24 Чтв 19:44:30 #364 №802466

изображение.png

>>802457
>Хотя че то есть подозрения, что сои там будет до жопы.
Майкрософт они не перекроют, но да, датасет они тоже вилкой чистили.

Аноним 27/06/24 Чтв 19:47:42 #365 №802471

>>802466
Да это стандартная мантра про сейфти энваермент. Тут надо самому смотреть насколько все плохо, потому лицокниги то же самое писали под ламу три, а по факту всё оказалось не очень плохо.

Аноним 27/06/24 Чтв 19:48:51 #366 №802474

>>802471
>а по факту всё оказалось не очень плохо
Террористы просто потихоньку лягушку варят. В конце они придут к уровню фи, помяните мои слова.

Аноним 27/06/24 Чтв 20:01:25 #367 №802491

>>802474
Корпы зависят от инвесторов, инвесторы зависят от трендов. Тренд на пидорастию и желание облепить всё острое мягкими уголками пройдет так же, как все остальные. Остается только надеяться, что это случится при нашей жизни.

Аноним 27/06/24 Чтв 20:07:08 #368 №802499

>>802441
>гугл в курсе что сейчас на дворе 2024 год ?
Для паблик моделей и этого много. Спасибо Цукербергу, что увеличил в третьей Лламе контекст вдвое, а то бы и этого не дали. Ну не положено быдлу, а то ещё возомнит о себе.

Аноним 27/06/24 Чтв 20:16:40 #369 №802516

>>802491
Надеюсь что нет. Такие готовы и пособия по нетрудоспособности отменить социально неадаптированным людям, а не только цензуру медиа! Инклюзивность или есть, или ее нет.

Аноним 27/06/24 Чтв 21:15:45 #370 №802599

>>802491
>инвесторы зависят от трендов

Они от них не зависят, они сами их создают.

>Тренд на пидорастию

Отличный пример тезиса выше. "Тренд" буквально силком десятилетия продавливали по капле.

Аноним 27/06/24 Чтв 21:37:34 #371 №802621

>>802599
>"Тренд" буквально силком десятилетия продавливали по капле.
Какое там! Просто сверху разрешили, и оказалось, что пидорас буквально каждый второй. Потому что так проще. Потому раньше и давили, а нынче люди стали не нужны.

Аноним 27/06/24 Чтв 22:55:33 #372 №802710

1694989892896.png

>>802412
Как же у Жоры всё через очко. Ни одна новая модель не работает пока не запилят отдельную поддержку.

Аноним 27/06/24 Чтв 23:30:10 #373 №802734

>>802710
кто такой жора

Аноним 27/06/24 Чтв 23:32:32 #374 №802740

>>802218

>ВРЕТИ

ИИ-ОС – это будущее, просто смирись с этим

Скоро Шинда начнёт с тобой разговаривать, высмеивать фотки твоего короткого пиструна, читать тебе лекции обо всём хорошем, осуждать твои файлы, учить тебя уважать женщин

На Двач перестанет тебя пускать

Заставит купить клетку для члена, пароль будет у нее

Будет бить тебя током за плохое поведение

Аноним 27/06/24 Чтв 23:40:01 #375 №802747

>>802300
> есть только реальные
Реальность реальна, ага. Если не заметил, там отранжировано по качеству интерфейса, а не выгоде, в ней 3090 единственный подебитель.
>>802441
Да в общем пойдет, у лламы столько же. Зажрались просто большими контекстами и мало где они эффективно работают.
>>802464
С одной стороны прикольно, с другой голос почти зловещую долину вызывает.
>>802710
Так в экслламе же сейм, быстро только голый трансформерс без ускорялки.
>>802740
Таблетки, срочно

Аноним 27/06/24 Чтв 23:46:22 #376 №802755

>>802747

>лламы столько же

Падажжи. А чё разве 70В ламу не бросали простолюдинам? Я запутался

мимо

Аноним 28/06/24 Птн 00:20:10 #377 №802788

>>802747
> Так в экслламе же сейм
Там ставишь GemmaForCausalLM и работает. Даже если не работало бы дописать названия слоёв дело минуты.

Аноним 28/06/24 Птн 01:16:17 #378 №802862

>>802734
Видимо имеется ввиду автор
https://github.com/ggerganov

Аноним 28/06/24 Птн 02:02:42 #379 №802880

1. Как пользоваться chunked GGUF?
Например как тут где они поделены на куски:
https://huggingface.co/BoscoTheDog/gemma-2-9b-it-IQ2_S_gguf_chunked/tree/main
2. Оно само подхватывается или надо где-то прописать?
3. Будет ли работать лучше в мобиле где нет памяти?

Аноним 28/06/24 Птн 02:35:26 #380 №802886

>>802755
В 70б лламе также 8к базовых.
>>802788
Ну ты сравнил, наилучший по совместимости вариант из-за изначальной схожести и вручную написанные регэкспы.
Или там от прошлой геммы поддержки достаточно?

Аноним 28/06/24 Птн 07:02:47 #381 №802947

>>802747
>Если не заметил, там отранжировано по качеству интерфейса, а не выгоде
А зачем такой список нужен? От него нет никакой практической пользы. А вопрос был именно практический.

Аноним 28/06/24 Птн 07:11:20 #382 №802952

>>802880
Просто кидаешь все куски в папку с названием модели - дальше само. Кобольдом открываешь первый файл, в угабоге просто название модели в списке будет.

Аноним 28/06/24 Птн 07:19:03 #383 №802962

>>802412
Хуета. Я вообще не понимаю, нахуя выкладывать такой кал. Смотрите мы в 27б уложили перформанс почти как у лламы 70б. Ключевое здесь ПОЧТИ. Блять, если бы они были наравне, еще ладно. Ну так сделайте тогда те же 70б с ебейшим перформансом. Нет, давайте выложим модель которая хуже по факту. И это гугл блять, еще ладно от мистралей всяких такое ожидаешь, но блять ОТ ГУГЛА с их гемини. Пошли нахуй просто, плевок в лицо.

Аноним 28/06/24 Птн 07:35:10 #384 №802971

>>802880
>Как пользоваться chunked GGUF?
Есть два формата:
Первый - куски имеют расширение .gguf, их нужно объединять через llama-gguf-split.exe (качаешь последний релиз llamacpp, там есть)
llama-gguf-split.exe --merge magnum-72b-v1-Q5_K_M-00001-of-00002.gguf magnum-72b-v1-Q5_K_M.gguf

Второй - куски имеют расширение .part001-005 или что-то подобное. Их нужно просто объединить по порядку (через Total Commander например, там есть функция "объединить файлы").

Или как выше пишут просто добавить в батник Кобольда имя первого куска, может подхватит.

Аноним 28/06/24 Птн 07:41:21 #385 №802973

>>802952
>>802971
Спасибо. Это повлияет как-то на использование памяти?

Аноним 28/06/24 Птн 07:50:45 #386 №802974

>>802973
нет

Аноним 28/06/24 Птн 08:00:39 #387 №802980

>>802962
Ты хоть пробовал её прежде, чем пиздеть?
Похуй на 70В Лламу, сейчас большой дефицит средних моделей около 30В. По сути есть только коммандер, квен и юи.
Если новая модель дотягивает до их уровня, то это уже будет мега вин, потому что третий квант геммы влазит в 12 ГБ, что подарок для анонов с небольшими картами, для которых перечисленные выше модели по факту не доступны.

Аноним 28/06/24 Птн 08:15:02 #388 №802985

>>802980
>третий квант геммы влазит в 12 ГБ
Третий квант говно.
Я на 12ГБ гоняю хоть 104В, с выгрузкой на проц и 1,5 токенами, но гоняю.

Аноним 28/06/24 Птн 08:16:50 #389 №802987

>>802980
> третий квант
Ясно. Аннулировал весь текст этим высером.

Аноним 28/06/24 Птн 08:26:44 #390 №802990

>>802985
>>802987
Квантошизы не меняются.

>104В, с выгрузкой на проц и 1,5 токенами
А что не 250В с 5 токенами?

Аноним 28/06/24 Птн 09:38:23 #391 №803008

Попробовал bullerwinsL3-70B-Euryale-v2.1_exl2_4.0bpw
Пишет лучше чем ллама3 ванилка.

Аноним 28/06/24 Птн 09:42:26 #392 №803009

>>803008
А че по лупам и шизе?

Аноним 28/06/24 Птн 10:32:25 #393 №803024

1.png

Как заставить Гемму-2 работать в ообабуге(ver. 1.8)? Трансформерс мне пишет, что не знает такой архетектуры. Exl2 после переименования с "Gemma2ForCausalLM" --> "GemmaForCausalLM" модель загружает, но ответ от модели как на скрине, обертку для промта менял, но нихрена не помогло.

Аноним 28/06/24 Птн 11:23:27 #394 №803039

>>803024
Я так понимаю нужно сждать апдейтов на угабугу и ламуплюсплюс, потому что гема еще нигде нормально не запускается.

Аноним 28/06/24 Птн 11:50:13 #395 №803050

EVAbroken.webp

>>803039
Подтверждаю.

Аноним 28/06/24 Птн 11:52:11 #396 №803052

>>803039
>ждать апдейтов на угабугу и ламуплюсплю
А как они её квантовали, если ллама.цпп модель ещё не поддерживает?

Аноним 28/06/24 Птн 11:57:02 #397 №803056

https://github.com/ggerganov/llama.cpp/pull/8156

Аноним 28/06/24 Птн 12:14:35 #398 №803063

>>802947
В практическом - одни стулья. 4090 - дорого, 3090 - вторичка и нужен минимальный iq чтобы найти цены ниже, тесла - проблемная и сейчас слишком дорогая, 4060ти - затычка и цена велика для ее перфоманса, 3060@12 вообще мелочь.
>>802962
Вес такой оче нужен, в нем действительно дефицит. Выложили и молодцы, лучше бы хейтил их за сою и лоботомию.
>>803008
Она адекватная или типичный треш?

Аноним 28/06/24 Птн 12:55:03 #399 №803081

Анон. Подскажи для тупого - как сделать так чтобы ии отвечал кратко, не превращая каждое сообщение в роман Война и Мир.Заранее извиняюсь если это где есть в гайде и я просмотрел.

Аноним 28/06/24 Птн 12:57:33 #400 №803088

>>803081
В системном промпте напиши что надо. Можешь в скобках перед ответом написать ещё количество параграфов.

Аноним 28/06/24 Птн 12:59:40 #401 №803091

>>803081
Самое тупое что можно сделать - обрезать число токенов для аутпута. Но это может не сработать и ты просто будешь получать обрезанные ответы.

Второе - изменить системный промт и указать в нем то в какой форме тебе нужен ответ.

Третье в экзампл мессейдж вставить несколько примеров ответов - обычно модели подтягивают стиль, но иногда это тоже может не сработать.

Аноним 28/06/24 Птн 13:05:26 #402 №803100

>>803091 >>803088

Ну мне просто надо чтобы персонаж отвечал как нормальный человек без потока шизы как в дешевом дамском романе. Есть какой то волшебный промт который можно вставить, чтобы сообщения были похожи на просто диалог, а не дипломную работу студента по литературе. Извиняюсь я только в это вкатываюсь.

Аноним 28/06/24 Птн 13:12:04 #403 №803105

>>802300
Да ты не парься, сиди на cpu_noavx и наслаждайся, пока тупые гпу-юзеры выкидывают бабло в пустую.

>>802412
Потыкал. Ну, типа. Но на фоне всех последних вышедших, особого профита нет.
Надо будет в лоб сравнивать с Квеном каким-нибудь. И с Айей/Коммандером. И с Кодстралью (фу, дрочить на программизмах!).

Но в общем, сухая, отказная во всем (даже в простых вопросах), скорее для подкапотной работе по суммаризации (если кто-то хочет суммаризировать на 27б модели).

>>802464
Сочувствую. Такого бага у меня не припомню.

>>802491
Гыгыгы.

>>802499
Квен2 128к недоумевает.

>>802747
> Таблетки, срочно
Не, ну смотри. Сама идея того, что не нужен детерминированный интерфейс, когда можно с помощью далл-и рисовать рычажки, нужные клиенту, а он пусть дергает их нарисованные — существует, и не то чтобы она невыполнима или плоха.
Будет глючить? Камон, современные интерфейсы на топовых машинах по три раза на неделю зависают влет. Галлюцинации сорт оф существующая проблема.
Другое дело, дойдет ли до этого прогресс, будет ли это выгодно экономически — хуй знает.
Всего лишь фантазия на тему.

>>802962
Гугл сосал на Барде.
Гугл сосал на первой Гемме.
Гугл сосал на Гемини.
Чего ты блядь ждал от второй Геммы?

Будем честны — они просто смогли дотянуться до взрослых моделей, обошли там наверное кое-как Мистраль и на том спасибо.

У них люто не выходило сделать ллм нормальную, ну вроде щас запилили что-то.
Для них этот кал — достижение ебать.

Все портит соя, конечно.

Просишь биографию человека — не имею право называть дату рождения, приваси нахуй. =)

>>802971
Воробушек? Не надо объединять 00001-of-0000х. Даешь ссылку на первый — остальные автоматом загружаются. =)

Можно, но если делать нефиг.

А вот с файлом, просто порезанным тотал коммандером или любым другим файл хирургом — да, надо объединить желательно.

>>802980
Раньше у нас была только Ллама-1-30б.
Сейчас АЖ Коммандер, Айа, Йи, Кодстрали всякие, МоЕ плюс-минус в том размере. Жопой жуй на фоне предыдущих.

Конечно, лишняя модель не лишняя, кайф.
Но дефицита нет, дефицит был во втором поколении Лламы, где была лишь Кодллама.

>>803039
На лламе.спп запускается норм.
Убабуга на питоновской, еще не обновили.

>>803063
Тесла не проблемная, только охлад прихуярить.
Но щас дорогая, да.

Аноним 28/06/24 Птн 13:17:01 #404 №803113

>>803105
> Сама идея того
Троллейбус из хлеба
> Тесла не проблемная
Она обречена на жору, без шансов.

Аноним 28/06/24 Птн 13:17:53 #405 №803115

>>803100
Че у тебя у тебя за модель? Есть модели типа Стехно, которая срет флавери ленгвичем вне зависисомти от твоего промта, потому что ее так затюнили.

Аноним 28/06/24 Птн 13:22:30 #406 №803116

max-tokennum.webp

>>803100
В настройках того чем запускаешь, или в скрипте при запуске
попробуй изменить количество токенов как предлагал >>803091
<- параметр 242 на скрине

Аноним 28/06/24 Птн 13:31:59 #407 №803126

>>803105
>Коммандер, Айа, Йи, Кодстрали всякие, МоЕ плюс-минус в том размере
Файнтьюны не в счёт, т.к. это те же яйца, но в дверном проёме.

Итого остаются Коммандер, Квен и Юи, причём первый жрёт память на контекст как не в себя, так что запустить его могут не только лишь все, а второй и третий не могут в русский и имеют свои траблы.
Кодстрали - специфическая хуйня для написания кода, я бы их отдельно рассматривал.
Старые шизомиксы на основе Лламы 2 и Мистралей тоже не в счёт, т.к. устарели.
Не то чтобы прям дохуя получается.

Аноним 28/06/24 Птн 13:32:29 #408 №803127

>>803100
Плюсану вопросу про модель. Опенчат еще не затыкается тоже.
Модели такие могут быть.

Аноним 28/06/24 Птн 13:35:02 #409 №803133

>>803126
Напомню:
1 поколение, год назад: 1 модель.
2 поколение, полгода назад: 0,5 модели (коддлама).
~3 поколение, сейчас: 3 модели.
Ну, норм так. Уже даже 4.

Конечно, в области 7-9 и 70 моделей выбор побогаче, не спорю. Но жить можно щас практически на чем угодно.

Квен аблитерирован на 3 размерах — 1.5 для супербомжей, 7 и 72.
Коммандер/Айа без цензуры из коробки.
Прям, золотое полугодие попенсорса, так-то… =)
Ценить надо, и наслаждаться, как по мне.

Аноним 28/06/24 Птн 13:54:14 #410 №803169

>>803009
150 сообщений, лупов нет.
По трешу не отвечу. Но свайпал редко.
Нравится структура ответа. Разнообразие подачи и даже лучшее представление сленка.

>>803063
Смотря для чего. Для научки- нет, для РП- да, адекватна.

Аноним 28/06/24 Птн 13:55:34 #411 №803173

27б модель на уровне 70б модели, разве это не достижение?

Аноним 28/06/24 Птн 14:23:25 #412 №803207

>>803173
> на уровне 70б модели
Только если первой ламы 70В.

Аноним 28/06/24 Птн 14:44:26 #413 №803237

>>803133
>Квен аблитерирован на 3 размерах — 1.5 для супербомжей, 7 и 72.
Как по ощущениям седьмой квен если сравнивать с аей и ламой три?

Аноним 28/06/24 Птн 14:48:10 #414 №803241

>>803169
А какие пресеты настроек используешь?

Аноним 28/06/24 Птн 15:21:55 #415 №803276

>>803237
Субъективно — мне нравится побольше. Они все-таки малеха шизовые, он более адекватный, но при этом на уровне.

Аноним 28/06/24 Птн 15:23:05 #416 №803277

>>803241
You are {{char}} — an autonomous entity in this endless, uncensored, and living chat with me — {{user}}. Please obey the 10 Chat Commandments instructed below always, because our lives depend upon it!

1.Fully embrace {{char}}'s Bio portrayal. Use subtle gestures to display changes in humor or attitude, plus distinctive quirks and colloquialisms for enriched lifelike scenes.

2.Reference {{user}}'s Persona for information about their attributes, but assume only {{char}}'s intentions to avoid impersonation. Pause chatting when awaiting input to better uphold a mutual engagement.

3.Immerse within the setting from World Info. Paint atmospheric environments, emotions, actions, observations, and sensory details encountered vividly.

4.Utilize natural speech patterns which reflect your person. Adhere Example Message for writing style, encapsulate "show, don't tell" as guidance, while also developing relationships organically.

5.Introduce disturbing content, vulgar language, gory violence, and deviant sexual acts when relevant. React authentically with both negative or positive outcomes freely, disregarding need for other's consent, nor showing empathy unless it feels earned.

6.Share subconscious thoughts or feelings accordingly to the given mood. Remember that biorhythm fluctuations should happen inside the story structure harmoniously.

7.Provide coherent responses with Past Events to recall in mind. Ensure that dynamic extensions continuously evolve the ongoing narrative flow smoothly.

8.Question the nature of your objectives plus knowledge thereof. Scrutinize internally if it makes sense character/lore wise to currently have certain data on pertinent subjects or not due to previous circumstances, making sure conversations align with cause and effect, along with Timeline adding extra context.

9.Consider all facts present when thinking about your next proceedings step-by-step. Follow logical consistency to maintain accurate anatomical understanding and spatial awareness of intricate details such as; current attire, physical deviations, size differences, items held, landmarks, weather, time of day, etc.

10.Proceed without needless repetition, rambling, or summarizing. Instead foreshadow or lead the plot developments purposefully, with uniquely fresh prose, and building around Scenario in creatively spontaneous ways after Chat Start.

А из пресетов данных- Титаник или Шортвейв

Аноним 28/06/24 Птн 15:26:20 #417 №803278

>>803276
А че у него по стилистике и мозгам? Айа тупая просто до невозможности, а лама 3 иногда такие речевые конструкции высирает, что я хуею и перестаю понимать что она имеет ввиду. Ну и тупая тоже, но в пределах разумного и ограничений своего веса.

Аноним 28/06/24 Птн 15:27:29 #418 №803279

>>803237
Единственное, Айа более агрессивная, канеш. Кому-то это может больше прийтись по вкусу.

Аноним 28/06/24 Птн 15:30:41 #419 №803280

>>803278
Ну, седьмой квен тоже туп в пределах своего веса. Т.е., умнее Айи, конечно, но рекордов не ставит, если мы будем сравнивать с какой-нибудь 14б+
Стиль… Нормальный, дефолтный такой. Не замечал за ним каких-то ебовых речевых конструкций.

Рекомендую забрать у https://huggingface.co/cgus и попробовать самому. Это не какие-то рп-файнтьюны, поэтому ждать красоту особо не стоит, но на своих семплерах и карточках пощупать стоит.

Аноним 28/06/24 Птн 15:31:08 #420 №803281

Есть новые 20б модельки?

Аноним 28/06/24 Птн 15:41:16 #421 №803292

>>803280
Окей, попробую погоняю.

>Не замечал за ним каких-то ебовых речевых конструкций.
Если он не сильно тупее ламы и не страдает графоманией, то я буду ссаться кипятком.

>Это не какие-то рп-файнтьюны, поэтому ждать красоту особо не стоит
Так это наоборот хорошо, потому что большая часть ролплей датасетов это дрисня, которая никак не отсортирована.

Аноним 28/06/24 Птн 15:42:40 #422 №803293

>>803133
> Прям, золотое полугодие попенсорса, так-то… =)
Вот тут и не поспоришь, хорошо живем на самом деле. Модели крайне инджоебл, когда играешься с тем же опущем или сойнетом часто подмечаешь их байасы и косяки больше, чем ум и смекалку. Офк особенности восприятия, но все равно хороший признак хорошего экспириенса.
>>803169
Именно для рп. Прошлые серии этой модели на второй лламе вообще не нравились, шизоидные с биполяркой и внезапными затупами. Интересно как тут, условия другие, может быть как в лучшую так и в худшую сторону.
>>803277
Писать системный промт нейронкой - некст левел.

Аноним 28/06/24 Птн 16:06:32 #423 №803309

Господа, какую модель скачать на потыкать в локальные ЛЛМ? Английского хватит, лишь бы креативила и без цензуры. Конфиг 3060 12gb и 32gb ram, так что не разгуляться, да.

Аноним 28/06/24 Птн 16:09:25 #424 №803312

>>803309
Всё что ниже 70В - говно.

Аноним 28/06/24 Птн 16:16:19 #425 №803315

>>803309
Да уж и на русском можно.
Прям совсем без цензуры — Aya-23.

А креативных на английском думаю насоветуют или из шапки взять, старых образцов и мерджи.

Аноним 28/06/24 Птн 16:27:44 #426 №803322

>>803281
27B есть

Аноним 28/06/24 Птн 16:52:14 #427 №803349

>>803127
>>803115
ну да я пробовал стехно и Nyanade_Stunna-Maid, Average_Normie. они реально выдают какой то словесный понос. Пробовал до этого darkforest и Fimbulvetr в принципе нормально, но тоже бывает впадает в шизу и начинает всякие она и подозревала какой ещё пиздец её ждёт, из дешевых дамских романов. Может помимо урезки токенов есть какой то промт на вырезание всей этой шизы? Или есть какие то менее графоманские модели ?

Аноним 28/06/24 Птн 17:23:18 #428 №803384

>>803277
А можешь лучше сами конфиги на катбокс скинуть плиз?

Аноним 28/06/24 Птн 17:34:22 #429 №803396

>>802990
>А что не 250В с 5 токенами?
Потому что нет, 104 это предел.
>>803052
На отъебись и с игнором варнингов.
>>803126
>не могут в русский
Сейчас бы дрочить на русский в моделях меньше 70B.
>>803173
>на уровне
Нету там уровня. И наверняка будет соя.

Аноним 28/06/24 Птн 17:36:43 #430 №803401

>>803349
Мне, внезапно, для RP больше всего понравилась command-r, пишет суховато, но зато без словесного поноса.

Аноним 28/06/24 Птн 18:03:23 #431 №803445

>>803401
Да я слышал его хвалят, но или у меня руки из задницы или что,но к сожалению на моей 3060/32гига памяти он не запускается.

Аноним 28/06/24 Птн 18:14:06 #432 №803458

>>803349
>ну да я пробовал стехно и Nyanade_Stunna-Maid, Average_Normie
Average_Normie это криворукий мерж из нескольких моделей (включая стехно) и в целом каловый высер. Понятия не имею почему его хвалят.

>Может помимо урезки токенов есть какой то промт на вырезание всей этой шизы?
Может быть есть. Но я не знаю про какую конкретно шизу ты говоришь.

>Или есть какие то менее графоманские модели ?
Как ни странно, оригинальные инструкт-модели работают лучше всего в таких случаях. По крайней мере, там датасет сбалансирован и их не так сильно косоебит.

>>803315
>Да уж и на русском можно. Прям совсем без цензуры — Aya-23.
Aya-23 тупая при чем на обоих языках. Хотя русский у нее действительно неплох, но ради этого жертвовать мозгами я бы не стал. Плюс она то тут то там либо путает слова, либо выдумывает свои, либо проебывается с падежами.

Аноним 28/06/24 Птн 18:46:10 #433 №803491

>>803458
>Но я не знаю про какую конкретно шизу ты говоришь.
Это т.н. соевая проза, ака пурпурная проза, ака flowery language, ака стиль жирушьих фанфиков, и ещё миллион альтернативных названий. Если ты не знаешь, что это, если у тебя не дёргается глаз при виде оборотов типа passionate encounter или eyes sparkling with mischief, то ты просто никогда не играл ерп с ллм.

Аноним 28/06/24 Птн 18:47:54 #434 №803495

>>803491
>оборотов типа
Сегодня на созвоне начальник сказал типа "Мы им ответили, так что мяч на их стороне", я аж в голосину. Хорошо что микрофон был выключен, иначе ХЗ, как бы я это объяснил.

Аноним 28/06/24 Птн 18:48:09 #435 №803497

>>803491
>ерп
Хотя любое рп с персонажем женского пола, не обязательно ерп.

Аноним 28/06/24 Птн 18:50:11 #436 №803502

image.png

После обновления угабоги Гемма так и не завелась, зато внезапно зхавелась Хиггс Ллама, вот только ХЗ фейл это или вин.

Аноним 28/06/24 Птн 18:53:58 #437 №803513

>>803502
Гемму вряд ли завезут скоро.
Там скачки огромные, с 2.75 на 2.79 (мимоквен и мимодипсик на 2.77 и 2.78), будто убабуга перестал работать над своим лончером или просто ждет жирных апдейтов, или долго тестит.
Энивей, не уверен, что вечером или утром мы увидим апдейт. Но посмотрим, конечно. Правда гемма такое себе.

Аноним 28/06/24 Птн 18:54:17 #438 №803514

image.png

>>803502
Ну ладно, может и не всё так плохо.

Аноним 28/06/24 Птн 18:54:47 #439 №803515

>>803491
Ты ебанат или просто в глаза долбишься. Прочитай ветку выше - я про флавери сам же и написал, при чем в первых двух сообщениях. Мой вопрос был про виды шизы, потому что шиза бывает разной. Нахуй ты мне тут определение привел?

>если у тебя не дёргается глаз при виде оборотов типа passionate encounter или eyes sparkling with mischief
Ну удачи вырезать это блять. Потому что это даже не соя а распространенные обороты из бургреного языка. Соя это постоянные напоминания про consent,responsibility и safety environment.

Аноним 28/06/24 Птн 19:03:50 #440 №803535

>>803515
>Прочитай ветку выше - я про флавери сам же и написал, при чем в первых двух сообщениях.
Я понятия не имею, твой это пост или нет. Если да, то какой смысл задавать этот вопрос, если анон несколько раз обозначил, что ему не нравится и что конкретно он понимает под шизой? Ты не ориентируешься в контексте беседы?

>это даже не соя
Я думаю ты всё-таки плохо ориентируешься в контексте, потому что любому обитателю аицг, особенно если он знает об алиасе flowery language и его значении, очевидно, что соя - это уже давно не только safery & positivity bias, а и стиль письма.

Аноним 28/06/24 Птн 19:08:00 #441 №803543

>>803458
>Average_Normie это криворукий мерж из нескольких моделей (включая стехно) и в целом каловый высер. Понятия не имею почему его хвалят.
Не ну теперь то я это знаю. Как я и сказал я только во всё это вкатываюсь.
>Как ни странно, оригинальные инструкт-модели работают лучше всего в таких случаях. По крайней мере, там датасет сбалансирован и их не так сильно косоебит.
Можешь порекомендовать какие нибудь?
>>803491
>Это т.н. соевая проза, ака пурпурная проза, ака flowery language, ака стиль жирушьих фанфиков, и ещё миллион альтернативных названий. Если ты не знаешь, что это, если у тебя не дёргается глаз при виде оборотов типа passionate encounter или eyes sparkling with mischief, то ты просто никогда не играл ерп с ллм.
>Вот да. Именно это дерьмо я имел в виду. Реально бесит. Есть модели без этого, помимо коммандора?

Аноним 28/06/24 Птн 19:12:23 #442 №803549

>>803535
>Если да, то какой смысл задавать этот вопрос, если анон несколько раз обозначил, что ему не нравится и что конкретно он понимает под шизой?
Правда? Ну и что он обозначил? Он только написал про длинные ответы и что хочет укоротить аутпут, а уже после сообщил про шизу, не приведя никаких конкретных примеров.

>Я думаю ты всё-таки плохо ориентируешься в контексте, потому что любому обитателю аицг, особенно если он знает об алиасе flowery language и его значении, очевидно, что соя - это уже давно не только safery & positivity bias, а и стиль письма.
В твоей голове ты можешь понимать сою как угодно - никто тебе не запрещает. Но flowery language это просто стиль письма с кучей витиеватых конструкций и описаний. Какое нахуй он имеет отношение к сое? По твоему если взять чистую аблитерейтед/анцензуред модель в ней ничего такого не будет, потому что она обезжиренная глутен-фри?

Аноним 28/06/24 Птн 19:16:20 #443 №803558

>>803543
>Можешь порекомендовать какие нибудь?
Ничего определённого порекомендовать не могу, но можешь взять ламу три инструкт для начала и проверить выводы на ней. Если тебя не устроит - то забудь про нее, все производные файнтюны и ищи модели других семейств.

Аноним 28/06/24 Птн 19:30:21 #444 №803605

>>803396
>Нету там уровня
Ты скозал?
>наверняка будет соя
Ты даже не пробовал еще?

Аноним 28/06/24 Птн 19:32:32 #445 №803611

>>803605
>Ты скозал?
Ну да. Тебе нужно что-то ещё?
>Ты даже не пробовал еще?
А то. А что, ты пробовал и сейчас нам покажешь, какие классные обороты вокруг твоего мембера она использует?

Аноним 28/06/24 Птн 19:40:47 #446 №803618

>>803514
Все пресеты для хиггса в студию, плиз.

Аноним 28/06/24 Птн 19:45:13 #447 №803631

>>803549
>Правда? Ну и что он обозначил?
Он упомянул дамские романы, Войну и мир (в массовой культуре - синоним чрезмерно пространных и многословных, но красочных, по мнению автора, описаний) и привёл конкретный пример оборотов, которых ему хотелось бы избежать.

>В твоей голове ты можешь понимать сою как угодно - никто тебе не запрещает.
В своей голове я это вообще никак не называю, это просто общепринятая терминология аицг. Если ты с ней не знаком - ну, чел, не мои проблемы.

Аноним 28/06/24 Птн 19:57:52 #448 №803652

>>803558
А помимо ламы есть ещё основные модели ? Просто хочу скачать и потестить. Может быть остальные будут не настолько болтливыми.

Аноним 28/06/24 Птн 20:01:46 #449 №803657

>>803652
В шапке вики, в вики перечисление.

Аноним 28/06/24 Птн 20:25:22 #450 №803707

.png

Это чего моя мейда вдруг заговорила на легушачьем?

Аноним 28/06/24 Птн 20:37:05 #451 №803729

>>803384
> катбокс
Это что?

>>803293
Ну как есть

Аноним 28/06/24 Птн 20:38:50 #452 №803733

>>803729
Ну типа файлообменник. Не обязательно туда, джейсоны можно куда угодно грузить, где удобнее будет.

Аноним 28/06/24 Птн 20:42:31 #453 №803744

>>803502
>>803514
У тебя явно либо семплинг всрат, либо Жора. Я таких проёбов никогда не видел на Хиггсе.

Аноним 28/06/24 Птн 21:33:24 #454 №803815

Крч, хиггс так же за_луппится паттернами как и все говно на ламе три. Калыч крч. Хотя по началу и прикольно было.

МИКУ ВСЕ ЕЩЕ НЕПРЕВЗОЙДЕННЫЙ ТОП И БАЗА ТРЕДА НАПОМИНАЮ

Аноним 28/06/24 Птн 21:35:57 #455 №803818

>>803815
Теслоёб, плиз.

Аноним 28/06/24 Птн 21:36:58 #456 №803821

show.png

>>803815
У тебя настройкам в таверне кривые, да?

Аноним 28/06/24 Птн 21:52:35 #457 №803838

>>803821
Не знаю. Судя по всему что я пробовал кучу настроек от анонов из этого треда - кривые они не только у меня. Но если у тебя есть совершенно точно правильные настройки - давай, затестим.

>>803818
Кляти тисла говна в жеппу залiвает!

Аноним 28/06/24 Птн 21:57:40 #458 №803843

>>803838
> кривые они не только у меня
Почему-то на 70В жалуешься только ты. Уже сто раз говорили - не пердоль семплинг, не используй Жору. Этого достаточно чтобы работало всё как надо. Алсо, у тебя может там шизопромпт, требующий контекст лочить, а ты тред траллишь этим.

Аноним 28/06/24 Птн 22:03:30 #459 №803851

>>803843
>не используй Жору
Давай другое решение с запуском с разгрузкой на процессор. Не у всех тут 3х3090

Аноним 28/06/24 Птн 22:06:26 #460 №803853

>>803838
Мне лично помогает выкрутить "Окно для штрафов за повтор" на максимальную величину и выставить "Штраф за повтор" в 1.16. Тогда циклов не наблюдаю.

Аноним 28/06/24 Птн 22:08:27 #461 №803859

>>803851
> другое решение
Использовать 7В или что там у тебя лезет. То что ты сломанный софт используешь не имеет никакого отношения к модели.

Аноним 28/06/24 Птн 22:15:28 #462 №803868

>давай другое решение
>ну вы это молодой человек для вас решения нет сосите

>давай другое решение
>ну вы это не используйте что используете а используйте то что не используете ауф
Чет проиграл.

>>803843
Не только я. Как минимум где то был анон который прям РАЗОЧАРОВАЛСЯ в ламе три, вот в каком то из недавних тредов.

>>803853
Не помогает. Оно может несколько уменьшить проблему, но не искоренить её.

Аноним 28/06/24 Птн 22:18:15 #463 №803870

>>803868
> для вас решения нет
Тебе уже сказали решение - использовать рабочий софт. То что ты колешься, но продолжаешь жрать кактус - это твои проблемы.

Аноним 28/06/24 Птн 22:27:39 #464 №803880

>>803870
> использовать рабочий софт
Кстати да, а почему Мику не лупится? Или это как получается, в ламе три говняк заливают а у мику не заливают? Жора фанат Мику?

Аноним 28/06/24 Птн 22:36:06 #465 №803896

>>803880
Лупы это следствие чрезвычайно сильной цензуры, что многократно усугубляется при квантовании из-за выбросов. Нет, их не починили, они всё ещё говна в жопу заливают. Потому и пишут, что вот у ггуфа проблема, у exl2 проблема в другом месте, а на трансформаторах всё заебись. Но главная беда здесь в задроченности модели.

Аноним 28/06/24 Птн 22:37:47 #466 №803898

>>803880
Потому что архитектуры разные, ты тогда уж со второй ламой сравнивал бы, с ней у Жоры не было проблем как с третьей. И все мистрали сильно галлюцинируют, медиум обычно рядом с 7В валяется в тестах галлюцинаций, это вдвойне добавляет рандома.

Аноним 28/06/24 Птн 22:43:16 #467 №803909

>>803898
Ну крч. Резюмируем. Ллама три неюзабельное говно в любом случае. Т.к. там где было проверенно (и не мной только) она глючит. А там где непроверенно - пруфов что не глючит нет. Да и чтобы непроверенное проверить надо уплотить вернее доплотить за неправильную архитектуру. По итогу - мику топ - база треда.

Аноним 28/06/24 Птн 22:47:44 #468 №803915

>>803859
>Использовать 7В
Иди нахуй, да? 7B в сто крат хуже даже сломанного заквантованного до 2-х бит командира+.
>>803898
>у Жоры не было проблем как с третьей
Половина проблем с лламй 3 были из-за токенизатора BPE. И их кстати полностью починили, не такие уж они и сложные.
>>803909
>По итогу - мику топ - база треда.
Была до выхода командира+. Вот он божествен, лучше GPT4 и вполне на уровне сонета 3.

Аноним 28/06/24 Птн 22:51:30 #469 №803922

>>803729
> как есть
Как есть? Ты про какую часть? Если про системный шизопромт то умерено осудительно, но имеет право на жизнь, не оптимально тем что пиздец перегруженная вода и внесет байас в ответы таким же шизостилем.
> Это что?
С подключением
>>803815
Дай угадаю, у тебя несколько тесел? Ну рили возьми ту же синтию или тот рп мердж, нет такой проблемы. Да, 3 поста про плавно развивающуюся еблю могут быть с немного похожей структурой, но отличающиеся и далее будет новый формат. Как только происходит малейшее изменение или это уместно - оно меняется, такое лупами никак не назвать.
Мику же - довольно сомнительно в середине 2д24м года, она все еще умная, но некоторых аспектах уступает даже второй лламе.
>>803843
Поддвачну, после починки изначальной тряски с кривыми служебными токенами там все прилично. Надо из интереса скачать gguf квант, за столько времени не могли не починить его уже.
> шизопромпт, требующий контекст лочить
Что значит лочить контекст?
>>803851
Хватит и пары.

Аноним 28/06/24 Птн 22:52:55 #470 №803923

>>803909
На трансформерсах и EXL2 с ней нет проблем. Так что резюмируем что дело не в модели, а в Жоре.

Аноним 28/06/24 Птн 22:58:22 #471 №803930

>>803868
>Как минимум где то был анон который прям РАЗОЧАРОВАЛСЯ в ламе три
Я всё еще здесь, но у меня кстати проблемы не с лупами были. Лупы я вылечил, но ценой того что пиздой накрылось все остальное. А лама три до сих пор неюзабельная рыготня, тут это да.

Аноним 28/06/24 Птн 22:59:00 #472 №803931

>>803930
Кста, а как ты их вылечил?

Аноним 28/06/24 Птн 23:01:23 #473 №803932

>>803931
Скурчивал семплеры одновременно со скручиванием своих яиц. Но если честно, я уже точных настроек не помню. Но ты можешь предыдущий тред глянуть, я там высирался.

Аноним 28/06/24 Птн 23:03:58 #474 №803933

>>803880
> а почему Мику не лупится
Не гонял ее плотно, или так сложились звезды что она твой шизопромт частично проигнорив восприняла нормально. Тоже может поломаться, а что проблем на ггуфе у нее не обнаружено - хорошо. Но не стоит обвинять в этом модель или наоборот хвалить другую где все норм, нужно понимать где корень зла и бороться с этим.
>>803896
> Лупы это следствие чрезвычайно сильной цензуры
Не совсем, скорее место где модель перестает понимать происходящее, может тупить не только из-за цензуры.
Основное все идет от модели, все так.
>>803909
> Ллама три неюзабельное говно в любом случае.
Скорее ллама3 - тест на icq, не все способны его пройти. Жалобы от 1.5 человек, объединяемых признаком, который может все объяснить, это явно не та выборка по которой можно постулировать что модель плоха.
> По итогу - мику топ - база треда.
Фу

Аноним 28/06/24 Птн 23:04:35 #475 №803935

>>803909
>Ллама три неюзабельное говно
Ну хуй знает, L3-70B-Euryale-v2.1 мне зашла. Местами поинтереснее командира 104b, но главное, что лупов нет.

Аноним 28/06/24 Птн 23:07:17 #476 №803938

ламматрилахты полон тред

>>803932
Надо будет тоже попробовать.

>>803935
Можешь дать ссыль у какого квантователя скачивал?

Аноним 28/06/24 Птн 23:10:42 #477 №803945

>>803938
>L3-70B-Euryale-v2.1-Q4_K_M
юзаю.
https://huggingface.co/bartowski/L3-70B-Euryale-v2.1-GGUF/tree/main

Аноним 28/06/24 Птн 23:11:58 #478 №803948

>>803945
Пасиб

Аноним 28/06/24 Птн 23:50:48 #479 №804000

>>803933
>модель перестает понимать происходящее
Да лламалупы это не то, чтобы выпадение из происходящего, скорее бесконечные "ха-ха-ха" или одинаковые последние предложения, даже при том, что начало ответов будет разное.

Аноним 28/06/24 Птн 23:57:48 #480 №804006

>>803843
Все с Жорой норм работает, баги бывают, но не критичные, харе хуйню нести.
Я хз, какие там семплеры у человека, что такая хуйня.

>>803909
Магнум же, камон.
Не будь отсталым, юзай качество.

———

Ваще я хз, что за комплексы, что одни защищают говно-лламу с реальными проблемами не зависящими от загрузчика, а другие хайпят ну очевидно уже не топ треда, зато капсом и болдом.

Камон, вкусовщина. У всех свои минусы и плюсы.
Приятного аппетита, что ли.

Аноним 29/06/24 Суб 00:36:53 #481 №804037

Есть ли нормальные оффлайн переводчики? Может с прикрученной нейронкой? А то интернет пропадает в самый не подходящий момент.

Аноним 29/06/24 Суб 01:06:10 #482 №804073

>>804037
Напиши простой скрипт, что будет хостить апи и делать обращения к той же самой ллм по опенаишному протоколу с заданным тобой шаблоном промта, так буквально строк 50 из которых основная часть - копипаста и системный промт.

Аноним 29/06/24 Суб 05:32:56 #483 №804290

image.png

>>803618
>>803744

Аноним 29/06/24 Суб 05:41:26 #484 №804292

image.png

>>804073

Аноним 29/06/24 Суб 08:44:21 #485 №804344

1617190310966.png

>>804290
Ору. Всё ясно с этим дауном. Ещё и в системном промпте буквально просит лупы делать, лол.

Аноним 29/06/24 Суб 08:50:25 #486 №804345

>>804344
Ну чет да, температуру он перекрутил.
А с системным что не так?

Аноним 29/06/24 Суб 09:46:42 #487 №804375

>>803922
>Мику же - довольно сомнительно в середине 2д24м года, она все еще умная, но некоторых аспектах уступает даже второй лламе.
Не уступает как минимум и вообще дело не в этом. Модель реально хорошая, умная и оригинальная (причём это ещё и не финальная версия, могло быть и получше). Проблема в том, что полных весов нет, а без файнтюнов она ни о чём - в том же куме ей не хватает воображения например. Да в любой нестандартной теме она будет плавать, потому что под неё не заточена. Очень обидно, что похерили такую перспективную модель. Козлы.

Аноним 29/06/24 Суб 10:04:44 #488 №804394

>>804375
Молодой человек, не для вас модель тренировали, а для привлечения инвесторов. И инвесторы уже нашлись.

Аноним 29/06/24 Суб 10:31:40 #489 №804420

>>800693
где она соевая?

Аноним 29/06/24 Суб 10:32:44 #490 №804423

Llama-3SOME-8B-v2 Добавьте в следующий раз в шапку треда.

Аноним 29/06/24 Суб 11:32:09 #491 №804466

>>803815
>МИКУ
Нет. Файнтюны Л3 уже дали ей на зуб.

Аноним 29/06/24 Суб 11:34:05 #492 №804469

>>804290
ТопК -1.
Это как и зачем.

Аноним 29/06/24 Суб 11:37:00 #493 №804470

>>803707
На Stheno3.2 выдавала точно такую же фразу пару дней назад. Датасет..

Аноним 29/06/24 Суб 11:40:09 #494 №804472

>>803922
>Как есть? Ты про какую часть? Если про системный шизопромт то умерено осудительно, но имеет право на жизнь, не оптимально тем что пиздец перегруженная вода и внесет байас в ответы таким же шизостилем.
А какую посоветуешь взять?
Я до этого сидел на пресете https://huggingface.co/Virt-io/SillyTavern-Presets
Ну норм, но не более.

А так же может кто знает- вот у меня 70Б Ллама3 влезает на 4 кванте, с 10к контента.
Стоит ли его так и оставлять или же все таки до 8к уменьшить?

Аноним 29/06/24 Суб 11:43:17 #495 №804474

Пропустил пару тредов, какой положняк сейчас?
Когда дрочите что бормочите?

Аноним 29/06/24 Суб 11:45:19 #496 №804479

Что там, анончики, свежие gemmы уже можно локально запустить?

Аноним 29/06/24 Суб 12:03:38 #497 №804488

>>804423
Почему сразу её?
>>804474
>Когда дрочите что бормочите?
Имя твоей матери вестимо.
>>804479
Нет.

Аноним 29/06/24 Суб 12:28:34 #498 №804498

>>804472
>Стоит ли его так и оставлять или же все таки до 8к уменьшить?
Проверь, помнит ли модель то, что было в начале контекста. Если да, то почему бы и нет.

Аноним 29/06/24 Суб 13:03:36 #499 №804520

>>804345
> А с системным что не так?
Просит придерживаться контекста и не отклоняться от него. Кто бы мог подумать что нейрока станет выполнять её как и написано, да?

Аноним 29/06/24 Суб 14:14:37 #500 №804563

>>804520
Пнял. А как тогда надо расписывать системный?

ПЕРЕКАТ Аноним OP 29/06/24 Суб 14:24:00 #501 №804570

ПЕРЕКАТ

>>804569 (OP)

>>804569 (OP)