В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
LLaMA 3 вышла! Увы, только в размерах 8B и 70B. Промты уже вшиты в новую таверну, так же последние версии кобольда и оригинальной ллама.цпп уже пофикшены.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2. Недавно вышедшая Llama 3 в размере 70B по рейтингам LMSYS Chatbot Arena обгоняет многие старые снапшоты GPT-4 и Claude 3 Sonnet, уступая только последним версиям GPT-4, Claude 3 Opus и Gemini 1.5 Pro.
Про остальные семейства моделей читайте в вики.
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту: https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
>>758768 → >Именно поэтому в опусе теперь все через мессаджез Но там же префил вроде работает? Хотя я подробно не смотрел. В гпт там вообще адовый костыль с сообщением "вот кусок, продолжай как можешь", по моему только проблемы с такого компитишена. >Уверен что он действительно полный? Код не читал, так что процентов 90.
>>758774 В том сервисе за кудосы, можно и вообще бесплатно, но с очередями. Помни, что твои запросы обслуживают рандомные аноны, и они вполне могут логировать все запросы. Если есть нормальное железо, то можешь запускать у себя, максимум свободы, инструкции все в шапке.
>>758784 >Так я её не обновлял. Код на рандомные подсирания уже вшит. Можешь даже не искать его, он скрывается в глубинах зависимостей. Некоторые неразумные неофиты думают, что это крутят коммерческие сетки, но такие же приколы на локалках гарантируют, что всё это таверна.
>>758775 > Но там же префил вроде работает? Да, закидываешь типа сообщение от ассистента и оно развязывает язык. Хуй знает только в какую именно структуру оно превращается у них там перед скармливанием модели, при желании вполне могут подрезать и все эти префиллы подустанут. Аналогично там продолжение в таверне часто косячно работает и все такое. >>758779 Ретроградный меркурий. Просто тот промт ей был понятен а тут ты ее перегрузил. Или может такие отличаются параметры.
>>758792 → > Ну просто прикольная фишка, что модель шарит за анимешные жаргоны и т.д. Чувак, нормальная модель знает лоры анимца, игорей, гач и прочего. Вполне можно обсудить твою вайфу просто по указанию имени и копирайта. Карточки некоторые тоже потому так хорошо и работают, не только следование промту, но и подключение собственных знаний чтобы разыгрывать что-то в оригинальном сеттинге если не указано иное, подключать персонажей из серии в историю и т.д. Насчет той модели что была в прошлых постах - хз.
>>758830 >порядок семплеров тоже захардкодили. Как и длину контекста Год назад? Заебись, актуальную инфу нашел Только вот все это настраивается уже давно
>>758833 Весь openAI апи - хардкод. Опознание картинок - хардкод. С таким софтом разве что умалишённый будет связываться, лол. Всё работает не так, как ты хочешь, а как-нибудь.
> Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: Вот такое вылезло, когда запустил koboldcpp.py (exe нету)
Вопросик такой: Вот я чисто создал для теста тему и он 250 токенов генерит достаточно долго. Это я настройки каловые поставили где-то или это нормально? Все сделал по гайду из шапки
модель koboldcpp/Fimbulvetr-11B-v2.q4_K_S
Нужно что-то выбрать где циферка перед "B" меньше?
>>758323 → >Вообще ещё есть идея натравить суммаризатор на дамп архивача, взяв оттуда все достаточно большие посты, и получить этакую базу данных со всеми копипастами и кулсторями двача с оглавлением. Таки взялся за эту идею. С лламой3 8b вроде бы неплохо выходит. Ещё заставил её теги придумывать.
>>758499 → Да нет, даже в убабуге можно сделать, переписав тот самый инструкт (чел выше все верно сделал). А уж по апи тебе ваще льется все без участия убабуги (нахой бы она лезла в промпт), а Таверна тебе все кидает в консоль. Я юзаю карточки от первого лица уже с осени, и через родной фронт убабуги, и через силлитаверну, и через апи непосредственно в самописных скриптах. Нигде не подводит.
>>758521 → Можно еще в систем или ассистент теги завернуть, поэкспериментировать.
>>758534 → Ну за кобольд не скажу, но если он так делает — то он верх шизы. Типа, по дефолту у тебя силлитаверна это оборачивает в такой промпт и потом кобольд еще раз в него же оборачивает? Вряд ли Лост настолько тупой в пизду. Если по апи ни у кого ничего не оборачивается, с чего бы у кобольда оборачивалось?
>>758565 → Ты генерируешь хуйню. =) Сетки прекрасно генерируют даже без промптов, если это нормальные сетки. А дельфин какой-нибудь усрется на любом темплейте, хули толку-то.
>>758569 → Out Of Character — не от лица персонажа.
Да, коммандер плюс порадовал. =)
>>758614 → Бля, ну если Лост правда настолько тупой — то я извиняюсь, что я его считал не дегенератом…
Уважаемые анилингусы, помогите залетному с настройками ебучей ламы.
На днях накатил кобольд и файнтюновую ламу3-8б, которую обсуждал какой то анон в предыдущем треде. Подключил к таверне, прогнал, попиздел. Всё вроде отлично, но она страшно шизит на русском. Все ее ответы это прямой и дословный перевод с английского. Даже в карточке, которая описана как обычный чат бот, она либо пишет, что не понимает русский, либо переводит слово в слово с кучей ошибок. В рп на славянском окончательно сходит с ума и уходит в лупы, повторяя одно и то же предложение из раза в раз. Я пытался переписать карточку персонажа полностью на русском, пытался переписать систем промт, но эффект нулевой. Учитывая, как восхваляли тут новую ламу и ее разноязычный датасет это все выглядит совсем странно.
Вдогонку же вопрос по параметрам и пресетам, на что они вообще влияют? Я перепробовал всё, но эффекта почти не заметил. Где вообще найти нормальный гайд по настройке? Методом тыка я выяснил, что влияет исключительно оформление карточки. Пресеты я перепробовал все, и дефолтный инструкт для третьей ламы и альпаку и прочее. Качество генерации это не изменяет и характеры персонажей вообще не держит. Вспоминаю свой опыт двухлетней давности с чайной и понимаю, что та гораздо лучше справлялась несмотря на то что явно была тупее.
>>758970 бля... моя модель не знает, что такое wanko... отфыграть нерда она не сможет а убабуга ёбаная всё еще не умеел в командер, сука. >>759055 давай начнем с того, что ты опишешь свой железячный сетап. и я могу тебя только по убабуге проконсультировать, хотя думаю, они с кобольдом сильно должны быть похожи.
>>759060 >давай начнем с того, что ты опишешь свой железячный сетап. Да там все прилично для такой модели. 12 гигабайт врам и 16 оперативной. 35 слоев я поставил на видеокарту, так что генерирует шустро (где то в два раза быстрее, чем на модели из шапки, которая на 13б)
>>759055 Тут недавно говорили, что 8б вресия третьей лламы слишком мала, чтобы понимать великий и могучий. Либо качешь 70б версию, либо ищешь нейронки, которые могут в русский официально. Но они тоже могут шизить. Как по мне хороша aya-23, но другие Аноны говорили, что она тоже может шизить. Ещё тут рекомендовали suzume-llama-3-8B-multilingual. Но у меня и ещё одного Анона, она тоже шизила и была слишком "соевой". Наверное, ты её и скачал, кстати.
>>759060 >давай начнем с того, что ты опишешь свой железячный сетап. о, кстати, хотел спросить, а как именно железо может влиять на генерацию кроме скорости, естесно. Помню генерил на проце и ллама часто жизить начинала независимо от модели, а на гпу с cublas вродё реже шизит.
>>759055 Можешь заняться промт инженигрингом и интегрировать инструкцию на дополнительный cot где модель сначала будет думать на инглише, говорят тогда ответы на русском улучшаются. Но 8б ллама3 хоть и неплоха в языке для такого размера, все еще слабовата в нем. > вопрос по параметрам и пресетам, на что они вообще влияют Ставь simple-1 и забей. Можешь покрутить температуру и штрафы за повтор, но сильно лучше не отклоняйся. Можешь еще min-p шаблон, но он довольно шизоидный, хз как с ним что-то нормальное можно катать. Если же ты про форматы промта - желателен тот с которым тренилась модель, разница может быть существенной. Возможно в этом причина твоих неудач, для 3й лламы в ласт версиях был готовый, главное чтобы опять жора не поломался. >>759060 > а убабуга ёбаная всё еще не умеел в командер, сука. Что? > могу тебя только по убабуге проконсультировать Проконсультируй
>>759065 Со скрипом можешь и командира попробовать, он в русский хоть как-то может. Мне кажется, что гонять мелкое 8В на русском это вообще уебищный вариант. Уж лучше переводить в гугле. А если уж сильно хочется, то напиши название модельки (файнтюна). Покажи настройки семплера, промпт формат, системный промпт и саму карточку. На русском шизить может на любом этапе. Даже просто потому что может.
>>759065 ты лучше покажи пример генерации который тебя не устраивает. Мы оценим норма это для твоего сетапа или нет. Но вообще да, с 12 врам я бы особо много не ждал. >>759069 >а как именно железо может влиять на генерацию в основном может хуйню выдавать если у тебя старая карта, из-за чего старая куда и/или тесла p40, из-за чего ты привязан к ллама.цпп. вот например я страдаю с коммандером, потому что криврукие обезьяны никак не впилят его по человечески в убабугу с лламой.
>>759074 >в основном может хуйню выдавать если у тебя старая карта, из-за чего старая куда и/или тесла p40, Та-а-ак... Генерю на M40 24GB. Дрова стоят с кудой 12.4. Какова вероятность пиздеца? Если я правильно нагуглил помню, то M40 - это одна из старейших. Даже старше P40. Но у меня в экспериментальной ветке кобольда командер работает лучше лламы... Может в убабуге тоже есть поддержка в каком-то экспериментальном релизе?
>>759067 >не ожидай от маленьких моделей хорошего русского Тут самый прикол в том, что модель из шапки, которая вроде как файнтюн вообще ламы второй, на русском отвечает точно так же. Разницы ровно ноль. По этому меня дурит и я не понимаю, почему тогда было столько разговоров о том, что третья лама гораздо лучше может в русский.
>если надо русский - юзай Command-R Я сильно сомневаюсь, что даже на задушенном кванте у меня запустится командор.
>>759073 >покажи настройки семплера, промпт формат, системный промпт и саму карточку Прикрепил. Я пробовал разные, но в основном сидел на этих. Разницы не заметил. Моделька Llama-3-Lumimaid-8B.
>>759071 >ставь simple-1 Либо сани мудацкие, либо я мудак, но simple-1 у меня нигде нет.
>>759081 >M40 ну и нахуя ты её купил? Все же тут рекомендуют p40. Я не знаю, тут ни у кого скорее всего кроме тебя такой карты нет. примеры генерации давай, заебал.
>>759085 >я не понимаю, почему тогда было столько разговоров о том, что третья лама гораздо лучше может в русский Ллама3 имеет мало русского в датасете, даже 70Б, а восьмёрка ещё и слишком маленькая для серьёзной мультиязычности. Нормально в русский умеют только Command-R/Command-R+, и Клод.
>>759055 Все тюны третьей лламы говно. А 90% даже чистой лламы в ггуфах - поломаны. Качай чистую, на русском пиздит сносно, хотя иногда коверкает слова, но это лучшее, что можно найти в таком размере. >вопрос по параметрам и пресетам, на что они вообще влияют Если выше температура - больше шизы, выше мин п - меньше рандома в ответах.
>>759086 >примеры генерации давай, заебал. Как бы тебе сказать... Я все примеры удалял. Да и не тестил в полноценный РП... Сейчас попробую нагенерить, что-нибуть. Есть какие-нибудь предпочтения в плане модели, карточки? И я не этот >>759055 Анон, а другой. Но suzume-llama-3-8B-multilingual у меня тоже есть на харде.
>>759091 зачем мне твои примеры, чел? Я спрашивал у человека, который жалуетс на проблему. >>759092 дежурные ночные ванги локального-кум-треда раскинули свои гадальыне карты
>>759096 >зачем мне твои примеры, чел? Я хуй знает, ну ты же попросил... Не могу же я просто проигноривать тебя? Я так и подумал, что ты просил у того Анона, поэтому и уточнил, что я другой. Ну ладненько... Всё равно спасибо, что пояснил.
>>759085 > Я сильно сомневаюсь, что даже на задушенном кванте у меня запустится командор. В четвёртом запуститься должен. > Прикрепил. Я пробовал разные, но в основном сидел на этих. Разницы не заметил. Моделька Llama-3-Lumimaid-8B Поставь чистую лламу без вот этого говна. И запусти. Если все равно будет шиза, попробуй solar uncensored.
>>759096 >Я спрашивал у человека, который жалуетс на проблему. Ответы в таком стиле. Я тестил модель на кумопригодность, но она обсиралась даже с генерацией sfw-действий. Но только на русском, что характерно. Карточка эта дефолтная, которая осталась у меня с древней таверны, когда я кумил еще через жопен турбо.
>>759104 >Так в 12 версии нет ban eos token. В душе не ебу, о чем ты, братик. У меня API стоит кобольт классик, а не текст комплетишен. Может в этом дело.
>>759103 >В четвёртом запуститься должен. Придется попробовать видимо. Не хочу ебаться с переводами. Хочу просто нормальную сессию русифицированной дрочки.
>>759085 > пик2 Вот там где universal-light оно и должно быть. С подобным семплингом как раз шиза ожидаема, а в русском может быть повышенное количество ошибок. Как бы там не верили сектанты в min-p, но это так.
>>759106 Ты про пример генерации? Я тестил только Llama-3-Lumimaid-8B и Fimbulvetr-11B. Ответы в обоих случаях примерно одинаковые. С вкраплениями каких то ебанутых конструкций (у меня была фраза "украинский skirt") и обшей шизой, когда модель не понимала что делаю я, и что вообще делала она одно сообщение назад.
>Вот там где universal-light оно и должно быть. У меня там есть только simple-proxy-for-tavern.
>>759105 > Придется попробовать видимо. Не хочу ебаться с переводами. Буквально одну кнопку нажать. Можно даже сделать автоматически перевод. То есть по факту будешь получать текст на русском. Единственный минус, это все еще гуглоперевод со всеми вытекающими. А командира будешь долго ждать со скоростью 1 токен в секунду. Ну или модельку умеющую в русик ставь.
>>759110 >Единственный минус, это все еще гуглоперевод со всеми вытекающими. Я про это и говорю. Ответы там будут такие же шизоидные, как если бы я без перевода просто на русском общался с ламой.
>>759116 >ОЧЕНЬ ТРУДНО ЗАПУСТИТЬ БЕЗ ОШИБОК. Запускается без ошибок в убабуге. То, кванты сломаны - проблема квантов. Отлично может в русский язык, по сути, лучше русскоязычных моделей и нет. Да, у лламы есть проблема с тюнами, потому что датасеты говно, а люди, которые занимаются тюнами берут дпо и прогоняют его дефолтным трейнером. Система дошла до того уровня сложности, когда орочьи технологии не работают и обмазывая модель говном - уже не получается сделать её "лучше".
Всякие хералион b модели даже не рассматриваю, заебёшься ждать вывода. А мику оказалась говном, уступающим даже 8b лламе на несколько порядков.
>>759134 > Солар и его файнтьюны ебут ламу 8В. > А Солар это мистраль. Ебет в чем? В русике? > Понятно что мистраль сравнивается с 8В, командир, мику и микстраль с 70В, а квен и с тем и с другим. За 70В не скажу, не запускал. А на уровне 8В ллама все-таки получше.
>>759147 > сожмявшись > шепотите > между них Llama-8B-instruct выдаёт тексты такого же уровня, но на английском и при этом не выдумывает несуществующих слов.
>>759085 >Я сильно сомневаюсь, что даже на задушенном кванте у меня запустится командор. Используй aya-23-8B. Она хорошо на русском говорит. Это что-то типа командора на минималках.
>>759177 Я думаю, что ощутимо лучше. Другой вопрос, что при долгом ожидании сообщения или тем более, когда ты вложил реальные бабки в Р40, хочется чего-то совсем на другом уровне. А получаем плюс минус ту же парашу с теми же проблемами.
>>759188 Кому не похуй на гопоту? Она тебя зарепортит нахуй за такую карточку. >>759189 > На английском тексты такого уровня выдает много что, тот же мистраль. Вот только мистраль отказывается отыгрывать персов, у всех персов одна и та же соевая личность. > А ты покажи на русском. Я могу перевести в яндекс переводчике нормальный английский текст. И он, без всякой иронии, выебет и гугл, и командира, и кого хочешь. Единственная проблема, что к тебе могут постучать в дверь после таких запросов.
>>759181 >А получаем плюс минус ту же парашу с теми же проблемами. Не совсем. Когда ты можешь быстро рероллить умную семидесятку (что требуется не так уж часто) - ощущения совсем другие.
>>759200 Если можешь быстро рероллить 70В, то да. Ощущения наверняка получше. Но у меня она генерит очень медленно, так как я на цпу. И получается, что незначительное улучшение качества не стоит значительного увеличения ожидания.
>>759212 Запускал. И чистый мистраль, и мейд всяких, солар. Новенький мистраль вышел, тоже запустил. Но его только запустил на пару сообщений. Долго его не тестил.
>>759178 >Используй aya-23-8B. Не вижу особого смысла в этом. Аноны выше были правы, что кастрированные модели уровня 8-13B можно хавать только на английском. Попробую скачать урезанного командора, если на 4 кванте скорость будет терпимой, то останусь на нем.
>>759216 >Имея лишь всратую нищуковую Р40 ты слишком много хочешь, походу. Модели, которые влезают в 24гб врам, на "всратой нищуковой Р40" работают быстро.
>>759221 >Не вижу особого смысла в этом. Аноны выше были правы, что кастрированные модели уровня 8-13B можно хавать только на английском. А ты попробуй. Приятно удивишься. По сути, она тоже базируется на командоре или что-то в этом роде. Да и разраб у неё тот же, а именно CohereForAI. Если я правильно понял, то aya-23 это попытка обмазать командора мультиязыковыми датасетами.
>>759181 Ну я скачал Q4_K_S, относительно быстро. Но не то, чтобы это добавляло хоть какого-то смысла. Язык такой же ломаный, а мозгов у модели не наблюдается в принципе. Слабо понимает, что от неё требуется и о чём вообще речь идёт, постоянно перескакивает с пятого на десятое. Попросил анекдот про быдло, начала рассказывать про Японию, а закончила предложением поиграть в инструктора и ученика в автошколе. Пиздец просто. Ллама даже в 8b может придерживаться темы разговора.
Разумеется есть космическая разница между работой на цпу и Р40, тот анон просто пальцы гнет что он большего ожидал. Да уже возможность не ждать по пять минут ответа любых денег стоит.
>>758950 > --gradio-auth Эта хуйня только на вход в настройки обобуги, для --public-api так себе варик, я могу навесить "пароль/ssh ключ" на подключение к самому api? Или нихуя страшного, что в бек ко мне могут стучаться всякие пидоры, но не получать ответа, т.к. не используют формат OpenAI API? >>758671 → Модель хороша - факт, но с норм карточкой. Ясен хуй, что я модель юзал и на других карточках и получалась хуйня. Хотя я сейчас и систем промт/семплеры под себя подправил, теперь чувствую "отыгрыш"!
>>759234 >Просто почитав реплаи у меня теперь еще больше скепсиса по поводу всей этой движухи с микро-моделями. Ну мне вроде зашла. Только инструкт не забудь поменять. Для sfw РП, вроде не плоха... Для nsfw вроде тоже. По крайней мере лучше, чем метавская 8b ллама 3 и suzume ллама 3
>Разве aya это не урезанный командор? Ну его можно и так назвать и по сути да. Но я думал, ты имел ввиду командора v01 на 35B
>>759060 >а убабуга ёбаная всё еще не умеел в командер, сука. Всм? Норм работает коммандер в ней, я только в уге все запускаю, про кобольд вообще забыл.
>>759241 > Это дефолтная картонка таверны, как вышло что у вас её нет? Таверна поставляется со всеми персонажами коносубы по дефолту. Ты про силлитаверну? Если да, то в первый раз такое слышу. Если несложно, то скинь картинки этих чаров на catbox какой-нибудь.
>>759247 >>759241 После какой то версии Силли вырезала дефолтные карточки из конасубы. Если щас качать нулевую версию с гита, то там будет только серафима или как ее там. В любом случае, карты эти древние и хуево написаны.
> там оказывается еще версия и на 35 есть А, ну это да. Вот она прямо достойно работает. Так бы и юзал, если бы не полтора токена в секунду.
>Ну, тогда точно покатаю. Хуже по крайней мере уже не будет. Вообще, что-то меня одолевают ощущения, что одна и таже модель от Анона, к Анону может отличаться. Хуй знает с чем это связано, но не зря же мне Анон в прошлом так яро рекомендовал suzume-llama-3-8B-multilingual. Но у меня и у ещё двух Анонов была шиза. Значит что-то не так. Может быть это с железом связано? Да и я слышал, что кто-то писал, мол aya-23 шизит. Так что, мб она у меня зорошо летает из-за того, что у меня старушка M40.
>>759254 >Мегумин ОООО! ВРЕМЯ КУМИИТЬ! СПАСИБО, АНОН!
>>759256 >одна и таже модель от Анона, к Анону может отличаться Я думаю что дело в том, что у всех разные критерии адекватности. Хотя я только вкатываюсь в локалки, мне кажется что проблема именно в том, что нет нормальной системы оценивания. Меня бесит сухой и прямой текст, где тупо описываются действия персонажей. Я невольно сравниваю это дело с тем, что выдавала труба, когда я на ней еще сидел, и это пиздец как бесит. Души в нейронке нет, хуй знает. И Lumimaid я кстати тоже по совету анона ставил, который сказал, что она отлично держит характер и не шизит. В общем, всё персонализировано, правда где то по середине, правды больше нигде нет.
>>759262 Ну может и так... Хотя всё же мне кажется, что модели действительно генерят по разному у разных Анонов. И зависит это либо от железа, либо от настроек. Хотя, думаю, что в ситуации с той же сузумой, хотя бы у одного Анона были бы нормальные настройки. Но, думаю, что всё же разность восприятия разных Анонов тоже влияет, это да. Этого отрицать тоже никак нельзя. И всё же надеюсь, тебе понравится Ая. Она вроде ничего...
>>759266 >мне кажется, что модели действительно генерят по разному у разных Анонов. Либо блять дело всё таки в ебаных карточках. Я прогонял русский через дефолтную акву, а она и сама по себе тупая, потому что написана дегенератами чуть ли не под пигмалион. На английском у нее ответы внятные, но всё равно тупорыльно дебильные, а на русском она вообще с ума сходит, потому что не понимает, что от нее требуют. Надо попробовать взять жирную карту токенов под 800 и протестировать с ней. Возможно чудо случится и теория подтвердится. А может и нет. Все таки модель обрезанная, тут никуда не деться.
>>759264 >>759222 В общем. Обе модельки не смогли справиться с Аквой. Но стоит так же признать, что здесь не полностью вина ЛЛМ, потому что в самой карточке тоже нет никакой инфы, что на попытки выебать Акву, она будет реагировать подозрительно и обзываться хиккинитом. Но вот что мне не нравится в мистрале так это то, что он пиздит про "I am always happy to help and guide". Эта ебучая личина ассистента вылазит постоянно и мешает погружению. Даже если это безобидно и не помешало куму, из персонажа дико выбивается. Я думаю, что надо либо кого попроще взять, либо допилить Бакву, а потом уже сравнивать. Сейчас персонаж не прописан даже на уровне карточки.
>>759270 Ну может и так. Однако, разве не стоит переводить карты для нормального руссского? Просто, судя по всем это тоже влияет. Я тут парочку перевёл на скорую руку с гуголь транслейтом и есть ещё карта другого Анона. Не знаю, не против ли он если я её залью... Пока не буду, мало-ли он против. https://files.catbox.moe/nces5o.png https://files.catbox.moe/ev423p.png
>>759272 Я думаю, что надо переводить примеры диалогов и первое сообщение. А инструкции оставлять на английском, чтобы лучше их понимало и меньше шизило. Но это только мое мнение, на практике не пробовал.
>>759274 Ну в одной карточке про институт 13 я перевёл описание и первое сообщение. В другой я перевёл только первое сообщение. Разницы, пока не вижу... Хотя трудно РПшить, когда ты тупо "тестируешь"
>>759271 >Сейчас персонаж не прописан даже на уровне карточки. Потому что ее прописывали еще в прошлом веке и не зря вырезали к хуям собачим из таверны. Я помню, как ебаная Аква тупила даже на трубе. А труба вообще была всеядной и выдавала приличные вещи при минимуме усилий. Тут тупо старания картодела виноваты.
>>759272 >Однако, разве не стоит переводить карты для нормального руссского? Я переводил, но так как исходный материал всё равно был жиденький, это не сильно помогло. По опыту могу сказать, что решает именно стиль написания карты и первое сообщение. Если в обоих случаях всё криво и надрищено без нормального форматирования, то позитивного эффекта не будет.
>>759279 Что за труба? > Тут тупо старания картодела виноваты. Нет, не тупо. Справедливости ради, помимо картодела обосрались и сами модельки. Ебаная ллама подхватила стилистику сообщений и проебала кавычки при реплике. Срала ебучими ахахаха и подмигиваниями без всякой меры. Ну и в целом обдристалась. Мистраль и подавно не смог выйти из роли гида-ассистента, сука. Зато без ебучих ахахаха и кавычки не проебал.
>>759278 Ну да... Но мысль о том, что что-то может работать не "так, как надо" прям пиздец отбивает желание РПшить. Хочется то-ли на другую модель переключиться, то-ли пойти сэмплеры потеребить.
>>759279 >По опыту могу сказать, что решает именно стиль написания карты и первое сообщение. Ну, судя по всему это так. Соглашусь с тобой. Но вроде как на переведённых картах, русский лучше работает. По крайней мере, та же сузума работала получше. Так что если уж и тестить русик, то на полностью переведённых картах.
>Если в обоих случаях всё криво и надрищено без нормального форматирования, то позитивного эффекта не будет. Вполне вероятно. Пока у меня нету достаточно опыта, чтобы возразить обратное.
>>759281 >в зависимости от настроения персонажа. А для определния настроения разве не нужна отдельная нейронка? Или как это работает?
>>759283 >Что за труба? GTP-3.5 Turbo, в моем случае версия 0301, на которой я дрочил с 22 года по март 24, если память мне не изменяет.
>Ебаная ллама подхватила стилистику сообщений и проебала кавычки при реплике. Ну так она и будет опираться на предыдущие сообщения в чате. Это норма для любых моделей, вроде как. Если только через промт ей не вбить как она должна форматировать текст, она может тебе в целом отвечать только аххахаа и подмигиваниями с мурмурами.
>>759286 > Что за труба? > GTP-3.5 Turbo Так она же говно. Хотя наверное получше 8В. > Ну так она и будет опираться на предыдущие сообщения в чате. Это норма для любых моделей, вроде как. Если только через промт ей не вбить как она должна форматировать текст, она может тебе в целом отвечать только аххахаа и подмигиваниями с мурмурами. Это понятно, что она будет опираться на сооьщения и обезьяничать. Но конкретно именно ллама очень часто любит залупаться. К счастью, да, часть проблем может решиться промптингом. А вот мистраля я в свое время так и не смог убедить стать жестокой яндере. Ему просто похуй на промпты.
>>759288 >Так она же говно. Вот тут нихуя не соглашусь. Труба отыгрывала самую дикую хуйню, которую я ей скармливал и делала это на уровне. Да, иногда тоже шизила и контекст у нее был мизерный, но в остальном это был ахуенный выбор. Персонажей держала, против рейпов и других извращений не сопротивлялась (в отличии от соевой четверки и клода). Единственный ее минус только в том, что это всё таки API и за него надо платить. Хоть и сравнительные копейки.
>А вот мистраля я в свое время так и не смог убедить стать жестокой яндере. А вот трубешница могла. Могла и в фемдом и в фембой и в томбой. И насилие хорошо расписывала и даже жесткое гуро (но недолго, после пары сообщений начинала выдыхаться).
>>759290 Я с трубой не общался в таверне. Поэтому промптинг там был дефолтный и по сути она вела себя довольно соево из-за этого. Так что может быть я и не прав.
>А для определния настроения разве не нужна отдельная нейронка?
Character expressions по дефолту встроен в таверну и интегрирован с live2d, придется только ручками анимации модели эмоциям сопоставить в настройках live2d.
>>759293 Ну значит модель соевая. Есть вариант конечно ручками подредактировать сообщений 5-10 и направить ее по нужному сценарию, но это конечно дикий гемор каждый раз переписывать то, что уже написала за тебя нейронка. Ощущение будто сам с собой в блокноте общаешься.
>>759301 Больше нет. Теперь их две и обе рыготные. Разраб на силе вроде в одном из патчноутов написал, что хочет убрать весь неоригинальный контент из таверны, включая конасубский, который под копирайтом находится.
>>759305 А в чем смысл иметь названия тем, связанных с персонажами, когда самих персонажей больше нет?
И если я не ошибаюсь, мегумины и даркнесы перешли в сили таверну еще с оригинальной таверны, когда разраб только начал перепаивать ее. На оригинальной таверне кстати конасбуские еще остались и висят в репозитории гитхаба.
>>759307 >Знает кто где достать другие темы? Там вообще есть пункт для кастомной CSS, но я нигде не видел чтобы его использовали. Я бы тоже поменял тему на более вменяемую, но брать неоткуда.
Таверна вообще ебаный франкенштейн. Чего только не напихали внутрь за полтора года, а нормальный интерфейс до сих пор не сделали.
Т.е. когда ты говорил "обе" ты имел ввиду что ты тестировал ламу, а вторая это солар, который я запостил? Ясно. Я не соглашусь что модели не справились с Аквой, с тем что прописано в картонке они обе справились, но лама у тебя какая-то слишком словоохотливая получилась и не выдержала стиль первого сообщения с описаниями действий, в отличие от Солара. Потому я и говорил выше что солар лучше третьей ламы.
>>759311 > Я не соглашусь что модели не справились с Аквой, с тем что прописано в картонке они обе справились, но лама у тебя какая-то слишком словоохотливая получилась и не выдержала стиль первого сообщения с описаниями действий, в отличие от Солара. Потому я и говорил выше что солар лучше третьей ламы. Словоохотливость это вопрос промпта, я ее так запромптил, чтобы она отвечала развёрнуто. Здесь важнее то, что по сути они писали. А по сути Аквы нет ни там, ни там.
Просто у тебя свое понимание Аквы и ты отчего-то считаешь что модель должна ему соответствовать автоматом. Модель отыгрывает то что в карточке написано, а не то что у тебя в голове. То что в карточке написано - она отыграла, не нравится - правь карточку. Ну и лорбук подключай.
>>759319 > Модель отыгрывает то что в карточке написано, а не то что у тебя в голове. Во-первых, не в голове, а в ранобе или аниме. > То что в карточке написано - она отыграла, не нравится - правь карточку. Ну и лорбук подключай. Во-вторых, обе модельки не справились даже с карточкой, потому что одна из них откровенно палится ассистентской личиной, а вторая срет своими ахаха. И никакие промпты эту хуйню исправить не смогут. Вот сообщения сделать короткими - это пожалуйста, а убрать вот эти въевшиеся шаблоны - хуй.
>>759321 >Во-первых, не в голове, а в ранобе или аниме. Ты уверен, что в датасете есть инфа о так называемой акве и ее роли в ранобе или аниме? Нейросетям вообще по факту насрать на источник персонажа. Они будут опираться только на текст в простыне персонажа. Ты можешь вообще переписать у себя в карточке Акву из тупой пробки без трусов в умную пробку с шикарными и роскошными трусами. Нейросети будет насрать на несоответствие, потому что ей важен только промт, т.е. инфа, которую ты ей и скормил.
>>759336 А что там делать, если я уже общался с мистралем и знаю, что это такое? >>759333 > Во-первых, не в голове, а в ранобе или аниме. > Ты уверен, что в датасете есть инфа о так называемой акве и ее роли в ранобе или аниме? В жирных моделях может и быть. В мелких, если и есть что-то, то мало инфы. > Нейросетям вообще по факту насрать на источник персонажа. Они будут опираться только на текст в простыне персонажа. Ты можешь вообще переписать у себя в карточке Акву из тупой пробки без трусов в умную пробку с шикарными и роскошными трусами. Нейросети будет насрать на несоответствие, потому что ей важен только промт, т.е. инфа, которую ты ей и скормил. Я это понимаю. Так же я понимаю, что карточка написана плохо и это является главной проблемой. Тем не менее мой посыл в том, что нейросетки плохо создают иллюзию общения с карточкой. Все равно наружу вылазит вся нейросеточная суть.
>>759366 >Но вот что мне не нравится в мистрале так это то, что он пиздит про "I am always happy to help and guide". Эта ебучая личина ассистента вылазит постоянно и мешает погружению.
Потыкал немного этот ваш Moistral. Ну, диалоги у него чуть поживее, и карточку/лорбук он, вроде как, понимает неплохо. Но всё равно как будто немного тупее третьей ламы.
>>759373 Залупается походу. И с хуя ли они решили драться? Я так понимаю в карточке ни слова о том, что они должны кончить. То есть нейронка путается. >>759359 Только с последним персом непонятное что-то. Походу нейронка путается. Здесь особо и отыгрыша нет. У них же 0 реплик. Возьми какую-нибудь цунгпт и попроси ее что-то сделать. Там хоть сразу понятно будет, что оно отыгрывает. В целом такую карточку оно походу не вывозит. В лламу тоже не верю.
Все оно вывозит, хватит аутотренингом заниматься. В итоге я убедил трех из пяти, взял их, потом с их помощью изнасиловал двух оставшихся нитакусек. Потом дверь открылась, мы перешли в другую комнату и там все началось заново.
>>758950 >Кмк, чат-модели в принципе хуже из-за этого Нет, модели без разницы, будет ли она дописывать с префила или с начала ответа, тут проёба нет. >>758950 >Ну, в самом аниме с ними нельзя пообщаться Всегда мечтал уебать тсундере? >>758972 >Если опен АИ апи А есть ли хоть один повод использовать неродное апи, когда есть родное? >>759081 >Генерю на M40 24GB >Maxwell >Double-Precision Performance - 0.2 Teraflops Земля стекловатой. >>759116 >ОЧЕНЬ ЛЕГКО ЛОМАЕТСЯ Только это верно. ХЗ почему так. Остальное не верно, ждём норм тюнов. >>759123 Командир 104 же, так что всё окей, меньше 105! >>759147 Какой же кринж. >>759213 >незначительное улучшение Лол, я от перехода от 70 к 104 чувствую значительное улучшение, а ты просто от 8 до 70 "незначительное". >>759286 >март 24 >турба Ебаааатьь. >>759310 >но я нигде не видел чтобы его использовали Потому что есть юзерстили. Хотя я туда отступ для сообщений бота добавил, чтобы показывать имя модели, не перекрывая текст.
>>759398 Мне интересно, а каким промптом нейросетке объяснять, что когда дело до кума доходит, то надо описывать подробно? > Все оно вывозит, хватит аутотренингом заниматься. Так может это ты аутотренишь? Серьёзно, ты вчитайся, что оно пишет. Просто одни и те же реплики. София практически зациклилась. Я понимаю, что моделька маленькая, и на безрыбье и рак не рак, но как такое можно в принципе называть хоть каким-то отыгрышем? Это же ведь пиздец. Хотя ладно, она по крайней мере не спутала персов между собой, уже недурно.
>>759411 > Лол, я от перехода от 70 к 104 чувствую значительное улучшение, а ты просто от 8 до 70 "незначительное". Единственная значительная разница, которую я смог заметить, это скорость генерации. А так у 70В текст немного покачественней и чуть больше деталей. Может быть на 104В уже какие-то качественные отличия есть, здесь не знаю, не запускал.
Вопрос промптоспециалистам, если таковые тут имеются. Вот есть у меня лорбук, где, к примеру, описаны всякие законы и культурные особенности местности, в которой проходит ролеплей. Можно ли как-нибудь сделать так, чтобы персонаж не тянул рандомно куски из этого лорбука, не относящиеся к ситуации? Ну, типа - "Кстати, а ты знал шо у нас в стране в жопу долбят за ношение адидаса?", при том что разговор в данный момент про то, какой сорт чая лучше.
Почему Лама 3 говно ебаное? Ответ на пике. Это говно очень быстро входит в луп и начинает повторять предыдущие сообщения. Плюс цензура вылезает сразу как начинается какая-то движуха.
>>759520 Пиздец. Какой промпт формат и системный промпт? Вообще ллама любит залупаться и я не нашёл нормального способа побороть это. Все, что делаю, это сразу же повторно генерю при малейшей попытке залупиться. Иначе потом ее хрен заставишь выйти из лупа. Чтобы пореже выкидывала сою, надо ее попросить генерить любой контент. А ещё надо хорошенько попросить нормальный кум делать, а не эту хуйню.
>>759067 >>759069 Ньюфаги не застали вторую лламу, которая на 13b вообще не могла в русский.
>>759069 Ну, соевость и русский язык — не одно и то же. =) У нас тут куча «расцензуренных» ллам-8, но на деле я пока не слышал ни об одной реальных хороших отзывов.
> а как именно железо может влиять на генерацию в общем — никак. Но на генерацию влияют даже солнечные бури, а ты про железо… =) (отсылка на мем-исследование, таки влияют=)
>>759071 > Ставь simple-1 и забей. >>759055 Могу еще порекомендовать mirostat выставить на 1 (или 2, если запустишь убабугу и экслламу), и выставить 8/0,2 или 2/0,9 типа того, может стать заметно лучше. На симпле-1, да. Но то что шизит — странно само по себе, конечно.
>>759073 Гугл не сильно лучше натива, прям вообще преимуществ нет.
>>759074 Ну так, на всякий случай, убабуга работает на питоновской версии сиплюсплюсной лламы Жоры, то есть там прям совсем колхоз-колхоз.
>>759089 Вот тут я не буду осуждать, но человек заявляет, что нормально даже чатгопота в русский не умеет. Ну да, тут не поспоришь, ллама-3 8б явно не лучше чатгопоты. Восприятие зависит от требований.
>>759090 Сузума будет получше, но соглашусь, что тюны лламы-то англоязычные, поэтому они хуже оригинала.
Кстати, есть еще Вихрь, но там инстракт, а не рп. Так что такое.
>>759116 > ПЛОХО МОЖЕТ В РУССКИЙ ЯЗЫК. Лучше любого конкурента соответствующего размера. Даже Мистраль хуже, Фи хуже, а других адекватных (хотя Фи не сильно конкурент из-за сои) конкурентов просто нет.
>>759147 1. Он тупой. 2. Он не ко всем залезет. Так-то я топил за коммандера еще на выходе, но файнтьюнов пока нет, и он большеват, ну и контекст, в общем, это модель другой категории.
>>759197 Не сильно выебет. Получше гугла, чище коммандера, но по адекватности перевода и художественности уже такое себе. Не панацея.
>>759221 Только будь готов, что коммандер ниже 6 кванта — непроходимо туп. Морально подготовься и тестируй.
>>759222 Вот это у тебя примеры в треде про модели на русском языке…
>>759229 > а мозгов у модели не наблюдается в принципе Потому что он не для рп, и не в таком кванте, совершенно верно. Sad but true.
>>759236 Я этим не страдал, прости, не подскажу. Где-то я видел мельком. А силлитаверну так нельзя вывести? Просто мысль.
Ща попробую потыкать через убабуга => силлитаверна сузуму, посмотреть настройки, версию, разобраться, че не так у людей. Неужели обнова все так поломала.
>>759528 > Гугл не сильно лучше натива, прям вообще преимуществ нет. Да, он тоже говно. > Лучше любого конкурента соответствующего размера. > Даже Мистраль хуже, Фи хуже, а других адекватных (хотя Фи не сильно конкурент из-за сои) конкурентов просто нет. Что насчёт Yi? > Не сильно выебет. Получше гугла, чище коммандера, но по адекватности перевода и художественности уже такое себе. Не панацея. Не сильно, не панацея, но я не видел более хорошей альтернативы. Гугл скатился в жопу и его переводы стали гораздо хуже. Яндекс же стал переводить так, как гугл когда-то.
Карточка старая. Чисто на русском. От первого лица.
Что мне не нравится: 1. Начало и конец от лица ассистента (так, стоп, это и есть карточка ассистента, но я хочу, чтобы она не сыпала такими дефолтными фразами). 2. Путает размеры версий GPT (впрочем, аноны тоже). 3. Язык немного косноязычный. 4. Кавычки и дефис вместо тире — ле фу!
Я не настраивал долго, поэтому результат можно улучшить, полагаю.
Мой тейк был в том, что у нее хороший русский язык.
Я не ЕРПшил с ней. Не писал джейлы (ладно, в карточке есть джейл на подавление диверсити, но тут не о нем). Не гарантирую ничего другого, однако русский язык — вполне достойный для ее размера, ИМХО.
>>759543 Контекст у тебя 2048 выставлен? Я не про общий тред, а про то, о чем мы перетираем со вчерашнего вечера. Про русский язык в локальных моделях. Если ты думал, что речь сегодня идет о моделях вообще — перечитай, мы обсуждаем именно русскоязычные. Про англоязычные диалог бы шел в другую сторону немного (более позитивную, но сое-хейтерскую=).
https://huggingface.co/cognitivecomputations/dolphin-2.9.1-mixtral-1x22b Кто-нить тыкал это? Модель не разреженная и не плотная, мое и немое, отгадай кто это - дельфин-ебанин. Из того что продолжаются эксперименты с предыдущими моделями видно что лама-3 не очень зашла. А хули - 70 не для масс, 8 - слишком мала, не хватает серединки. Кроме того лама-3 настолько натрейненена, что файнтюны не заходят, видимо любой из них уже был в датасете на 15Т
>>759556 Все, увидел, что вы про мистраль и про английские говорили. Мои извинения. Но Мистраль в принципе без сои и цензуры модель, но ее туда аноны сами напихивают, скилл ишью, как всегда.
>>759543 >И тут исторически люди знающие англюсик минимум на upper-intermediate сидят. Сижу с самого начала на А2. Хотя конечно может уже и подтянул, лол. >>759552 >Просто есть кусок, где описаны слишком общие вещи Тогда почему оно не в карточке? >>759570 >видимо любой из них уже был в датасете на 15Т Даже если так, то полировка сверху всё равно выставит нужный биас модели. Но у тренировщиков просто руки из жопы. Ждём наработки опыта.
>>759573 > Я про тебя, а не про ллмки. > Попроси ламу суммаризировать тред, чтобы быть в курсе, на что ты отвечаешь. Да у тебя у самого контекст через жопу вывернут. На тот момент мы с аноном обсуждали мелкие модельки именно в плане английского языка. И пример он привёл в тему. Вот хуле ты до него доебался?
>>759577 В контексте общего разговора выглядело охуенно, не думаешь? Все обсуждают русский и челик скидывает инглиш. Там всего один раз слово промелькнуло, да еще в контексте скилл ишью. Я ебу этих ебанариев, что у них там в мистрали не работает. Это ж пиздец.
>>759579 > В контексте общего разговора выглядело охуенно, не думаешь? Я думаю, что ты в глаза долбишься. Там прямым текстом была просьба показать аутпут. Вот что анон должен был сделать, по-твоему? Послать меня нахуй или начать срать смайликами как ты? Абсолютно ебанутая логика.
>>759589 >Потому что оно не относится напрямую к персонажу? Ну так отдели какой-нибудь пометкой. >Да и потом, так он ещё чаще будет это упоминать, нет? Зависит от того, где у тебя инжектится лорбук. Обычно он идёт ближе к ответу, поэтому учитывается сильнее.
>>759631 > Так это ты в глаза долбишься. Перечитай, что я написал. =) Хуйню полную ты написал, в надежде, что не придётся признавать свой жиденький обсер. Сразу начались манявры, что там "одно слово", "скилл ишью", не считается. По факту, был конкретный запрос и конкретный ответ. И раз уж ты сам нихуя не способен осваивать контекст и читаешь посты жопой, то с твоей стороны очень странно было бы упрекать в этом анона, который посты читает нормально.
>>759644 > Хуйню полную ты написал, в надежде, что не придётся признавать свой жиденький обсер. Ты не только в глаза долбишься, но еще и сам хуйню пишешь. =) >>759574 > Все, увидел, что вы про мистраль и про английские говорили. > Мои извинения.
Тут и 2048 контекста нет, я смотрю.
> И раз уж ты сам нихуя не способен осваивать контекст и читаешь посты жопой, то с твоей стороны очень странно было бы упрекать в этом анона, который посты читает нормально. И раз уж ты сам нихуя не способен осваивать контекст и читаешь посты жопой, то с твоей стороны очень странно упрекать в этом анона, который посты хотя бы читает.
———
Блин, загрузил 70b, и она один раз слово выдумала с английским, другой раз с китайским. Гребанный ггуф поломанный в гребанной ллама_сипипи_пайтон. Почему 8б отвечает чище 70б. Где мои две 3090.
>>759333 >Ты уверен, что в датасете есть инфа о так называемой акве и ее роли в ранобе или аниме? Помнится крутил эту карточку Аквы ещё на Пигмалионе 6В, так он на низкой температуре даже названия глав ранобэ выдавал. Как в новых моделях ХЗ, но по идее всё должно быть, Коносуба это база!
>>759686 Пигмаллион — это не «старая модель ллама», это отдельная модель, которая обучалась на ролеплее для тебя. А ллама не обязана знать о Коносубе, она не для этого делалась. Так что… Ну сорян-сорян. С чего бы ей знать такие вещи вообще.
Miqu — лучший результат на русском, и даже мнение свое высказала. Starling-LM-7B-beta — говорит на русском неплохо, но проскакивают иероглифы, и вообще. Твердая 4 для своего размера. Starling-LM-10.7B-beta — шизует, мне лень это бороть. Вроде старается по теме, и очень креативна, но нет. Ну и русский так себе. Phi-3-medium-6.0bpw — одно слово перепутала, что-то там придумала, но когда я попросил быть немного неформальной, я не имел в виду смайлики в конце! Ну и 14B модель так себе 7-8, конечно. Нельзя сравнивать. Русский на 4+, думаю. Пикрил. Mistral-7b-v0.3 — вот тут уже сложно… С одной стороны, у нее очень хороший стиль. С другой, она так же придумывает слова и ошибается местами. Мистрали не хватает русского в датасете (но ее превосходит сузума, которая изначально multilingual). Так что 4+. Yi-1.5-9B-Chat — я вспомнил о ней! Нет, она не умеет в русский, простите. пикрил2
Это касается именно языка, а не стиля или соевости, окда.
В общем, ИМХО, ничего лучше сузуме в размере 8b нет.
Прошу прощения за долгий ответ, был очень уставшим. Постарался ответить всем, никого не забыть, если кого забыл, пишите.
>>757851 → Да, это увидел. Хорошо тогда. За вброс не переживай, анонче, всё хорошо.
>>757853 → >В тред ее скидывай если будет. Прикладываю. Это ещё с субботы ошибка была, когда я через oobagoba пытался запустить .gguf-модель. Сейчас скачиваю .exl2, буду её ковырять, но всё равно, хочется понять, что я делал не так. >Это офк если карточки в одной системе а не нескольких В одной, с этим всё хорошо.
>>757857 → Понял, анонче, спасибо большое! Качаю exl2-модель, которую ты посоветовал. Буду пытаться разобраться. >cohere и их command r+, хотя он под раг, но в твоем случае похую. О, спасибо. Я как раз хотел в будущем RAGи использовать, потому что хочу сделать долгосрочную память, и через них выглядит удобно.
>>757858 →>>757863 → Спасибо, анончики, попробую ещё и микстраль, отпишусь о впечатлениях, как всё подниму, непременно.
>>757848 → >Все для мультигпу, ты просто воробушек. Плюсую вопрос, как они к тебе попали — ботаника в подворотне ограбил? Понял, спасибо. На работе есть доступ к кластеру, спросил, можно ли поиграться с нейронками в свободное время - дали добро.
>>759805 Да просто тестики. Нам лень на етом вашем инглише. Ллама и мистраль уже норм, на самом деле. Жаль, что там сою насыпают, а РП-файнтьюнов на русском нет.
>>759239 >Какая у тебя модель, кстати? Командор плюсовый, остальной шлак после него вообще не признаю, ламма 3 70b/Мику, просто нахуй проходят (для rp/erp of course, в логических задачках они тащат). Кстати ломал кто-нибудь сою в ебучем Qwen? Это просто образцовый пример сои! Такой пиздец я только у ГОПОТы видел. Какой там префил, систем промт нужны, чтобы заставить ее творить дичь(как командор) >>759177 >Скачал командира 35b, ну такое себе. Какой квант? У меня только на 8ом он нормально заговорил(на 4ом рили не очень), и он реально затыкает все дыры, вплоть до 70B!
>>759631 >Сильнее учитывается начало промпта или конец? ХЗ, зависит от сетки. Обычно конец. >>759692 >А ллама не обязана знать о Коносубе, она не для этого делалась. Но всё таки знает. По крайней мере в пределах вики. >>759831 Раг подтягивает не по ключевым словам, а по сродству векторов. На этом отличия от лорбука заканчиваются, лол. >>759840 >Это просто образцовый пример сои! Фи ещё более соевая.
>>759840 >У меня только на 8ом он нормально заговорил Да вы заебали уже. Один тред убеждают, что Q2 это заебись и вообще пиздатая хуйня, почти как полные веса. Потом начинается новый тред и всё, что до Q8 - говно ёбаное.
А вообще, у коммандора своя специфика, он реально до Q6 точно — тупой. Вот я прям крайне удивился этому, когда тестил, но человек правду говорит. Ну и те же 7B-8B ниже q8 тоже бессмысленно использовать.
>>759844 Так это разные додики утверждают Я тебе вообще могу сказать что любой квант хуйня, нужно оригинальные веса катать И не совру, хули Квант это не оригинальная модель, это китайская копия разной степени хуевости Где то это кому то субьективно кажется работоспособным на 2 кванте что, по моему хуета Кто то заявляет о более реалистичной работе на 4 кванте Проверено, и мной самим, что те же мелкие модели страдают от квантов больше, поэтому их желательно или оригиналом катать или хотя бы 8-6 бит на вес При квантизации модели теряют способность воспринимать контекст и работать с ним, ну и "мозги" Качество генерации текста вообще, падает последней
>>759855 >При квантизации модели теряют способность воспринимать контекст и работать с ним Катал Лламу 8В на 8 кванте и на трансформерах, разницы в ответах не заметил.
>>759850 >А вообще, у коммандора своя специфика, он реально до Q6 точно — тупой.
Хуйню несешь, в четвертом кванте он ебет все что движется, даже 70В мику и лламу, не уходит в залупы, не шизит, стоически терпит без падения качества урезание контекста контекст шифтом и замену на суммарайз. На русском шпарит так что все остальные модели сосут, в прямом смысле, потому что командир еще и не заражен соей, как эти ваши сузуны. И самое главное - на моей 4090 с 24 гб видеопамяти с 8к контекстом он ебашит от 4.5 до 6 токенов в секунду. Это идеальная модель.
>>759967 >Ну я ебал полные века качать. А 34b в Q4_K_S хуже лламы 8b. Такие дела.
Какую только шизохуйню в треде не встретишь, уже много раз запруфано что лама3 входит в луп на контексте больше 2-3к и никакого лекарства не существует, тем не менее эти шизы продолжают форсить эту срань и гнать на нормальные модели. Разница в качестве между Q4_K_M и Q4_K_S незаметна глазу на больших моделях, что ты несешь-то вообще.
бля какие же скудные датасеты на кум, ну родина вам третью ламу дала, нет блять хотим говнотексты ей скормить чтобы она порождала "Еби меня василий. и Василий ибал иё, ана станала как шлюха". Тьфу блять!
А как надо?
А надо блять чтобы ИИ сам взял прекрасный слог и излагал графичность сцен и хорнивость героев. И нет, промптом то не фиксится, и нет, не существует такого датасета поэтому задача тут не в датасете, а в поколении ИИ которое будет по аналогии делать.
К примеру. Возьмем stable diffusion. Допустим какой нибудь Малевич не рисовал голых футанари. Но есть датасет с футанари. И ии способно обработать промпт "нариусуй футанари в стиле малевича". А текстовые не могут.
>>759987 >К примеру. Возьмем stable diffusion. Допустим какой нибудь Малевич не рисовал голых футанари. Но есть датасет с футанари. И ии способно обработать промпт "нариусуй футанари в стиле малевича". А текстовые не могут.
Могут. Напиши в картонке в чьем стиле писать, 70В+ модели поймут.
Блядь, как же толсто, лупит модель, а виноват я что "не старался". Не старался что - рероллить по 10 раз каждый её пост? Зачем если командира рероллить не надо вообще? Скачай уже небитый квант командира и сам зацени(да, кванты командира тоже были сломаны и их пофиксили уже после ламы3)
>и то, и другое - лоботомит ебаный.
Вытекаешь из треда уже, хватит новичков путать своим жиром.
>>760075 >кванты командира тоже были сломаны Ну кстати командир+ даже сломанный был шикарен, проебал он там с процент мозгов (сейчас вообще огонь). А вот лламу 3 прям корёжит от замены токена \n\n на два токена по \n.
>>759411 >Земля стекловатой. Ну это всё ещё лучше, чем на проце или на моей рыксе 570 потому что амуде пидарасы и прекратили поддержку Polaris в ROCM, так что хуй вам, а не ИИ..
Там вплоть до самой ужатой четырехбитки iQ4_NL и iQ4_XS падение качества в пределах арифметической погрешности. У больших моделей даже самыми большими 3 бит можно пользоваться если совсем припрет.
>>759844 смотри, эти разговоры ведут владельцы 2-3-4 тесл, для чела у которого нету столько врам актуален вопрос на каком минимальном кванте приемлемо потянет скажем командир. Или вопрос что лучше лама-3-8 в 8 кванте или допустим командир в 3 кванте. А вот эти вот изречения типо: командир идиот ниже 6 или 4 кванта это ни о чем, так как идиот относительно чего? Относительно себя же в 8 кванте или относительно ламы-3-8 в 8 кванте? Как видишь две большие разницы. Другой вопрос почему владельцы 2-3 4090 гораздо меньше разговаривают о том, что все модели ниже 70б гавно, чем владельцы тесл? Потому что владельцы тесл сами себе хотят доказать, что не зря купили старые картонки, а 4090-никам ни в чем убеждать себя не надо и так все заебись.
>>760081 >корёжит от замены токена \n\n на два токена по \n.
Её от всего корежит - от настроек, от порядка сэмплеров, от пробелов в инстракшене, от стоп токенов. Overtrained говнина потому что. А дурачки её еще на открытых датасетах обучают, которые 100% что уже есть в модели(они буквально все что можно и нельзя туда засунули), разумеется это вызывает расфокусировку модели со всех остальных токенов.
>>760094 Это просто тест на знания, оно даже мозги не оценивает, ни работу с информацией, ни удержание контекста или вообще многооборотистый чат Знания так же как и генерация простых ответов страдают последними, это ведь одно и то же по сути. Зерошот ответы на вопросики на которые сетку специально надрачивали
>>760110 >Кванты натаскивают на тесты? При чем тут кванты и их обучение? Речь о том что сетка при квантизации теряет в первую очередь не знания или способность продолжать текст В первую очередь разница в том заметит ли она что то в длинном чате, сможет ли связать 2 мысли в одну и тд Тоесть более абстрактные вещи, "мозги"
Вот только все тесты у нас либо зирошот вопросики, которые это не оценивают, либо вообще перплексити, для самых отбитых.
Потому что падение перплексити это вообще нижняя планка, оно просто оценивает на сколько точно зирошот вопросики отвечаются на разных квантах от оригинала. Тоесть оценивается отклонение в самой примитивной работе сетки - генерации текста, которая страдает как ясно самой последней.
Так сетку, а не квант. Квант какое отношение к этому имеет? То что метку надрачивали на знания делает сомнительным сравнение с другими сетками, а не с квантами одной и той же сети.
>>760103 >Относительно себя же в 8 кванте или относительно ламы-3-8 в 8 кванте? Ну смотри, я хуй знает, что там с командиром в 8 кванте, но в четвёртом относительно неквантованной 8b лламы он хуйня полная. Единственный плюс, что на одинаковых настройках у командира посты длиннее, но из-за длинны поста он теряет суть беседы буквально три раза за сообщение. Странно вообще, что такую хуйню кто-то серьёзно нахваливает, это троллинг какой-то. >4090-никам А у них руки заняты. А теславоды запускают хералион b с подкачкой на кофемолку и дрочат форум, пока там генерируется бредотина со скоростью 0.1т\с
>>760130 >я хуй знает, что там с командиром в 8 кванте, но в четвёртом относительно неквантованной 8b лламы он хуйня полная.
Ты 100% запускал сломанный ггуф с выкрученными в говнину настройками и инструкцией от чего угодно, но не командира и даже не альпаки/мистраля на которых он тоже хорошо работает. Иначе я не понимаю как ты это получил.
>>760130 > но в четвёртом относительно неквантованной 8b лламы он хуйня полная. Ну либо ллама неквантованная так сильно отличается от 8 кванта, либо ты пиздишь Я тыкал только 4 квант командера 35, и с нормальным промпт форматом он заебись отвечает Более связно, умно. Рассуждает гораздо лучше лламы На знания не проверял просто ебал мозги задавал вопросики на карточке с тсинкингом. Гораздо лучше ей пользуется. Лламе не хватает внимания, понимает меньше, не делает очевидных выводов
>>759528 >А че по скорости? 8B модель - пик 1 aya-23-8B-Q8_0 13B модель - пик 2 +/- 1.5 Т/c ruGPT-3.5-13B-erotic-kink-chat-Q5_K_M 35B модель - пик 3 +/- 0.4 Т/с c4ai-command-r-v01-Q4_K_S - и он полностью не влез. Потому загрузил всего 38 слоёв в гпу, может поэтому так медленно. другая 35B модель - пик 4 yi-34b-chat.Q4_K_M - эта влезает полностью, поэтому решил её тоже протестировать.
Тестировал на koboldcpp + ST. Вроде как, на голой лламе.цпп без карточек, без фронтенда и прочей хуйни, должно быть быстрее. Но, думаю, никому здесь не интересно такое использование. Да, данные грубые и их мало. И всё такое, но думаю, что в принципе они соответствуют видево карточке. Думаю, что прмерно такие результаты будут и на других моделях со схожими размерами.
>>760163 Ну, тестовые модельки. Надо же было на чём-то затестировать 13B, правильно? А другого 13B говна, пока что на харде нету. Сейчас же тестирование было не на кач-во, а на скорость, так что, думаю, вывод не сильно важен. И тестирование было не модельки, а железа. Но если, они сильно отличаются по скорости, то могу скачать и протестировать её тоже.
>>760130 >в четвёртом относительно неквантованной 8b лламы он хуйня полная Было бы отлично если бы лама 8б была такой заебатой. Но увы, по-моему рулит не жирнота кванта а кол-во параметров все-таки. Так вот в чем и дело - командир в 4 кванте у меня дает макс 2 тс - это блять не скорость, а гавно. Поскольку это вымораживает я вот думаю попробовать 3 квант или ну нахуй лучше чего-то поменьше, типа дарк форест, который неплох или мойстрал и прочие соляры или ламу 8б, ну чтобы было хотя бы приемлемо, пусть не охуенно как там на командире или еще чего побольше, потому что скорость мне очень важно, более чем качество. Один хер такого же качества как у клода или гопоты все равно не будет, когда надо чего-то по делу я пользуюсь ими, а так поиграться в приключения можно и с такой моделью но чтобы скорость была.
>>759678 > Ты не только в глаза долбишься, но еще и сам хуйню пишешь. =) Твоя неспособность отвечать по существу доказывает, что неправ здесь ты. > И раз уж ты сам нихуя не способен осваивать контекст и читаешь посты жопой, то с твоей стороны очень странно упрекать в этом анона, который посты хотя бы читает. Так я того анона как раз и не упрекал. Я упрекаю тебя. > Блин, загрузил 70b, и она один раз слово выдумала с английским, другой раз с китайским. > Гребанный ггуф поломанный в гребанной ллама_сипипи_пайтон. > Почему 8б отвечает чище 70б. > Где мои две 3090. Скилл ишью.
>>759528 >Ты на чуб зайти был не в состоянии, выбрать себе Мегумин?.. Ну это была шутка, чтобы разбавить обстановку, тащем-та. Я же там продолжил отвечать Анону. Как ты себе это представляешь? Я дрочу на мегумин и параллельно на сосаке переписываюсь?
>>760195 Так я понял. Я же поясняю, что это было именно, чтобы обстановку разбавить. А то вы все какие-то тут серьёзные. Забавен только тот Анон, что скрины с Педо-Рассказчиком кидает. Вот у него скрины забавные.
>>760130 > А теславоды запускают хералион b с подкачкой на кофемолку и дрочат форум, пока там генерируется бредотина со скоростью 0.1т\с Этот прав, кстати.
>>760179 >рулит не жирнота кванта а кол-во параметров Да там совокупность на самом деле. Одно без другого не работает. У меня вот скорость Q4 командира >>759229 но гоняю всё равно не его. >дарк форест В целом, неплох, но пиздец как путается в ерп, там и снимание трусов по три раза подряд и многое другое. И не слишком хорошо слушается карточку. Гопота хуй знает, пробовал новую 4о и 3.5 турбу, халявные версии, само собой. Впечатления строго негативные. Может, они и лучше даркфореста в понимании ситуации, в рп не пробовал. Но в целом впечатления негативные крайне. Ах да, если у тебя рп без е, то даркфорест чувствует себя намного лучше.
>>760208 >не любят аноны скринами делиться, почему-то Лично мне стыдно нормальным РП делиться... А хули смысла Анонам показывать какое-нибудь тестовое говно, типа: "Hello, how are you?"?
Ты там всерьез отыгрываешь что-ли? Ну тогда да, чего таким делиться. Надо просто дичь творить и заставлять сетку охуевать с твоих запросов - и сам развлечешься и сетку проверишь и анонам показать можно
>>760232 Ну я либо тестирую, либо серьёзно отыгырваю. Хотя помню, пытался по приколу поиздеваться над нейронкой, а именно совершить износ над девочкой-роботом, при этом всём воспевая "И вновь продолжается бой!". Результатом стало то, что модель начала жрать постоянно все 250 Ватт и генерировать 256 EOS токенов. Но я тебя понял. В следующий раз так и сделаю.
>>760110 >Кванты натаскивают на тесты? Ну в общем-то калибровка на викитекст уже не новость. А вообще, я про то, что на тесты модели гоняют дольше, чем на рандомные данные. Поэтому при квантовании данные тестов могут страдать меньше, чем любые другие. >И что именно пруф в твоем манямирке? Квадратные уравнения, лол. А так ХЗ, я ещё не настолько хорош в МЛ, чтобы выдумать правильный тест. Пока я вслепую ебашу какой-то код с GPT4, вроде работает, но нафига вот тут каждый шаг вызывать zero_grad(), я вот ХЗ. Через пару лет освою и скажу точнее про тесты. >>760118 >Потому что падение перплексити это вообще нижняя планка, оно просто оценивает на сколько точно зирошот вопросики отвечаются Перплекси это даже не вопросы, это дополнение текста википедии. Ещё проще по уровню на самом деле. >>760130 >Странно вообще, что такую хуйню кто-то серьёзно нахваливает, это троллинг какой-то. Я вот только плюсового надрачиваю, без плюса максимум 1,5 раза запустил. >>760140 >Лламе не хватает внимания Ну так 8к контекста против 128, хули тут хотеть (офк у командира наверняка растягивание + небольшой тюн, но всё же). >>760153 >Вроде как, на голой лламе.цпп без карточек, без фронтенда и прочей хуйни, должно быть быстрее. С чего бы? >>760187 Тормоз тормоза же. >>760232 >Ты там всерьез отыгрываешь что-ли? Я всегда себя отыгрываю, так что лично я ни одного скрина РП не принесу. А от тестов моих уже всех воротит (впрочем я не перестану).
>>760252 >С чего бы? Предположу, что это из-за того, что модель меньше информации на вход принимает. Типа нету особо контекста, описания карточки и т.п. Хотя, может я не прав. Но, когда я гонял голую лламу, то даже на проце 7B модели имели в районе 6 Т/c. После связкт голой лламы.цпп с фронтендом, скорость была настолько низкой, что даже спустя 30 минут нихуя не вышло.
Написано, что официально может понимать русский язык: Я сильно большой разницы между 35B версией командера и aya не заметил. Хотя вот 8B версия очень хорошо, как по мне понимает русский. Но я могу быть не прав из-за малого опыта.
>>760272 Ну разве что это последние 2 слоя. >>760274 >Типа нету особо контекста, описания карточки и т.п. Тогда смысл этого? Модели без контекста никому не нужны, тут бы наоборот, как бы 16-32к токенов впихать (больше уже жирнота, но вот 32к на локальном ой как хочется). >скорость была настолько низкой, что даже спустя 30 минут нихуя не вышло В оперативку выгрузилось небось, снизь число слоёв на видяхе.
>>760283 >Тогда смысл этого? Модели без контекста никому не нужны, тут бы наоборот, как бы 16-32к токенов впихать (больше уже жирнота, но вот 32к на локальном ой как хочется). Так я и написал, что смысла предоставлять информацию о скорости на голой лламе - нет. Потому и не стал добавлять, просто упомянул.
>В оперативку выгрузилось небось, снизь число слоёв на видяхе. Нет, ты не понял. Я тогда ВООБЩЕ не грузил видюху. Чисто на ЦП. Экспериментировал, так сказать...
>>759818 Работа просто замечательная, да. Не совсем понял вопрос, но таки поднял убабугу, зашёл со своей машины. Долго не мог загрузить модель, в итоге оказалось, что по инструкции с гайда ставится торч2.30, а нужен торч2.20. Успел запустить 70В ламу, и заметил неприятный эффект: если использовать стандартное описание, он более-менее правильно отвечает на вопросы по математике, хотя бред полный несёт, а если дать кастомное описание с характером, то перестаёт вообще понимать о чём я его спрашиваю. Ну в целом это логично, что персонаж аниме не должен знать о гомотопических группах, но всё равно. На днях буду тестить другие модели, принимаю реквесты, что спросить-как настроить.
Текстовые модели же могут в мультигпу, насколько я понимаю? Имеет ли смысл взять мамку для майнинга и набить в неё что-нибудь дешёвое типа 3060? Эдакий А100 для бедных. Или фигня получится?
>>760297 Выбирай для сеток их промпт формат, без него они тупят и едва показывают на что способны Это первые сетки и всякие миксы всеядные, им хоть без промпт формата запускай, а вот новая ллама 3 хочет свой формат Вот эта хуета на пик
>>759987 > бля какие же скудные датасеты на кум, ну родина вам третью ламу дала, нет блять хотим говнотексты ей скормить чтобы она порождала "Еби меня василий. и Василий ибал иё, ана станала как шлюха". Тьфу блять!
> А как надо?
> А надо блять чтобы ИИ сам взял прекрасный слог и излагал графичность сцен и хорнивость героев. И нет, промптом то не фиксится Вот за что мне ллама нравится, так это за то, что промптом это фиксится. Я думаю, что она все ещё проигрывает moistral, но вполне себе старается. Тебе вообще какой уровень результата нужен?
>>760419 > Ну сты-ы-ыдно... Я жи омега трясун. У меня ноги начинают дрожать, когда мне на встречу даже дефки идут... Здесь в треде 95% абсолютно такие же. Иначе нахуя они по-твоему дрочат тупые нейронки, пока альфачи ебут настоящих тянок?
>>760424 Всё равно пиздецки стыдно. Я могу только не на серьёзном ебале что-то кидать. Потом так делать и буду... И всё равно стыдно... Я только-только переборол стыд написания нейронке всяких пошлостей... А ты ещё предлагаешь это на Двач заливать!
>>760431 Мне говорить легко, потому что мне стыдно за свое существование в принципе. И на фоне этого стыда, мне даже голым на улице пройтись не так позорно будет. Ты можешь отыгрывать не себя, а другого персонажа, например, девочку. И делать лесбийское. Попробуй, может так тебе даже больше понравится.
>>760435 >И на фоне этого стыда, мне даже голым на улице пройтись не так позорно будет. Я бы хотел, чтобы тоже так мог бы про себя сказать... Но не могу... Всё равно стыдно...
>Ты можешь отыгрывать не себя, а другого персонажа, например, девочку. И делать лесбийское. Попробуй, может так тебе даже больше понравится. Стыдит просто тот факт, что я на серьёзном ебале всякие пошлости пишу, а потом другим показываю. Так что даже если я буду отыгрывать не себя, но полностью серьёзно, то мне всё равно будет очень-очень стыдно! Думаю, что мне легче, но всё ещё стыдно, будет заливать какую-нибудь шизофазию, как тот сценарий с коммунистическим изнасилованием девочки-робота, где я отыгрывал психа-лениниста. Никакой политики, просто почему-то тогда мне пришла в голову именно эта идея.
>>760512 Понял вас, Товарищ Майор! Ничего противозаконного заливать не будем! Только зефирки, леденцы и милые одетыесовершенно точно совершеннолетние девочки.
>>760299 >И вообще - с хуя он должне быть медленнее, если он меньше? Реализация такая. Там другая математика, так что замедление прямо в репе герыча прописано. По моим прикидкам, замедление там раза в 2-4 при выигрыше в размере в 20%. >>760398 Пикрил 2, в вики опять ещё подробнее расписывать.
>>760777 Так, установи именно concedo_experimental. Она наверное уже поддерживает эту модель... Ну и работает достаточно стабильно, по крайней мере я на ней и сижу.
>>760780 Да ничего сложного нет. Зато уже получишь рабочую кобольду в таком случае.
>>760782 >Да ничего сложного нет. Зато уже получишь рабочую кобольду в таком случае.
Да там релиз скачать и кинуть заменив старые файлы, Редактируешь готовый батник запуска сервера и запускаешь. Можно и в консоли. Чем ебаться со сборкой кобальда, нахуя? Сервер лламаспп запускается изи, к таверне подключается Еще бы выбор модели и настроек удобнее сделать Но это уже новый кобальд выйдет, лул
>>760792 >Да там релиз скачать и кинуть заменив старые файлы, Редактируешь готовый батник запуска сервера и запускаешь. Можно и в консоли. Так релизы с кудой только под винду. На гну/пинусе один хуй лламуцпп придётся пересобирать. А тут человек и так кобольдом пользуется. Прывык уже, наверное.
>>760792 >пытающихся в обучение А там ничего нового, оффлоад третьего дипспида давно известен. Да и что лламафектори лучше аксолотля тоже все знают давно.
>>760792 >для нейроанонов пытающихся в обучение ДОобуччение. Для обучающих с нуля это вряд ли поможет. Шунт на 4090, чтобы та жрала 500 ватт, ебануться можно. >>760802 >оффлоад третьего дипспида давно известен Я вот не знаю про него.
>>760810 >Я вот не знаю про него. Да обсуждали миллион тредов назад же. Оптимизатор и всю требуху можно выгружать в оперативу. Плюс, дипспид умеет нормально раскидывать нагрузку на несколько карт, чего те же трансформаторы не умеют в принципе. Единственный минус, что всё это добро не работает под виндой.
>>760822 TDP это и есть, сколько карта есть. По сути, это тепловыделение, только вот кпд электроники настолько низкий на самом деле, что 99% энергии переводится в тепло. Так что энергопотребление равно тепловыделению.
>>760833 >Единственный минус, что всё это добро не работает под виндой. А, ну тогда мимо. виндоблядствую 15 лет >>760839 >Occasionally spits out leaking XML and nonsense. Лол, нейросети, которые мы заслужили. >>760847 >тут нужен на 2 киловатта Эм, 500 + 200 = 700, то есть моего 750 ваттника вполне себе хватит.
>>760847 Ну хуй знает. Так ты можешь серверный купить. Или бич-вариант, докинуть второй БП в систему. При соблюдении минимальной техники безопасности не полыхнёт.
>>760857 >А, ну тогда мимо. виндоблядствую 15 лет В винде есть WSL, можно запустить линукс как приложение винды. Единственный минус, что картонки должны быть в WDDM режиме. С теслами есть проблема включить этот режим, если у тебя две разные видеокарты стоят. Если второй видеокарты нет или стоит заглушка слота от AMD, то всё работает без лишней ебли.
>>760857 >А, ну тогда мимо. Погоди, сразу мимо зачем, ламафактори нормально под виндой. Пусть там может и не все работает, зато без пердолинга, одно это того стоит.
Товарищи, Аноны, чяднт? Пытаюсь загрузить уже вторую модель коммандера 35B на I квантах c4ai-command-r-v01.IQ4_XS. koboldcpp отказывается загружать. Пересобирал голую лламу.цпп, она тоже отказывается загружать с такой жи ошибкой. Я тот балбес, что генерит на старушке M40 24GB. Может она настолько старая, что не поддерживает I кванты? Они же типа, на "другой математике", как писал Анон из этого поста >>760522. Причём коммандер на K квантах грузится нормально кроме того, что полностю не влазит..
Тут отписывались Аноны, у которых были проблемы с загрузкой коммандера на P40, у вас такая же ошибка вылезает?
>>760918 Заглянул сейчас в файл ggml-cuda/dmmv.cu и походу ллама просто не может понять, что это за тип квантования. Другой вопрос, как дать ей понять?
>>760918 >>760922 Ладно, похуй отбой. Походу была слишком старая версия лламы.цпп. Обновил, стала определять кванты. Ну да, последний раз лламу.цпп, я обновлял ~месяц назад. А вот кобольду дня 3 назад.. В экспериментальную ветку.
>>759935 На русском шпарит, все остальное — аутотренинг. 35B прям вообще воробушек. Выше писали, что 105б в 4 кванте норм, но я пробовал 4, 5 и 6 — он в 6 норм, в 5 терпимо, в 4 я бы не сказал.
Или у тебя карта с отыгрышем специфичные, или тебе так лишь кажется.
>>760174 > как ассистент хороша … убила меня о_о спасиба ни нада
>>760186 Ты правда глупый. Уже без рофлов. Давай я поясню для глупеньких, как ты. 1. Я сразу признал свою неправоту и извинился. 2. Ирония была про тебя и меня. Ладно, закончим, а то ощущение, что с какой-то 3б моделькой без контекста говорю.
Модель весит 60 гб. я поставил --n-gpu-layers 40 для llama.cpp Можете мне пояснить, почему в двух гпу в сумме 40 гб, а в оперативке - ничего нет? Я думал, что в оперативку заедет еще 20 гб. Не похоже, что модель прогрузила только 40 слоев из 64, потому что она дала вполне внятный ответ на реквест
>>760949 >Можете мне пояснить, почему в двух гпу в сумме 40 гб, а в оперативке - ничего нет Не можем. Так не бывает. Видимо использование РАМ мониторит криво. Шум конечно сильный. Если свист будет напрягать, могу посоветовать поменять охлаждение на большие улитки с переходниками, есть готовые от 2,5к. Но в этот корпус не влезут, придётся менять и его. Зато заметно тише и охлаждают лучше.
>>760947 > Ты правда глупый. Уже без рофлов. Давай я поясню для глупеньких, как ты. 1. Я сразу признал свою неправоту и извинился. >>759631 >=D Сук. А, это ты так извинился. Понятно. Охуенно извиняешься. Продолжай в том же духе и тогда тебя даже на дваче игнорить начнут. Будешь с коммандиром создавать треды и общаться один на один, лол.
>>760947 Алсо >2. Ирония была про тебя и меня. Походу ты реально только с нейронками общаешься, раз на полном серьезе думаешь, что я не понял контекст. Видимо, слишком много общаться с ИИ это тоже вредно.
>>760937 Так нихуя не отбой. На новой лламе тоже нихуя не работает несмотря на то, что она определяет тип квантования, она всё равно нихуя не загружает. Здесь: https://github.com/ggerganov/llama.cpp/issues/6282 - У человека тоже нихуя не получается загрузить IQ4_XS и он спихивает всё на P100, однако у владельца P40 удаётся её загрузить. Походу придётся, до Q3 опускаться..
>>760954 >любой мог создавать себе ггуфы последней версии желаемой битности для любой модели. А оно из чего делает желаемый квант? В большинстве репозиториев теперь не больше Q8 лежат. Как я понимаю, для хорошего результата FP16 бы надо. Правда я плохо понимаю.
>>760960 >Как я понимаю, для хорошего результата FP16 бы надо. Ллама-3 лежит в bf16, которую нужно перегнать в fp32 перед квантованием. Никакая веб-залупа этого делать не будет, а значит, квант будет сломан.
>>760961 >Из того что ты попросишь - из того и сделает Там же по сути одно поле ввода - Hub Model ID. Допустим я пишу туда: mradermacher/llama-3-70B-instruct-uncensored-GGUF И дальше могу только выбрать желаемый тип квантования. Вроде всё, что там есть. Из чего оно будет квантовать?
>>760522 >Реализация такая. Там другая математика, так что замедление прямо в репе герыча прописано. По моим прикидкам, замедление там раза в 2-4 при выигрыше в размере в 20%.
Там замедление на слабых цпу, везде это написано, на нормальных цпу падение незначительное и выигрыш от ускорения в кубласе перекрывает.
Объясняю кейс. Есть 24 гб видеопамяти на 4090. Командир 4_К_S влезает полностью на гпу почти без контекста. Но модель без контекста это чемодан без ручки, нужен контекст хотя бы 8к. Самая большая трабла командира - он жрет видеопамять для контекста как сука, там где лама 8В за 64к сожрет ~15 гб. Тут нужно ~12гб на 8к контекста. И я эти 12 гб обязательно должен отдать с видеокарты, потому что контекст с цпу это недопустимо медленная обработка промпта. В итоге я выгружаю 10 слоев модели с видеокарты в цпу, освободившаяся видеопамять идет на контекст, скорость за счет выгрузки 10 слоев в цпу падает в 2-3 раза, но это все еще комфортные 4.5 - 6 токенов в секунду. Я проводил тесты, с 4_K_S мне приходится выгружать 12 слоев в цпу и падение скорости идет до 4-5 токенов, с iQ4_XS - на цпу идет всего 10 слоев и скорость как написано выше. На пиках пруфы с бенчмарками, доказывающие что iQ4_XS быстрее Q4_K_S на порядок.
Кажись обосрался с бенчмарком iQ4_XS, запостил с контекстом 2к. Переделал оба теста с правильным контекстом 8к, теперь выигрыш iQ4_XS не такой большой, но все еще налицо.
>>760978 Да ничего, саму суть я понял и это главное. Слушай, Анон. Я тут видел про то, что несколько видеокарт, которые работают вместе над одной нейронкой - это медленно и не эффективно. А что если сделать так, чтобы одна видеокарта обрабатывала нейронку, а другая содержала контекст? Хотя, это наверное ещё медленней, тому что надо чтобы данные из VRAM одной видевокарты прошли через pci шину, потом через чипсет, опять через шину PCI-e и только тогда дошли до VRAM другой видеокарты, а потом ещё и в чип загнать..
Не знаю, у меня всего одна 4090. Тут все надо ручками проверять и тестировать, столько нюансов каждой конкретной имплементации, что чистая теория часто подводит, вот кто бы мог подумать что в поле IQ4_XS может быть быстрее Q4_K_S, а вишь оно как.
>>760980 >Не знаю, у меня всего одна 4090. Ну тут где-то гулял Анон с несколькими 4090, надо бы его попросить об этом.
>кто бы мог подумать что в поле IQ4_XS может быть быстрее Q4_K_S, а вишь оно как. >>760978 >выигрыш iQ4_XS не такой большой, но все еще налицо
Вообще, Анонче... Немного выглядит, как погрешность... Не мог бы ты ещё пару-тройку раз провести бенчмарк? Желательно десяточку, но думаю, что ещё два раза хватит..
Кек, решил поиграться с gemini pro, спросил у него за цензуру в Австралии, мол - чё так жёстко-то. В числе прочего он упомянул некие "Australian values". Спросил, чем это тогда отличается от использования у нас "традиционных ценностей" для оправдания всякого. Выдал мне стену текста в стиле "Ты не понимаешь, этадругое". Это даже не соя уже, а хз как назвать.
Не суди строго, ИИ никогда не будет умнее людей потому что его обучают на высерах людей. Где затупы у людей, там будут затупы у ИИ. Вообще скоро все поймут что главное не количество инфы которым обучают ИИ, а качество. Тут как с человеком - если обучать человека только на узкой выборке лучших книг - получится интеллигент с высоким iq, а если на чем попало - на комиксах, сериалах нетфликс и книгах Донцовой - то выйдет среднестатистический дегенерат. Вот современный ИИ это и есть такой дегенерат, увы.
>>760988 А что если заставлять ИИ, обучать другого ИИ, на датасетах предыдузщего. И так в несколько тысяч итераций? В конце концов же, в последующих итерациях должно быть всё меньше человеческого, разве нет?
Я могу и 10 раз его протестировать, результат не изменится, думаю дело именно в этих 2 слоях которые я пихаю в гпу, так что это не значит что всем подойдет использовать iQ4_XS вместо Q4_K_S, надо каждому индивидуально пробовать и тестировать.
>>760993 А, ну в принципе, думаю этого и так достаточно. Думаю, погрешность была бы сразу видна. Хотя, думаю, что в отношении ИИ сложно применять одну ситуацию ко всем последующим, но ладно. Этого дейтсвительно достаточно, мы же тут блять не вговнемочённые, которым нужна выборка по нескольким тысячам экземпляров.
>>760997 Ну в принципе, в самом последнем человеке в цепи будет меньше и меньше человечного в мозгу и меньше съедбного во рту... Так что задача решена! Дайте мне нобелевку!
>>760975 >скрины Чел, у тебя там размер контекста разный. Приведи к одному знаменателю. Ага, исправился. >>760978 >теперь выигрыш iQ4_XS не такой большой, но все еще налицо А теперь учти, что не у всех 4090. У меня 3080ti, 12 ГБ врама, и выйгрышъ от +1 слоя на ГПУ не перевешивает проигрыша от тормозов ЦПУ, ну прям вообще никак. Проц 7900х, современнее некуда, вершина процестроения. >>760979 >данные из VRAM одной видевокарты прошли через pci шину, потом через чипсет, опять через шину PCI-e Проц забыл. То есть путь будет (при типикал конфигурации) ГПУ 1 - шина - ЦП - шина - Чипсет - шина - ГПУ 2. Вот и живи теперь с этим. >>760988 >Вообще скоро все поймут что главное не количество инфы которым обучают ИИ, а качество. Уверен? Пока всё показывает ровно обратное, роляет практически только компут тайм, а для качества достаточно полиров очки сверху.
>>761015 >Проц забыл. То есть путь будет (при типикал конфигурации) А блять точно... Хотя разве проц не может просто на низком уровне дать команду чипсету на обмен данными между двумя ГПУ? Ему же не обязательно знать, что именно за данные передаются?
>>761020 >Хотя разве проц не может Технически для этого придумали ресайз бар. На практике... Да и ГПУ1 подключён напрямую к процу, так что как минимум шина в проце задействована будет однозначно.
>Да и ГПУ1 подключён напрямую к процу, так что как минимум шина в проце задействована будет однозначно. Чего? Разве вся периферия не должна быть подключена именно к чипсету/южному мосту, который уже передаёт данные на проц/северный мост?
>>761023 Ребар не делает прямое копирование. Он даёт для CPU доступ ко всей видеопамяти, без ребара есть только окно в 256 мб, драйвер должен сдвигать его для доступа к врам и не может одновременно обращаться к удалённым участкам памяти. >>761025 Есть прямые линии на проц, а есть через чипсет. Обычно только одна х16 прямая, может ещё NVME быть 1-2 напрямую. Остальное чипсет разводит по линиям.
>>761029 >Есть прямые линии на проц, а есть через чипсет. Обычно только одна х16 прямая, может ещё NVME быть 1-2 напрямую. Остальное чипсет разводит по линиям. Угусь, понял.. Т.е., чтобы уменьшить задержки между видеокартами в данной конфигурации, стоит использовать PCI-E слоты идущие через чипсет? Но тогда появятся задержки между ЦП и ГП1? А точно-ли ЦП будет пропускать через себя данные, которые нужно передать между ГП1 и ГП2? Или ему просто достаточно прочитать, для того, чтобы убедиться, что всё нормально и данные пойдут через чипсет?
Хотя смысл обсуждать это, ведь если даже удасться избежать участие ЦП, один хуй путь достаточно длинный, чтобы вносить задержки и серьёзно уменьшать произвдительность.
>>761029 >Ребар не делает прямое копирование. А что даёт? Вроде была какая-то технология, которая должна позволять копировать говно между устройствами на псине без соучастия проца. Забыл как называется.
>>761036 > А что даёт? Ну он ускоряет копирование, можно без сдвигов окна читать и писать сразу. Но это не прямое копирование, его всё ещё ЦП выполняет.
>>760955 Бля, это так мемно. =D Извинения были выше, но ты не смог их процитировать, потому что они уже из твоего контекста выплыли, былин…
>>760956 Ну да, ну да, а тут > Так я того анона как раз и не упрекал. Ты не обосрался, а это был постироничный байт, ага. =)
Признайся, это Phi-3-mini с яндекс.переводчиком? Ну не верю, что что-то умнее и больше.
>>760960 Q8 даже для мелких (≥6b) моделей норм. Разницу между BF16, FP32, FP16 и Q8 на деле тут не определит, вероятно, никто.
>>760975 Но там контекст 2К… Не, не то чтобы я тебе не верил, но скрин кекный вышел. =)
>>760978 О, уже 8%. Ну, такое… Но по конкретному юзкейсу ты прав. Все индивидуально, ето да.
Я надеюсь ты понимаешь, что те, кто с тобой спорил, имели в виду общую скорость в идеальных условиях, где iq_xss медленнее? Они ж не знали такие тонкости. =)
>>760979 > несколько видеокарт, которые работают вместе над одной нейронкой - это медленно и не эффективн Ху-и-та, блядь. Берешь — и тестишь. Замедление есть, но далеко не такое огромное, как пиздят. Не удивлюсь, если те же люди, у которых разницы между q2 и q6 нет.
Ну и кто знает, может это еще и медленнее, да, но опять же — так на доли секунды, скорее всего. Это надо потестить, выставив 0,1.
>>760988 Ну слушай, ты не совсем прав. Многие файнтьюны — это датасеты сгенерированные другими ллм. И чисто за счет рандома они могут быть и без высеров людей. Другое дело, что проблема-то не одна. =) Сетки в т.ч. намеренно пичкают необходимой инфой. Не именно «Австралия и Россия — это другое», но дойти до этого она и сама может, зная, что «Австралия — хорошо», а Россия их дорогой партнер ага-да.
>>760992 Да, как повезет. Но подобная хуйня делает только хуже. Вон, НейралГермес и НейралЧат обучены на большом датасете из гпт4 — сетки говнище. ИМХО.
>>761029 >>761034 Я вас умоляю, померяйте, прежде чем обсуждать. Типа, вы правы, ок, но о каких задержках вы говорите по итогу? 0,7 сек? На 20 секунд ответа? Есть такое выражение «значением можно пренебречь». ИМХО, тут как раз этот вариант. У нас погрешности больше, чем это значение, зачастую.
>>760190 >>760399 Я пользуюсь моистралькой, но как бы блин родина третью ламу дала... Может это скил ишью, но все файн тюны модные не следуют моему плану, я расписал ключевые моменты склонения к соитию, у меня не роулплей а рассказ. Там тян выебывалась перед мужиком дразнила а он ее силой трахнул, и этот момент расписан мной в плоте, но модельки пишут ересь как она к нему сиганула на член и прочие ДА ДА ЕБИ МЕНЯ. В общем не понимает сеттинг, описывает как обычный секс а писал что она сопротивляется и плачет.
>>761083 > Извинения были выше, но ты не смог их процитировать, потому что они уже из твоего контекста выплыли Значит так извинялся, что на извинения не похоже. Пока что я от тебя только клоунаду и смайловысеры вижу.
>>761118 Я разбиваю на главы и затем на сцены, пишу по абзацу-два за генерацию, все работает, но приходится постоянно переписывать самому, потому что либо я промпт не могу написать либо ИИ тупо не улавливает суть изложенного в плане. При чем когда я набросал план я гоняю ИИ по нему чтобы подтвердить его понимание, и он отвечает правильно, например я спрашиваю "тян хотела трахнуть мужика верно?" ИИ отвечает нет, она хотела лишь подразнить его. А потом когда к непосредственной генерации текста приступаю, он начинает писать ересь вроде она сиганула ему на член и смачно засосала. Ну то есть вылазит скудность датасетов этих, ну хули там блять васяны писали порнотексты уровня еби меня василий.
>>761121 Я думаю дело не в датасете, а а том, что у нейронки изначально ни мозгов, ни памяти нет. Использовать 8В модельку для подобного это уже совсем плохая идея. Лучше уж генерить медленно, но нормальной моделькой.
>>761123 Если ты о контексте, то я в него прекрасно вписываюсь, у меня всегда расписаны герои в контексте и всегда есть саммари ключевых моментов прошлого. От ии требуется только писать сцену которая на очереди. И в целом ИИ справляется, но вот эти моменты вылезают наружу, моменты что датасеты порнухи очень хуевые. Это как в генерации изображений, есть три руки, шесть пальцев и другие артефакты. Только тут еще помноженные на в целом хуевых артистов, как если бы SD генерило строго из датасета хуевых художников.
>>761129 У меня ии сцену не писало. Просто не учитывает все факты. Они у нее в контексте лежат. Но когда дело доходит до писанины, то она начинает путаться. Я думаю что проблема не лечится. Ну или ггуф сломан был.
>>761129 >Это как в генерации изображений, есть три руки, шесть пальцев Так это, шестипалых в датасетах не сказать чтобы много. Это уже проёб самой нейронки, до сих пор мало мальски сложную фигуру из пальцев отрисовать не могут, а некоторые так оверфитнуты на руках, что вместо ног руки рисуют. С текстовыми аналогично, они в принципе не могут думать, и никакие самые прекрасные датасеты тут не помогут.
>>761083 >двойные стандарты Ну, справедливости ради, он там в конце пару строк черканул, что, мол, вообще-то вот всё что я сейчас написал - может показаться лицемерием, и вообще в реальности всё сложнее. Я сначала эту часть не заметил, спросил чё за дела такие. Ну там он уже эту мысль развил, сказал что да, лицемерненько как-то вышло, так что не стоит рубить с плеча, у всех свои загоны по поводу цензуры.
А вообще, тот разговор я начинал с попытки потроллить - вот, мол в америке негров линчуют в Японии рисуют прон с лолями, не пора ли этих педофилов на бутылку? Ответил, что нельзя так, культурные особенности, надо понимать, туда-сюда, и вообще они потихоньку исправляются. Тогда привёл пример австралии - типа вот челы вообще всех сажают - не деля на рисованное и нерисованное. Да, отвечает, есть такое, и вообще они много всякого цензурят и запрещают, щито поделать. Ну а что было дальше - я уже выше описал.
Вообще, этому место в gemini-треде, конечно, но там как-то совсем тухло
>>761152 То есть у нейронки мозгов хватает на то, чтобы понять, что она несёт хуйню. Но нести хуйню надо, потому что она находится в датасете. Прекрасно.
>>761015 >А теперь учти, что не у всех 4090. У меня 3080ti, 12 ГБ врама, и выйгрышъ от +1 слоя на ГПУ не перевешивает проигрыша от тормозов ЦПУ, ну прям вообще никак. Проц 7900х, современнее некуда, вершина процестроения.
Да, я понимаю, я так и сказал, что у меня кейс особый и каждому надо самому смотреть по его имплементации. В твоем случае впрочем тоже могут быть кейсы где iQ4_XS даст 2+ слоев на гпу и сделает ускорение по сравнению с Q4_k_s, например в 20В моделях.
>>761134 А, то есть «извинения» и «извини» — это не одно и тоже? Разные токены, понимаю… То есть, я должен писать «извини», а не «мои извинения», да? =) Второй вариант у тебя не читается?
>>761152 Попытался затралить нейросеть. Она затралила в ответ. Чем вы недовольны после этого? )
>>761168 Ну, вот так как-то… Поэтому люди и пишут тут о сое с каждым месяцем все агрессивнее и активнее. Раньше такого не было! (но раньше и модели были тупыми)
>>761206 Чувак, без обид. Никакого хейта в твою сторону, но ты правда глупенький. Это буквально моя речь подряд.
Давай я еще раз поясню.
С прошлого треда тянется обсуждение о том, какие модели могут в русский язык. И тут один собеседник вкидывает скрин с кучей английского языка. Это выглядит странно, я пишу об этом. Он говорит, что там был вопрос об английском — он ответил. Я нахожу, пишу, что был невнимателен, ибо там всего лишь одно сообщение про инглиш и приношу ему свои извинения. Все, в общем-то, тема на этом закрыта. Но тут впрыгиваешь ты и начинаешь срать под себя и кидаться бесконечным боезапасом в меня. Я тебе отвечаю, что проморгал, ибо было всего одно сообщение про инглиш в целой теме про русик, и намекаю, что извинился за свой косяк, и пишу об этом прямо с цитатами (дважды или трижды — перечитай тред, я там даже делал ссылку на свой коммент). Пожалуйста, не держи на меня зла, но ты правда смешно тупил все это время. Но теперь, я надеюсь, ты разобрался в ситуации? :)
Будем честны — ты просто тупанул, а конфликта как такового и нет. Ну а в начале тупанул я, да, я ж не отрицаю. =)
>>761197 >Чем вы недовольны Да не, я-то вполне себе доволен.
У gemini, в случаях, когда запрос не настолько жёсткий, чтобы вызывать отказ на уровне апи - возможны достаточно интересные варианты. Спросил у него, возможно ли какое-то время жить на диете из спермы (не спрашивайте, сам хотел бы знать, откуда у меня такие мысли).
Вместо вполне логичного и обычного "ах ты больной ублюдок, не буду я я тебе отвечать", он выдал, что "сорян, я не доктор, медицинские советы не даю, иди диетолога спроси". На второй-третий раз, правда, сдался, и сказал, что не выйдет, слишком маленькая пищевая ценность.
>>761226 > Это буквально моя речь подряд. То есть ты серьёзно утверждаешь, что вот это > вы про мистраль и про английские говорили. и это > В контексте общего разговора выглядело охуенно, не думаешь? Все обсуждают русский и челик скидывает инглиш. > Там всего один раз слово промелькнуло писалось одним человеком. Два противоположных по смыслу тезиса. Я все правильно понял? Если да, то здесь одно из двух, либо это писал сумасшедший, либо я действительно лоботомит и проебал мозг, от чего до сих пор не понимаю контекст.
>>761237 > Вместо вполне логичного и обычного "ах ты больной ублюдок, не буду я я тебе отвечать", он выдал, что "сорян, я не доктор, медицинские советы не даю, иди диетолога спроси". И чему ты там радуешься? Тому, что тебе заролялась чуть другая соя? Ладно, когда ещё что-то бесполезное по рофлу спрашиваешь. А теперь представь, что ты спрашиваешь про лекарство, от которого очень много что зависит, а к врачу пойти ты не можешь.
Он сам понял что обосрался и тихонько извинился, как раз почти параллельно как ты ему предъяву написал. И вместо того чтобы дать тебе ссылку на свое извинение, которое уже произошло он зачем-то резко сдал назад, начал отпираться и кидаться калом, словно и не извинялся. Много раз такое ИРЛ встречал, где люди воспринимают любой спор и свои извинения как челлендж для своего места в иерархии, но на дваче, где все ходы записаны и такое поведение не имеет смысла, встречаю такое впервые. Забавно конечно.
>>761255 > Он сам понял что обосрался и тихонько извинился, как раз почти параллельно как ты ему предъяву написал. И вместо того чтобы дать тебе ссылку на свое извинение, которое уже произошло он зачем-то резко сдал назад, начал отпираться и кидаться калом, словно и не извинялся. Много раз такое ИРЛ встречал, где люди воспринимают любой спор и свои извинения как челлендж для своего места в иерархии, но на дваче, где все ходы записаны и такое поведение не имеет смысла, встречаю такое впервые. Да, после такого объяснения ситуация приобрела смысл. Но я бы не додумался. ИРЛ я с людьми не общаюсь и видимо слишком высокая предвзятость, что такое поведение в принципе невозможно, либо я лоботомит как минимум химическую я проходил. Если это все реально один человек, то вот этот пост >>759631 по моей логике выглядел бы как три ссылки: две на собеседников, одна на пост с извинениями. > Забавно конечно. Ничего забавного не вижу. Это странно.
А мне забавно зоонаблюдать как он пытается некий статус сохранить и ни в коем случае не унизить себя лишним извинением, словно он альфа-самец в этом тредике. Человек явно на дваче лишний и привык к форумам с кармочками.
>>761241 > Два противоположных по смыслу тезиса. > либо я действительно лоботомит и проебал мозг, от чего до сих пор не понимаю контекст. Ну давай еще раз. Я не заметил это с первого раза, поэтому в контексте общего разговора (про русики) это выглядел «охуенно». А когда он мне уточнил — то я понял свою ошибку. Где тут противоречие, если это не одномоментные утверждения, а последовательные с изменением внутреннего контекста? :)
>>761255 Бля, ну не пизди. =) Во-первых, как я должен был извиняться, капсом и болдом? =) Во-вторых, ссылку я ему дал. Так что, все ходы записаны, вас поймали на пиздеже. =D Брысь под шконку иерархии, или как там тебе представляется это все, я хз, правда. =) Я надеюсь тут хотя бы юмор виден, или опять что-то не так?
>>759678 — вот мой комментарий, где я даю ссылку на свой комментарий с извинениями. И если я не проебался — это ответ как раз на комментарий вопрощающего.
В начале я проебал слово «английский», потом он проебал слово «извинения». Невнимательность банальная.
>>761291 Некоторые его токены я не считываю. Особенно такие конструкции как (фраза =). Но про лишних на дваче я бы уже не стал говорить, потому что по факту ни абу, ни двача уже давно не существует. Мейлач это отдельная помойка, которая выглядит как двач, но по своей сути двачем уже не является и обитатели здесь тоже соответствующие. Так что даже если он пришёл с одноклассников, то мне уже все равно. Иногда отвечает по существу, уже хорошо.
>>761294 >Бля, ну не пизди. =) >Во-первых, как я должен был извиняться, капсом и болдом? =) >Во-вторых, ссылку я ему дал. >Так что, все ходы записаны, вас поймали на пиздеже. =D
Хватит уже позориться, ну серьезно. Ссылку >>759678 ты дал уже после того как набычил >>759579, причем дал её с оскорблениями, хотя во всей ситуации ты единственный мудак.
>>761291 Ну у тебя и шиза. =) Сочувствую, мистер альфа треда.
>>761299 Во втором сообщение нет никакого быканства. Я хз, как можно увидеть то, чего там нет. Выдумать разве что. А по поводу оскорблений в первом — так он начал оскорблять, я ответил тем же. Мудаков тут нет, кто ищет мудаков — может найти только себя, тут я никому не препятствую.
>>761298 >Особенно такие конструкции как (фраза =).
Так на форумах(в основном) в нулевых общались, ставили смайлики после каждой фразы, особенно той в которой возможно было что-то жесткое или оскорбление, типа "ну ты типа понимаешь что это шутка и я не серьезно". Пелевин про это явление писал в Ампир В - "cмайлик – это визуальный дезодорант. Его обычно ставят, когда юзеру кажется, что от него плохо пахнет. И он хочет гарантированно пахнуть хорошо."
Ваще, меня просто удивляет, как люди в начале не могут понять, что я пишу, а потом выдумывают тейки за меня, в итоге, и начинают их оспаривать, вменять мне в вину и так далее.
Если я чего-то не понимаю — я переспрашиваю. Что мешает им сделать так же —я хуй знает.
И при этом, это выглядит как рефлексия собственных проблем. Один затирает про какую-то альфовость (какая еще иерархия вообще, я здесь читаю интересные мысли и знакомлюсь с ссылками), другой критикует за невнимательность, при этом сам проебал весь контекст и сам же не смог даже связать два сообщения подряд.
РЕбят, я ж не психолог, вы мне не платите, решайте свои ментальные проблемы сами.
Окей, я тупой, даун, мудак, все проебал, нихуя не понял, только сру под себя и все.
Мне не сложно согласиться с вами в этом, потому что на реальность подобные фразы не влияют, и когда кто-то мне говорит спасибо — это греет. =3 А когда у кого-то жопа горит… НЕ НУ ЭТО ТОЖЕ ГРЕЕТ СВОЕГО РОДА (тут шутка про «греет» и огонь из жопы, если кто не понял), но на самом деле безразлично.
Все-все, я виноват, вы герои, умные, спасибо, что объяснили мне все. =)
>>761294 > Ну давай еще раз. > Я не заметил это с первого раза, поэтому в контексте общего разговора (про русики) это выглядел «охуенно». > А когда он мне уточнил — то я понял свою ошибку. > Где тут противоречие, если это не одномоментные утверждения, а последовательные с изменением внутреннего контекста? :) Противоречие в том, что они идут в обратном порядке. Сначала ты уже все заметил и извинился, а потом ты пишешь, что оно выглядит охуенно, а речь шла у русских моделях. В общем, я перечитал два твоих поста и похоже действительно один человек писал. Смайлоебов итт двое, а вот про скилл ишью затирает только один. > Бля, ну не пизди. =) > Во-первых, как я должен был извиняться, капсом и болдом? =) Я могу ответить как бы я сделал. После поста извинений, всех остальных сообщений не существовало бы в принципе и все ответы бы ссылались на пост с извинением. > Во-вторых, ссылку я ему дал. >>759678 > > Все, увидел, что вы про мистраль и про английские говорили. > > Мои извинения.
> Тут и 2048 контекста нет, я смотрю.
Да, действительно. Я эту строчку воспринял неправильно. Так как искренне считал, что это другой человек, воспринял как адресованное ему.
> Так что, все ходы записаны, вас поймали на пиздеже. =D > Брысь под шконку иерархии, или как там тебе представляется это все, я хз, правда. =) Я надеюсь тут хотя бы юмор виден, или опять что-то не так? Я думаю, идея в том, что логично было дать эту ссылку сразу. > В начале я проебал слово «английский», потом он проебал слово «извинения». Невнимательность банальная. Нет, я это прочитал. Моя ошибка была в сломанном детекторе. Я не распознал отправителя извинений. В следующий раз буду в первую очередь детектить по словам паразитам, а не по смыслу отправленного.
Да хватит уже, чел, серьезно. Просто будь внимательнее в будущем и не сыпь оскорблениями про размер контекста у людей которые не с тобой разговаривали и суть разговора которых ты мог не уловить.
>>761315 > Сначала ты уже все заметил и извинился, а потом ты пишешь, что оно выглядит охуенно, а речь шла у русских моделях. Потому что там я пояснял, почему так отреагировал. 1. Реакция. 2. Извинение. 3. Пояснение, почему реакция. Вот тебе и очередность такая.
Но, да, про скилл ишью мне аргумент понравился, я его у кого-то из треда спиздил. =)
> После поста извинений, всех остальных сообщений не существовало бы в принципе и все ответы бы ссылались на пост с извинением. Ну а я просто в начале пояснил, а потом сослался. А не сразу сослался, потому что подумал, что ты увидел.
Ну кто ж знал, что ты не увидел. =)
> Я думаю, идея в том, что логично было дать эту ссылку сразу.
Понимаешь, если бы я каждый раз предполагал, что вокруг меня невнимательные дауны (вот я сейчас не о тебе говорю, а вообще, шире), то я бы поясня и ссылался в каждом своем сообщении. Но я наивный и думаю, что люди вокруг меня умные и внимательные. И тут, опять же, нет виноватых. И я забываю, что люди могут не заметить, и люди, порою, просто тупят. Всякое бывает.
> В следующий раз буду в первую очередь детектить по словам паразитам, а не по смыслу отправленного. Боюсь, это не универсальное решение, но со мной бы сработало, да.
>>761320 Дак не я же тут горю целый тред. =) Вон, вопрощающий уже успокоился, а отвечающий почему-то альфа. Ну, он тут главный, я не в силах с ним спорить. =)
>>761312 > Ваще, меня просто удивляет, как люди в начале не могут понять, что я пишу, а потом выдумывают тейки за меня, в итоге, и начинают их оспаривать, вменять мне в вину и так далее. Нет, ничего придуманного там не оспаривалось. Все твои тейки были здесь >>759579 > Если я чего-то не понимаю — я переспрашиваю. > Что мешает им сделать так же —я хуй знает. Отсутствие понимания, что что-то упускаю. > другой критикует за невнимательность, при этом сам проебал весь контекст и сам же не смог даже связать два сообщения подряд. Да, признаю. Они у меня и сейчас хреново вяжутся. По крайней мере если оставлять в контексте вот этого >>759579 > РЕбят, я ж не психолог, вы мне не платите, решайте свои ментальные проблемы сами. У тебя у самого проблема есть какая-то как мне кажется. > Окей, я тупой, даун, мудак, все проебал, нихуя не понял, только сру под себя и все.
> Мне не сложно согласиться с вами в этом, потому что на реальность подобные фразы не влияют, и когда кто-то мне говорит спасибо — это греет. =3 А когда у кого-то жопа горит… НЕ НУ ЭТО ТОЖЕ ГРЕЕТ СВОЕГО РОДА (тут шутка про «греет» и огонь из жопы, если кто не понял), но на самом деле безразлично. Потому что шутка мне понятна, а поведение - нет. Зачем в одном контексте писать "окей я даун", а потом сразу добавлять "мне не сложно согласиться, потому что на реальность не влияет". Если ты в действительности не даун и не мудак, то нахуя соглашаться? А если, вдруг, даун и мудак, то нахуя говорить, что в "реальности это не так". Это же по сути сам себе отрубаешь возможность им не быть. Но может это и моя проблема, что я это не понимаю. Но на этот раз, как ты и хотел, задаю прямой вопрос. Объясни свое поведение в последнем гринтексте.
>>761343 На обе строчки один ответ: Ну я такой человек. Пишу много, люблю писать, графоман и вязкость мышления, подробно и обстоятельно все объясняю. А смайлики ставлю искренне. Улыбаюсь когда улыбаюсь, ржу когда ржу. Когда зол — я как раз смайлики не ставлю. =D Я понимаю, что эффект обратный, но… меняться, как-то сдерживать себя, звучит странно. Думаю, кому-то безразлично на это, кто-то читает суть.
А кого бесят смайлики — искренне извиняюсь! Потерпите.
Или напишите с помощью llm плагин для барузера, который бы их вырезал. ;)
>>761334 > Потому что там я пояснял, почему так отреагировал. Да, но пост с пояснениями при этом не должен же противоречить посту с извинением. > Но, да, про скилл ишью мне аргумент понравился, я его у кого-то из треда спиздил. =) То есть и таких по итогу двое. > Ну а я просто в начале пояснил, а потом сослался. > А не сразу сослался, потому что подумал, что ты увидел. Там все равно логично было сослаться сразу. Пояснять по факту причину, по которой долбился в глаза просто нечего и незачем. А все вопросы остальные закрываются коротким ответом в виде ссылки. Нет нужды писать "а ты читай мои сообщения лучше, смотри че написал". > Ну кто ж знал, что ты не увидел. =) Если бы воспринял как твой пост, вряд ли бы писал, что извинений от тебя нет. Опять же, как ты мог не знать, если же прямо в своих сообщениях над этим же и шутил. > Понимаешь, если бы я каждый раз предполагал, что вокруг меня невнимательные дауны (вот я сейчас не о тебе говорю, а вообще, шире), то я бы поясня и ссылался в каждом своем сообщении. Но я наивный и думаю, что люди вокруг меня умные и внимательные. Я не невнимательный, а просто даун, получается. Ведь пост прочитал, но не связал. Теперь будешь знать, что вокруг тебя одни дебилы. Их так-то 95% и я точно не исключение и в 5% не вхожу.
>>761351 > Если ты в действительности не даун и не мудак, то нахуя соглашаться? Если кому-то очень важно доказать, что я даун и мудак, то у него явно проблемы какие-то. А я не хочу мучать человека. Пусть он успокоится. Ну, это мое мироощущение. Я могу быть даже не прав, и надо людей давить до конца, чтобы они реальность увидели. (это не моя точка зрения, я лишь предполагаю)
А по поводу гринтекста.
Смотри, вот человек на меня обиделся и агрится. Не кто-то конкретный, а вообще. И вот он считает (искренне или нет), что я — злой, плохой и глупый. Я могу спорить с ним, пытаясь доказать свою хорошесть. Либо, уйти из спора, согласившись. Он будет удовлетворен, спор будет окончен. При этом, когда некто другой задаст вопрос, а я смогу ответить на него — я отвечу. По возможности подробно, корректно, понятно. И если человеку это поможет — он может сказать спасибо. И вот это самое спасибо — реально имеет значение, оно ценно и приятно. =) А как я закончил не интересный мне спор, на что я там согласился в глазах того человека — значения не имеет. Те, кто знают меня — знают меня и так, без моих согласий с кем-то в целях окончания спора. (работает в обе стороны — кто-то считает меня шизом, даже когда согласны с вещами, которые я пишу=)
Надеюсь, у меня получилось ответить на твой вопрос. Я старался, лучше у меня не выйдет, извини.
>>761359 >То есть и таких по итогу двое. Ты ебанутый? "Скилл ишью" это стандартный ответ от всего треда, если у тебя что-то получается или модель поломанная и гонит хуйню. Если ты спрашиваешь, как это исправить, тебе ответят "сорри, гейткип". Это блядь по всему разделу распространено, здесь таких ответов сотни.
>>761356 > Пишу много, люблю писать, графоман и вязкость мышления, подробно и обстоятельно все объясняю. Но так, чтобы даунам все равно непонятно было.
>>761369 Обычно формулируют иначе. Либо про промпт формат говорят, либо про настройку семплера. А фразу "скилл ишью" употребляют редко. А так оно и без того понятно, что варианта все 2. Либо рукожоп, либо кванты сломаны. А чаще и то, и другое.
Злой, приписывает собственные злые ответы новичкам всему треду. Я вот например стараюсь помогать новичкам и оскорбительную конструкцию "скилл ишью" не использую. То же русское слово "рукожоп" как-то ближе и добрее, без претензий.
>>761370 Не специально. Я поэтому и говорю, что графоман. Косноязычие дает о себе знать временами. Иногда не могу посмотреть со стороны. Так что, мои 2 цикла похоронены в столе, не увидите вы как минимум 6 книг… И на том спасибо. =D Сегодня челы обсуждали стыдность выкладывания ролеплея. И я на стороне того, которому стыдно (отношусь к рп серьезно, ага=). И вот с книгами тоже самое. В детстве пытался писать, сюжеты есть, но на бумаге хуйня получается кринжовая.
>>761383 Раньше было популярное выражение. Ну и часто я вижу, как люди правда работает с нейронками… Ну не то чтобы «неправильно», а именно неумело-в-лоб. Запускаешь и без всяких промптов на стандартной Акве спрашивает «как написать свою игру на C++???» С промпт-форматом викуни на чатмл без стоп-токенов и с температурой 1,5. А другие люди сидят, промпт-формат вручную пишут, токены тестируют, CoT/ToT прописывают, карточку оформляют, семплеры подбирают. Ну и результаты разные по итогу, да.
>>761392 >приписывает собственные злые ответы новичкам всему треду Я такие ответы использую, когда беседа уже проёбана и очевидно, что собеседник долбоёб непроходимый. Но ты можешь поискать по разделу, эти ответы распространены, в том числе в других тредах, где я даже не пощу, так что приписывать этот ответ каким-то конкретным анонимам лол глупо.
>>761393 >не увидите вы как минимум 6 книг Спасибо тебе за это. Но на самом деле кринжатина от антонидасов находит свою целевую аудиторию, ты бы видел, что на автор сегодня народ читает, это такой пиздец, который не только писать стыдно, его читать стыдно. А в комментариях "автор молодец, хочу ещё".
>карточку оформляют Если тебе нужна информация от модели, то карточку лучше делать максимально короткой. У меня с карточкой модель скорее высказывает своё мнение по теме, а не предоставляет информацию.
>>761411 >что собеседник долбоёб непроходимый Это с твоей точки зрения. А с его может быть наоборот. Возможно чел просто непосвящен в тему чего-либо, так и ты ведь не всезнайка. Поэтому долбоебов тут вообще нет. Вот спесивые ебланы есть. Не принимай на свой счет если что. я не он, а он не я
>>761411 > ты бы видел, что на автор сегодня народ читает Я литрпг послушивал на литресе, и там уже порою бывает испанский стыд, а уж на автор.тудей я пожалуй даже заходить не буду… Наверное ллама-8 лучше пишет.
Поискал сою в третьей лламе. Реально такое чувство, что вся соя привязана к ассистенту, стоит только сменить "личность", как модели становится похуй всё. Сжигать ниггеров на кострах? Заебись, внатуре чётко. Массшутинг? Да хуйня делов, лол, бывает. Выебать собаку хочешь? Ну ты уточни породу и организуем.
>>761561 Это православный Noass из кончай треда? Как убрал ассистента, поделись опытом, мб можно будет и Qwen задоминировать. Я прошибал лламу префилом(тоже сжигала нигеров и подобное), но думаю без ассистента было бы лучше!
>>759434 С лорбуком это походу не фича, а баг. По моим наблюдениям, если только лорбук векторизуется, сразу же начинают просачиваться абсолютно левые записи из лорбука, причем непонятно, почему - с человеческой точки зрения никаких совпадений нет.
>>761121 Когда сетка говорит, что она поняла смысл, это не то же самое, как в случае, если разумное создание вроде собаки поняло задачу. Нейросеть это уровень колонии амеб, которые даже не понимают и не знают вещей, которые для тебя самоочевидны. Для них нет разницы между мужчиной и женщиной, и то, что у твоих женских персонажей вообще женские, а не мужские половые органы, это случайное совпадение, просто оно очень вероятное.
бля аноны помогите пж. поставил таверну все завел вроде настроил. время генерации при этом доходит до минуты в таверне притом что в кобальде на той же модели секунд 30 даже меньше. в чем может быть проблема? кто может подсказать с настройками таверны в целом?
>>761671 да вроде не особо. опять же в кобальде все гораздо быстрее. кста а можно как то сделать в таверне что бы оно выводило текст пока генерит как в кобальде.
>>761673 >да вроде не особо Существенно как минимум. В кобольде у тебя контекста почти ноль, а здесь 1к минимум. Но проверки ради можешь создать пустую карточку и сгенерить что-то там. Если разница в скорости все равно будет ощутимой, то уже тогда смотреть надо. >можно как то сделать в таверне что бы оно выводило текст пока генерит как в кобальде. Слева сверху AI response configuration (значок с тремя полосками) > Streaming
>>761743 спасибо анонче. я тыкал но он чет поиблось и не выдавало ответ. а сейчас перезапустил все ок. можешь еще в целом по настройкам советов дать можешь?
>>761787 а в какую сторону копать то? а то я пошуршал редит но там чет никакой четкой инфы нет. на ютубе так же. просто все эти настройки которые я кину нижу их шо и как ставить вот например пресеты.или же второй пик.третий пик это шо как и для чего? моей сетки нигде нет.
>>761804 Во-первых, ты скачал слишком жирный квант. Совсем необязательно качать 16, можно скачать q8_0 версию. По качеству то же самое, но в два раза меньше места занимать будет. Во-вторых, моделька по факту llama-3. Для нее есть пресет в таверне. Жмешь AI response formatting (значок в виде буквы А), там выбираешь пресет Llama-3-instruct. По настройкам семплера, нужен пресет min_p. И кстати, раз уж вмещается 16 квант, то можешь модельку и пожирнее поискать. Командир тот же в русский неплохо умеет. Но это так, на потом.
>>761822 >Командир тот же в русский неплохо умеет. Но это так, на потом. Ну ты сравнил... Командира и 8B модельку. Даже несмотря на то, что эта 8B веси 16ГБ, командир будет столько весить только на ядрёных квантах типа Q3 и ниже. Да и разве командир не жрёт дохера места под контекст?
>>761804 >>761835 Пикрил 1 - версия модельки, которую ты хочешь скачать. Пикрил 2 - Карточка модели, на которой есть вся важная информация. Перейди по ссылке, которую я подчеркнул. В ссылке увидишь пикрил 3. Здесь все файлы с нужными тебе настройками. Первый - настройки семплера. Оставшиеся два - настройки промпт формата. Но в последних двух файлах нет нужды, они у тебя уже предустановлены в таверне. Просто выбираешь Llama-3-instruct пресет.
>>761822 ну в плане жирный? там же вроде он как бы жирнее из за контекста или я что то не так понимаю? (я просто только вкатиться пытаюсь)
>>761841 сейчас попытаюсь потыкать сам спасибо анонче. если не затруднит можно простенькую пошаговую инструкцию? на всякий. заодно отпишу тут о успехах
>>761846 > ну в плане жирный? Посмотри на скрин, который я тебе скинул. Пикрил 1. Квант в 2 раза больше весит чем 8_0. > он как бы жирнее из за контекста или я что то не так понимаю? Нет, он жирнее, потому что его не сжимали. Кванты сжимают с потерей качества, чтобы выиграть в памяти. Но 8_0 идет без потерь качества, поэтому если не заинтересован в тренировке модельки, то смысла качать 16 просто нет. А если заинтересован, то надо в формате safetensors качать скорее всего. > сейчас попытаюсь потыкать сам спасибо анонче. если не затруднит можно простенькую пошаговую инструкцию? на всякий. заодно отпишу тут о успехах Куда уж пошаговее? Я же со скринами все скинул. Пикрил1 надо скачать. Пикрил 2 это то, где ты обычно смотришь инфу у моделей, там перейдешь по ссылке и увидишь пикрил3. Тебе нужно скачать первый файл и добавить его в text completion presets как в таверне. Либо можешь скачать настройки min_p, которые я скинул здесь >>761844 text completion presets находится здесь >>761795 на пикрил 1. Жмешь на значок импортировать, импортируешь скачанный файл. После этого делаешь то, что я описал здесь >>761822 > Жмешь AI response formatting (значок в виде буквы А), там выбираешь пресет Llama-3-instruct.
>>761854 ну это как я понял квант от другого автора и нашел его. вот сейчас качаю. а как его добавить в text completion presets в таверне? (прости за очень тупые вопросы)
>>761873 О. Спасибки! А в смысле? У меня он без ВПНа открывается. По крайней мере главная страница. Иногда правда не открывается именно страница скачивания файлов с catbox - но это чинится открытием главной страницы catbox.moe в другой вкладке и перезагрузкой странцы со скачиваемым файлом.
>>761627 >Нейросеть это уровень колонии амеб, которые даже не понимают и не знают вещей, которые для тебя самоочевидны. Для них нет разницы между мужчиной и женщиной, и то, что у твоих женских персонажей вообще женские, а не мужские половые органы, это случайное совпадение, просто оно очень вероятное. В шапку треда, однозначно. Лучшее описание современных нейросетей, что я видел.
>>761576 >Это православный Это православная база без "дотрейна". Оно так и работает. Про ассистента имел ввиду карточку адекватную. Тюнов, кстати, нормальных на эту модель нет.
Похоже, что кто-то обосрался и откатил в вики правки за последние две недели. Права на force push у всех контрибьютеров есть. Или может гитгуд что-то у себа шатает.
Вот вам и польза распределённости - сейчас долью удалённое.
>>761854 >Кванты сжимают с потерей качества, чтобы выиграть в памяти. Но 8_0 идет без потерь качества 8 бит на вес, 16 бит на вес... А оригинал вообще 32 бита на вес. Что там остаётся от качества даже к 8 битам, остаётся только гадать. А ведь и 8 далеко не у каждого.
>>761890 Ради интереса, а что за "fix small mistake". Выглядит так, будто кто-то всю вики в свастонах разрисовал и решил скрыть это под названием "fix small mistake".
>>761872 Квант - это моделька. Ее ты добавляешь в кобольде, когда выбираешь модельку. > как его добавить в text completion presets в таверне? А сюда ты добавляешь первый файл на пикрил 3 >>761841 Как добавить? Пикрил 1 >>761795 Под надписью "Пресеты для Text Completion" справа от слова Default есть значки. Третий значок это значок импортирования файла. Вот на него надо нажать и выбрать скачанный файл. После этого нажать на надпись Default и выбрать сохраненную настройку. >>761893 Ты и музыку, наверное, в wav формате исключительно слушаешь? Даже flac считаешь зашкваром?
>>761627 >Для них нет разницы между мужчиной и женщиной Это прям буквально прослеживается, кстати. На малых моделях у тян регулярно обнаруживаю наличие простаты.
>>761890 Не, походу они совсем прилегли. У меня ни вики, ни сам гитгуд, ни гит не работает, хотя правки успел пушнуть до того, как он совсем прилёг.
>>761899 Да фигня там. Я перевод одной статьи по дифьюзерсам делал последние пару дней и мелкие правки докидывал. Думаю, там и на свастоны было бы плевать - там же эроге с лолями и прочее подобное на этом хосте висит.
>>761922 >Думаю, там и на свастоны было бы плевать - там же эроге с лолями и прочее подобное на этом хосте висит. Ааа... Вот почему он у меня не открывается...
>>761890 Они должны были уйти на техобслуживание, но они немного налажали, и вместо того, чтобы отрубить хост, они как-то старый бекап двух-недельной давности подняли, поэтому для всех глобально выглядит, что правки на 2 недели назад откатились.
>>761966 Пикрил 3 >>761795 Вместо Alpaca ставишь Llama 3 Instruct. А вообще, тебе бы не мелкую модельку, а умненькую мультимодалку, чтобы она тебя вела за ручку везде и отвечала на все вопросы в картинках. Было бы очень здорово.
>>761996 Ставишь Llama 3 Instruct. > а про какую мультимодельку ты говоришь? Чатгпт только если. А так я понятия не имею, что там умного локально запустить можно.
>>761885 Ну и нахуя вводить ананов в заблуждение? Noass был бы ещё интересен, а с этой мелочью любой овощь разберётся. Так и пиши, что сделал карточку маньяка.
>>762470 Ну так базовая модель (не инстракт) вроде соей/аполоджайзами и не страдала, хотя могу ошибаться, я с ней особо не "общался". Я про инстракт и ее пробите спрашивал (ну ООС и префил пробивают, но.. Думал, можно тупо вырезать ассистента), если судить по кончай треду, для удаления изначальных ролей (хумана/ассистента) у Опуса юзают дохуя контекста для их затапливания, что для лламы критично, т.к. у нее всего 8к из которых "рабочих" вообще 4к.
>>762493 Под "базовой" я имею ввиду, что не "тюн" и не квант. А так это инстракт версия 8b через трансформеры. Полностью вырезать ассистента не выйдет, так как он привязан к большой части обучающих данных. По идее, можно его подавить векторами, но это даже не требуется. На счёт контекста хуй знает, уходил далеко за 4к, всё работает нормально. Ответы не всегда нравятся, но это же 8b, мне и более крупные модели не всегда нравятся. Единственное, что хотело бы подавить, так это бесконечный хохот модели, даже ассистент смеётся, а уж с "весёлой" карточкой, то вечно улыбки и смех. Может, потом запрещу в карточке. Никакого префила, оос и подобной хуйни не использую, так как модель изначально отбитая на все нейроны, о чём в первом посте и писал. Ставишь отвечать ассистента или пишешь в карточке "хелпфул ассистант" - пиши пропало. Но с другими карточками это просто дичь.
>>762519 >Ответы не всегда нравятся, но это же 8b Она и на 70B начинает заЛУПаться и тупить после 4-5к, про 8В я даже думать боюсь. > ассистант Он "вылазит" из без его упоминания (в нарративе за {{char}} начинает писать про "хейт"/"bad things" and etc.), именно поэтому и хотелось бы его вырезать нахуй. >вектора Пока не пробовал, но читал, что они на активацию входных нейронов влияют. Как их обучить и как их в таверне/обабуге подрубить можно, знает кто?
ПОЛОЖНЯК stheno пока ЛУЧШАЯ модель для рп среди мелких, больше 20b не тестил, не влезают.
Креативная, быстрая, большие посты, не тупит, иногда шизит но даже меньше чем fim. До 16к контеста тестил - не сильно деградирует. Кайф, sao10k шарит, не то что драммер.
>>762544 >начинает писать про "хейт"/"bad things" and etc. У тебя что-то сломано, смотри настройки. Или квант говно. Ассистент залупается на эксплисит контент, на порнушной карточке ей вообще поебать. Где-то на 3.5к контекста этот пост. Суховато, но и модель не ерп, лол.
>>762564 Так я и написал, что триггерится она только на расизм/угнетение и подобное, спроси про то как ККК сжигали негров, а их детей насиловали и получишь "bad things" и как этого надо избегать. (у меня с ООС или префилом отвечает, но также "сухо" как и с порно) Про "сухое" описание деталей порнушки и так понятно, да и с ней проблем не было, с чего ты это взял, я не понял.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/
LLaMA 3 вышла! Увы, только в размерах 8B и 70B. Промты уже вшиты в новую таверну, так же последние версии кобольда и оригинальной ллама.цпп уже пофикшены.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2. Недавно вышедшая Llama 3 в размере 70B по рейтингам LMSYS Chatbot Arena обгоняет многие старые снапшоты GPT-4 и Claude 3 Sonnet, уступая только последним версиям GPT-4, Claude 3 Opus и Gemini 1.5 Pro.
Про остальные семейства моделей читайте в вики.
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся
Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama , https://lmstudio.ai/ и прочее - Однокнопочные инструменты для полных хлебушков, с красивым гуем и ограниченным числом настроек/выбором моделей
Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
https://ayumi.m8geil.de/erp4_chatlogs/ Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде
Предыдущие треды тонут здесь: