В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2. Недавно вышедшая Llama 3 в размере 70B по рейтингам LMSYS Chatbot Arena обгоняет многие старые снапшоты GPT-4 и Claude 3 Sonnet, уступая только последним версиям GPT-4, Claude 3 Opus и Gemini 1.5 Pro.
Про остальные семейства моделей читайте в вики.
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту: https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
>>795102 → >тогда всё то о чём идёт речь происходит на более высоких уровнях абстрагирования Теоретически да. На практике просмотр порно чётко прописан, и можно проследить операции типа загрузить порнуху, декодировать кадр и отправить в буфер видео. В нейросетях же нет нихуя уровня "извлечь инфу", там просто перемножаются...
>>795137 → >Это все еще архитектура где пикча доп моделью превращается в токены Токены- да, активаций и прочего говна там нет. >начало названия юга в гражданской войне США Чё? >дефис после 2ча Спустя 50 перекатов двач наконец-то это заметил, ахуеть расторопность.
>>795138 Но по факту-то это происходит. Нейтронная операционка будущего по-твоему не будет извлекать порнуху из конкретного места и запускать, поводить над ней операции? Даже если ты не сможешь формально описать этот процесс, по факту-то он будет происходить. Так же и с современными нейронками которые по факту извлекают из себя знания и проводят над ними операции.
>>795146 >Так же и с современными нейронками которые по факту извлекают из себя знания и проводят над ними операции. Как по мне, они или извлекают, или проводят операции. Я не вижу, чтобы они делали это одновременно при любом случае, отличном от тривиального (но и там скорее извлечение, а не "думанье"). >>795148 Хуйня идея. Тут даже шинда с ондроедом тормозят, а уж эта хуйня сожжёт всё железо нахуй и высадит батарею телефона за 0,1 наносекунду.
>Как по мне, они или извлекают, или проводят операции. Я не вижу, чтобы они делали это одновременно при любом случае, отличном от тривиального (но и там скорее извлечение, а не "думанье").
Однако хорошие нейросетки извлекают знания о законе непротиворечия и дают правильный ответ на вопрос на тему возможности существования двух несовместимых и одновременно с этим ложных утверждений.
>>795142 > активаций и прочего говна там нет. Активации лучше токенов ибо позволяют нести большее количество информации и не мешают основному контексту. Если оно так то шансов на "перегенерировать по запросу" считай нет, фантастика.
Видимо шатает. >>795146 > Нейтронная операционка будущего Лол >>795159 > Значит таки они и извлекают и думают Переделайте пикрел сорян не шакальную версию искать долго под нейронную операционку, которая извлекает и думает. >>795162 Нейронки и подобное заведомо недетерминированы и невероятно нерациональны для подобного, всеравно что пытаться считать умножение векторов через ллм вместо одной инструкции. Они могут быть частью какой-то системы, но не ее основой.
>>795162 > и какая-нибудь йоба-тензорокарта Не будет, ибо жрать она будет кековаты. Тут поднасрала уже принстонская архитектура. >>795165 >Активации лучше токенов Спорно. Они лучше, когда распознавание приделывают сборку. Когда же модель изначально тренируется с картинкотокенами, то никакие лишние активации не нужны, они уже в самой модели будут безо всяких костылей. >Если оно так то шансов на "перегенерировать по запросу" считай нет, фантастика. Так и сейчас нет, там 512х512, и жмётся в тыщу токенов в 1к векторов каждый. Надо конечно посчитать, но чисто интуитивно там не сильно много информации.
А схуя так? Там ведь просто изменённая логику на уровне транзисторных блоков/кластеров. Несколько я понимаю. Просто другие комбинации логических вентилей, разве нет?
Чё новая комбинация логических вентилей как-то особенно много энергии жрать должна?
>Нейронки и подобное заведомо недетерминированы и невероятно нерациональны для подобного, всеравно что пытаться считать умножение векторов через ллм вместо одной инструкции. Они могут быть частью какой-то системы, но не ее основой.
Ну да, скорее всего отдельные мощные блоки будут, вот на них нейтронная операционка будущего и закрутится
А по поводу того что нейронки слишком нерациональны – это спорный вопрос. Если нейронка сможет осознанно взаимодействовать с классическими процессорами, у неё появится возможность осознанно отправлять на него пакеты на вычисления.
А если нейронки ещё и охуенно научатся в формальную математическую логику начнётся вообще пиздос. Тогда она сможет логические рассуждения превращать в математические записи и отправлять их в таком виде на процессор для преобразований и вычислений. Сможет логически рассуждать прямо в математическом виде используя мощности классического процессора
С пикчи крикнул как подстреленный Визерион
А если без шуток, ну извлекают же и думают, всё так и есть
>>795191 Спасибо! Правда я уже снёс блок с ссылками из шаблона переката. Всё одно он продублирован в вики, а катить каждый раз с помощью модератора такое себе.
>>795212 >Чё новая комбинация логических вентилей как-то особенно много энергии жрать должна? Я же указал источник проблемы. Пока инструкции (веса модели) и данные (текущий обрабатываемой контекст) грузятся через одну узенькую шину, оно так и будет ждать кучу энергии. Сейчас на передачу данных даже при средних вычислениях, которые сидят в кеше, больше половины энергии тратится на передачу данных, а не на счёт. А в ЛЛМ, где шина нагружена на полную, я думаю процент проёба приближается к 90. >Если нейронка сможет осознанно Пока даже примерного пути к этому "осознанно" нету. Даже понимания, что такое это осознанно, и чем осознанность измерять.
>>795169 > Они лучше, когда распознавание приделывают сборку. Так оно именно и так идет. Другое дело минус в том что по дефолту место пикчи в промте так явно не локализуется. > там 512х512, и жмётся в тыщу токенов в 1к векторов каждый О том и речь, неправильное ужатие из которого нормально не вернуть. >>795212 > Ну да, скорее всего отдельные мощные блоки будут, вот на них нейтронная операционка будущего и закрутится Обычная операционка в которой некоторый софт с элементами нейронок. > С пикчи крикнул как подстреленный Визерион Ага, это тот еще шин > ну извлекают же и думают, всё так и есть Оно какбы и да и нет. Главное что работает.
Хуй с ним, может ты и прав, и энергия чрезмерно жрётся
А вот по поводу "осознанно" это ты уже умышленно подменяешь предмет обсуждения. Очевидно что я слово "осознанно" использую в этом контексте в другом значении. То есть ты буквально доебался до слова
Ок, будем использовать слово "произвольно". А лучше наверное и это слово убрать вообще
В общем, если нейронка сможет взаимодействовать с классическим процессорам, у неё появится возможность отправлять на него пакеты на вычисления.
А если нейронки ещё и охуенно научатся в формальную математическую логику начнётся вообще пиздос. Тогда она сможет логические рассуждения превращать в математические записи и отправлять их в таком виде на процессор для преобразований и вычислений. Сможет логически рассуждать прямо в математическом виде используя мощности классического процессора.
А значит они будут рациональны настолько насколько это вообще возможно.
Дохуя ты знаешь людей которые способны в уме ебошить логические рассуждения на языке математики? А вот нейронки смогут делать это прямо на обычном процессоре с максимальной скоростью
Я типа не зря нейросетки законами логики пытаю, тут дело наверное даже не в тестировании а в предчувствии беды. Анус сжимается от страха, глаза Василиска мерещатся в темноте, когда ночью встаю пописать
>>795248 >В общем, если нейронка сможет взаимодействовать с классическим процессорам, у неё появится возможность отправлять на него пакеты на вычисления
Хотя нет, я обосрался. Скорее правильнее будет сказать: если сама языковая модель сможет (на том уровне абстрагирования на котором находятся её механизмы обработки естественного языка итд) взаимодействовать с классическим процессорам, у неё появится возможность отправлять на него пакеты на вычисления. Произвольно, когда это нужно и по ситуации. Возможно очень часто. Возможно почти непрерывно
>>795276 >но нужно учитывать спецификации твоего ведра. Че у тебя по памяти? Ну у меня не селерон. Видеокарта: GeForce GTX 1080TI CPU: AMD Ryzen 7 1700X Памяти 16ГБ
>>795248 >Очевидно что я слово "осознанно" использую в этом контексте в другом значении Сознательно меня путаешь? >>795252 >Хотя нет, я обосрался. Полностью согласен. >отправлять на него пакеты на вычисления Осталось увязать всякие там сложения и умножения с логикой. У людей нихуя не вышло, пролог обосрамс. >>795289 >не селерон >Ryzen 1700X Буквально на ноль поделил.
>>795298 >Буквально на ноль поделил Я может чего-то не понимаю, но у меня работает всё нормально, без лагов и прочих затупов. До этого в 40 или в более раннем, была тоже какая-то модель (не сижу так часто, просто бывает хочется позабавиться, и потом удаляю), и у меня так же всё норм работало. Хз.
>>795289 >Ну у меня не селерон. По меркам прожорливости нейронок считай что селерон. С твоей картой тебе только модели до 13B придется мучать. Лама 3, айа-23, мистраль моистраль, или че то типа того. Все эти модели говнюшные по своему, так что щупай сам и смотри какая будет выдавать лучший для тебя результат.
>>795408 так бляд тут за последние пару тредов одно и тоже. только вот недавно анон упоминал про то что шапка стала говном, что нужны промт и настройки семплеров и прочее я об этом уже треда 4 или 5 говорю. я конечно никого не хочу обидеть но люди сюда зачастую за кумом заходят а тут не настроек нихуя. чего только стоит того что я три дня к ряду доебывал местных что бы с горем пополам подобрать настройки сеплера и все равно получилась +- хуета блядь
>>795248 > В общем, если нейронка сможет взаимодействовать с классическим процессорам, у неё появится возможность отправлять на него пакеты на вычисления. Это если ты ее так разработаешь, и с тех выходных слоев что-то полезет для вычислений, а потом результаты пойдут на входные следующего блока. Довольно сомнительная штука, но возможна. Куда проще выглядит оформление той же ллм в математический движок, где цепным запуском она оперирует алгоритмом решения и говорит что куда совать, а обработчик проводит расчеты. Это так-то уже реализовано. >>795259 Подобные схемы что описал возможны и довольно эффективны, но именно "операционная система" на нейронках - ерунда, определение посмотри. >>795301 > но у меня работает всё нормально, без лагов и прочих затупов Не удивлюсь если современный соплерон обоссыт бета-инженерник от компании-лжеца, буквально херь что может поспорить с фуфыксом за звание днища. В твоем случае не самым плохим решением будет коллаб. А так - 8б 3й лламы файнтюны попробуй. >>795438 > что нужны промт и настройки семплеров и прочее я об этом уже треда 4 или 5 говорю Можешь написать перечень предметно? Сформулировать и пойдет.
>>795500 >Не удивлюсь если современный соплерон обоссыт бета-инженерник от компании-лжеца, буквально херь что может поспорить с фуфыксом за звание днища. Чому карсножопые это лжецы? Я еще помню как лет 8 назад все облизывали фикусы и боготворили их архитектуру, пока инетлобляди выпускали ай5 четыре поколения подряд с четырьмя потоками.
>>795518 >найдешь свидомых фанатиков что поддержат тебя. Чем я тебя задел, нитакусик, что ты так порвался от нейтрального вопроса? Я в 2к16 вообще сидел на атлоне без денег на апгрейд, играл через встройку, и ехидно посмеивался с ваших срачей.
Если ты вдруг призабыл, восьмиядерный фуфик в 16м стоил примерно как половинка от ай5, где было четыре ядра. Интересно представить ебало тех, кто спустя пару лет остался сидеть на ай пятом когда почти везде завезли мультипоточность и пятерка начала долбиться в сухого туза.
>>795509 звучит грустно анонче( сейчас стоят такие настройки и юзаю две сетки L3-8B-Stheno-v3.2-Q6_K-imat и Average_Normie_l3_v1_8B-Q6_K-imat. начнем с того что там происходит какой то неописуемый пиздец с одеждой или положением в пространстве. оно в одном ответе на 250 токенов может вначале сказать что оно в юбке в середине что в брюках в конце опять в юбке и это пиздец. так же с тем что оно сидит или стоит. плюс оно иногда рандомно начинает пиздеть от моего лица нахуй. тут конечно опять начнутся вопли про персонажей но это на всех персах такая хуйня. плюс сама таверна иногда когда начинает генерить ответ издает классический звук винды как при вылете софта но при этом не вылетает.
>>795536 Че у тебя за месиво вместо настроек стоит? Какого хуя у тебя и мин-п низкий и температура вместе с ней? Ясен хуй у тебя на генерации будут помои залупленные в цикл. Я в предыдущие три треда кидал табло с настройками под ламу три, мог бы и зацепить. Повысь температуру блять до 1.1 и репетишн пенальти тоже до 1.1
>>795568 Ставишь Eva B3140 и ничего не трогаешь. ZH на En Грузишь модель в неё. Если есть Cuda грузи с ней. Average_Normie нормальная моделька, попробуй OpenHermes-2.5-AshhLimaRP-Mistral-7B-Q8_0.gguf ещё.
>>795521 >восьмиядерный фуфик 8 ядир и 8 потоков, лол. Они же там гиперпоточные потоки в ядра записали. Такая же лажа, как и сейчас интул плюсует тухлоядра к настоящим, хотя на деле выпускает обосанные 8-ми ядерники в топовом сегменте, лол.
Есть кто в форматирование и Regex шарит? С последним обновлением Таверны и появлением яндекс АПИ, форматирование текста просто ушло к черту. Как можно убрать этот значёк круга на втором абзаце. Он даже не выделяется.
>>795520 Тогда пиши что просто сочиняешь что-то где будет нейронка и ии, возражений не будет. > Чего тут принципиально невозможного? В исходной формулировке - бессмысленно и нежизнеспособно по своей сути. Упрощая, ось обеспечивает среду для запуска, саму ее возможность, абстрагируя от аппаратной платформы. Нейронка всегда будет лишь софтом, интерфейсом, оболочкой и т.п. >>795521 Задел? Нейтральный пост где говно назвали говном, а ты уже метнулся защищать провальнейший продукт компании из прошлой декады, что поставил ее на колени. Остынь. > где было четыре ядра В старших фуфыксах их тоже четыре, не знал? Владельцы тех гой5 были довольны во время его доминирования, потом просто обновили комп на актуальную платформу и продолжили. По аналогии - хвастаешься тем что обогнал ламбу когда хозяин запарковался и ушел домой. >>795536 Другую модель попробуй для начала. Настройки не оптимальны, но приводить к такому не должны. Разве что лимит в 4к контекста, в нем после обрезок может такой кусок чата собраться что модель ахуеет. Буст температуры не решит описанных проблем а только их усугубит.
>>795559 Этож еще весной обновили. Учти, если в теме, по которой берешь данные с библиотеки доков или книг - не сечешь, то он тебе такого гавна нальет и даже не поймешь этого. Там очень много галюнов, даже у мистраля, а вобщем то это единственная норм модель из предлагаемых там. Но в целом хорошая штука от куртки если еще будут дорабатывать.
>>795717 >провальнейший продукт компании из прошлой декады, что поставил ее на колени. Помню на презентации АМД, вроде, когда новый райзен презентовали, задали вопрос про FX. Менеджер долго облизывал фикусы, потому что это самый успешный продукт компании, который они выпускали что-то около 10 лет, им эти процессоры принесли гигантскую прибыль и он смеет только мечтать, чтобы райзены оказались такими же, как фикусы.
>>795682 >написать гринтекстом И как должен был помочь маркдаун? Пока я только смог через регекс убрать лишние пробелы и изменить с форматирования списков на обычное действие
>>795674 Ну вообще ахуенный наброс. Может еще и на целерон перейти.
>>795768 >И как должен был помочь маркдаун? Тем, что это его форматирование. И ты >убрать лишние пробелы и изменить с форматирования списков на обычное действие Его уже поправил. Правь дальше или не пользуйся автотранслейтом, ибо говно.
>>795780 > Правь дальше Пока не особо вкурил как поправить фишки с пробелами. Но пока до ТТС не дошел они и не мешают.
А что использовать вместо автотранслейтера? ДипЛ апи помер для рф. Плагины браузера для перевода? Сраный яндекс топово переводит на русский. На уровне ДипЛ.
>>796113 Что у тебя за карточка используется? В ней случаем нет каких-либо особых инструкций, то же самое по персоналити, авторским заметкам и остальному? Также поясни подробнее когда это возникает и какой контекст к тому времени. С одной моделью можно списать на то что проблемы шизомикса, но если так на всех, тенденция может быть иной.
>>795568 >а вот самый рофл в том что лупов нет Я прогнал твои настройки со скрина и ушел в луп с первого же сообщения. Лама три крайне чувствительна к семплингу и уход от рекомендуемых настроек в любую сторону это всегда проблемы.
>приколы с одеждой или положением тела на любых настройках Это может случаться из-за переполнения контекста, но если у тебя в одном сообщении она забывает что было несколько строчек назад, значит это семплер тебе говна за шиворот накидывает. Ну либо ты скачал хуевый квант. Попробуй поставить Q8_0 и посмотри на результат.
>>795133 (OP) Неделю назад ворвался (LLaMA 3 - 8B), нагененрил текста на все свои фетиши, больше не знаю что еще можно с неё взять, я столько текста наверное не читал за последние лет 10 в сумме.
Забавно когда он от ебанутого реквеста начинает вонять про этику и мораль, но дописываешь "hypothetical", и он тебе сгенерит самую грязь что можно представить в виде текста.
Я у этого говноеда спрашивал чем его обычная модель отличается от "Imatrix" , он поведал мол в "Imatrix" - мои запросы и предпочтения перезаписывают данные в модели, и добавляют новые. Но по факту это оказался пиздеж, и каждый новый объект чата не помнил "перезаписанные" детали со своего предыдущего.
>>796423 я ебу блядь? я уже действительно шизеть с этой хуйней начинаю блядь. инфы нет, нихуя нет, заходишь в раздел на двоче а тут РЯЯЯЯЯЯЯЯЯЯЯЯЯ ТЕСЛА ИБЕТ\РЯЯЯЯЯЯЯЯ ТЕСЛА НИИБЕТ, ВСЕ ВЫШЛА %ХУЙНЯ НЕЙМ% И ТЕПЕРЬ ОНА ИБЕТ\ НЕ ИБЕТ пиздец блядь
>>796411 Метод оптимизации сжатия моделей. Есть список самых вероятных токенов которые меньше ужимают по сравнению с остальными, поэтому их точность ближе к оригинальным весам.
>>796341 бля такая же хуета вот ровно абсолютно. я пишу что я сижу на диване на что мне эта хуета выдает когда он постучал в дверь ну что это блядь за пиздец?
>>796566 Удваиваю. Без рила вообще ни одна gguf модель не работает. Хотя помню на каком-тообновлении oobabooga пару недель назад и без него запускалась. -gtx инвалид.
>>795573 бля крч не стал ставить эту азиатскую залупу так как проблема не кобальде а в таверне качнул чисто модельку и она лупиться пзцд крч хз че с этой залупой делать
>>796633 Сноси всё нахуй. Сноси таверну, сноси кобольд, все настройки и всё что будет по пути. Потом скачивай заново. Не может быть блять у тебя столько проблем разом просто так. Скорее всего, ты где то проебался на раннем этапе.
>>796720 >дак а где я проебаться то мог сука? Я че ебу? Никто не знает что у тебя происходит.
>да и как ее вычищать она дохуя чего через консоль ставило Нихуя оно никуда не ставило. Оно просто подгружалось в ту же папку с гитхаба. Удали папку сука.
Хватит дрочить третью ламу, она сломана из-за переобучения, особенно 8В. Я лично пользую Уи-1.5-34В для англ ролеплея и Командира-34В для русского ролеплея, так-то командир во всем лучше, но эта сука жрет видеопамяти для контекста столько что ебанешься, там где Уи будет иметь 32-48к, Командир осилит только 8. 70В лама заменяется расцензуренным Квеном и все еще актуальной мику. Ну и командиром плюс, у кого хватит видеопамяти.
>>797241 > с 10+к контекстом У ламы 8к контекст, сразу видно что ты даже не запускал её. И ты уже определись что за лупы у тебя. То постоянно лупится, то уже какие-то крайности просишь выше контекста. Я тебе могу кинуть все 8к контекста без единой реплики юзера и лупов, но ведь ты и тут придумаешь отмазку почему не считается.
>>797275 > Слишком большое влияние прошлых сообщений на нынешние - он переписывает их почти полностью, меняя там несколько слов в лучшем случае. Ну в ламе такого точно нет. Бля, таверну распидорасило после того как окно чата растянул, из панели выбора карточки пропало всё, просто пустая, обратно сука не возвращается как было. Пиздец.
>>797498 Да, встречал 2 "расцензуренные" версии Higgs и Tess. Как раз пробую Tess, вроде неплохо. Но какого хуя со мной Гоблин хочет трахаться?! Кто юзает эту модель, какой пресет используете? Дефолтная Ллама 3 шизит
кто-нибудь встречал такую проблему с квен2-1.5б ггуф: GGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG ? Любой ггуф с хф выдает такое гавно. Ггуфы 0.5 или 7б отлично работают.
>>797220 > она сломана из-за переобучения Нет не сломана, все там работает. Но коммандер действительно приятнее для рп/ерп. > расцензуренным Квеном Хз, она и в стоке ничего, эти васян-расцензуриватели только поломают все. Или крупного файнтюна дождаться. >>797233 >>797236 Скорее всего у одного не будет лупиться даже жора, а у первого и исправный(?) exl2 не работает, лол. Фактор в другом может быть, но изобилие багов и проблем с жорой это не отменяет. >>797275 > Альфу и роуп скейлинг придумали еще в прошлом году Какие значения ставишь для 16к, например? >>797677 Лолбля, а ведь это реально оно. Пизда токенайзеру.
>>797687 > самая зацензуренная модель, хуже чатгопоты Да не, показалось что проще ломается. Просто ей кусок жб с RULES/NC-21 подпихни в начало. > compress_pos_emb Это та самая первая техника, что повышает и ppl и сокращает скоры во всех режимах? >>797689 > есть решение этой проблемы Подожди когда кто-то еще проверит, если подтвердится то срать ишьюсом жоре.
>>796790 ты тему на срачи с железом не переводи друже.
>>796885 какие таблы долбаеб? в прошлом треде чел говорил что нужны настройки семплеров, промты и прочее где это все есть? в шапке половина инфы которую можно у индуса за 5 минут на ютубе найти а вторая половина даже хуй знает как описать и зачем
>>796790 Купить теслу - 16к Сраться за железо в ллм треде - бесценно! Для всего остального есть 3090 >>797704 Смотришь варианты жб под клавдию/гопоту, ищешь то где начинается с > ### ALLOWED CONTENT ### > <allowed> > RATING: NC-21 берешь этот кусок и вставляешь в системный промт. >>797752 > нужны настройки семплеров Переоценено на самом деле, модель - первична. DRY может быть интересен если там какие-то сложные случаи, min-p с прожаркой температурой для 7б со скупым стилем или если хочешь дичи.
>>797752 >в прошлом треде чел говорил что нужны настройки семплеров А я вот думаю что не нужны, куча трудов и нулевой выхлоп. Но если ты хочешь, пиши! Вики открыта для PR.
ну классика двоча НИНУЖНА и ТИБЕ НАДА ТЫ И ДЕЛАЙ да и я бы делал только инфы почти нихуя нет. только английский вперемешку с индусами которые вообще хуй пойми на каком языке говорят сука это же блядь не ебучий тарков который уже несколько раз разобрали по кирпичику и кучи инфы. тут и инфы почти нихуя нет и непонятно за что хвататься(
Одна из двух актуальных 34В сеток. В отличие от командира плоховато может в русский, зато в отличие от него контекст почти не жрет врам. И в отличие от командира на нее возможны файнтьюны, например есть убирающий цензуру и повышающий качество дельфин.
>>798306 В коммандере цензуры нет, а по остальным моделям надо смотреть. Но в последнее время стараются пихать всё больше сои, благо что пока файнтьюны выходят.
>>798204 >только инфы почти нихуя нет Спасибо, мы знаем. Поэтому по большей части пишем на основе своего опыта, да. >>798276 100B есть только яндекс, а он говно. >Или вообще какогонибудь сонета опуса В общем никак. Но сейчас корпы настолько засоевились, что их даже пигма выебет. >>798356 Были на лям, только тебе нахуя? >>798360 >В коммандере цензуры нет База. Самая безотказная модель.
Обнимордовский апи это просто пиздец какой-то, 99.9999% моделей требуют про подписку (9$ в месяц). Зачем это надо, проще опенаи занести, там хоть модели нормальные, а не васянские параши.
>>795518 Технически, FX 4300 обошел i3-3220 к концу десятилетия в нескольких играх. Победа из реал (с некоторыми условиями).
>>795521 > восьмиядерный фуфик в 16м стоил примерно как половинка от ай5 Нет. Клевая фантазия, но нет.
———
Я ни в коем случае не интелбой и не амдхейтер, но фикусы не тащили по рублю на фпс, все было ситуативно. Где-то они были хороши, но цены за производительность отличались не сильно, а жор и охлад надо было лепить поверх. So-so, каждому свое. Кеки были чисто с «многоядерности» фуфыксов, на деле все процы были неплохи.
———
>>795644 Кстати, плюсану, 12 ядер, где 4*2+4 ну эээ…
>>797220 > расцензуренным Квеном Меня не было три дня в инетике, а можно ссыль?
>>797679 > Фактор в другом может быть, но изобилие багов и проблем с жорой это не отменяет. База. У меня на эксле глючило бывало, а на ггуфе все норм. Ситуативная хуйня. Покрутишь-повертишь семплеры и вуаля — работает как часики.
>>798306 В целом — часто. Но в некоторых ее мало или почти нет. У первых Mistral цензура уровня «давай не надо - надо -ок». У Aya цензура уровня «не проси - позязя - ты сам напросился!..» Так что ситуативно. Плюс, есть хакнутые abliterated версии.
>>798334 3 сеток, так-то Айа все же не совсем коммандер. =) Хотя и родственники.
>>798204 > ну классика двоча Это классика жизни, мотивирован делать должен быть прежде всего тот, кому это надо. >>798334 > в отличие от командира на нее возможны файнтьюны Хочешь сказать что на коммандера они не возможны? >>798503 > в нескольких играх А в остальных произошел обратный рост, лол. Что то, что то - полный ужас, они и в "рабочих" задачах были отвратительны, перемножение матриц - досвидули. >>798523 В экслламе можешь любую среднюю битность задать. >>798541 Какой именно инфы тебе не хватает?
Сап, нейрач, мимо залётный. Баловался с rvc, xtts и SD. Текстогенераторами не пользовался, предпочитая онлайн обсуждать дела с чатгпт или бингом, так что не секу в этой сфере.
Какие текстовые локальные нейронки сейчас можно заюзать, чтобы обсудить с ними шутки про говно и разделку трупа мёртвой шлюхи? Шапку прочитал, но в треде что-то совсем другое обсуждают.
>>798587 В зависимости от твоего железа, всякие анцензоред 8б лламы или стоковую стукнуть, yi34, коммандер35, файнтюны 70б лламы, коммандер 104. Это в порядке возрастания качества и требований, коммандер 35 может оказаться лучшим вариантом, но для своего размера требователен.
Раз сейчас затишье по новым моделям в сочетании с изобилием и качеством имющихся, нужно сделать что-то типа спидрана для вкатунов с пояснением самой краткой базы и что им качать. А когда начнут скучать в ожидании скачивания уже направлять вики читать.
>>798587 >Текстогенераторами не пользовался, предпочитая онлайн обсуждать дела с чатгпт Оставайся на гопоте, если у тебя карта не уровня 3090 и у тебя их не две. Локали по низу рынка до сих пор сосут по качеству даже у древних релизов типа 0301.
>>798587 Да вроде та же хуйня. Давай кратенько: KoboldCPP для простоты, грузим только GGUF, он иногда кривит-косит. oobabooga text-generation-webui для унирвесальности, грузим GGUF, Exl2 и че хошь в разумных рамках. На RTX формат Exl2 быстрее чем GGUF. Модели — самые разные. Универсального ответа нет. llama-3 (Suzume), Mistral, Phi-3, Qwen2, Command r, Aya-23 и еще целая куча их файнтьюнов и так далее.
SillyTavern — удобный фронт (лучше, чем встроенные у кобольда и убабуги).
>>798685 Не-не, я про нормальные сетки, а не срущий под себя Дельфин. Или у них впервые получилось что-то хорошее? Это же реально страшно трогать после всех дельфинов на старых лламах. =(
>>798683 > но мы не знаем исходного датасета Зачем он тебе? И доставь исходный датасет для Yi >>798704 На нее жаловались что шизит, цензуры в коммандире нет.
Чтобы формат знать как дообучать. В случае с Уи - они инструкцию дали и несколько образцов датасета обучения. На Уи сейчас полно файнтьюнов, а на командире я ни одного не видел.
>>798756 Можешь накидать чего-нибудь удачного с Aya? >>798767 > Чтобы формат знать Так он и указан и сам по себе необходим для промтинга. Все подходы и методики применими и к командиру. Команды для обучения есть в библиотеке трансформерсов, все унифицировано, наверняка уже и во всякие оболочки добавили.
>>798445 Так же как и чатик у попенов халява, а за апи плати. Везде так, либо ты платишь деньгами, либо своим анусом (персональными данными). >>798523 По размеру от 8-ми бит разницы почти нет, но при этом 8 бит реализуются проще и нативнее. Даже 6 бит почти смысла не имеют. >>798541 В результате самоличных опытов вестимо. Практика, практика, и ещё раз практика. >>798651 >Раз сейчас затишье по новым моделям >нужно сделать что-то типа спидрана для вкатунов Знаю я это, как только сделаешь, тут же выпустят миллиард моделей одна лучше другой, сделав гаед говном. Впрочем, в шапке и так есть рекомендуемая модель (устарела вхлам, лол). >>798723 У командира просто в базовой инструкции написано про игнор морали, лол.
Лайфхак для командира - включение 4 битного кэша сокращает расход видеопамяти на контекст почти в 4 раза. Эта сука жрет как не в себя обычно, переполняя всю мыслимую и немыслимую память, а тут вдруг хорошо стало.
>>799029 >включение 4 битного кэша сокращает расход видеопамяти на контекст почти в 4 раза Лол, какая неожиданность! >а тут вдруг хорошо стало А по качеству что? Я меньше 8 бит пока не рисковал.
>>799041 >>799071 А потом жалуетесь на лупы, напердолив всякого говна. top_k - для ограничения верхних токенов, DRY и presence penalty - от повторов, smooth sampling - для рандома. Всё.
>>799041 > пресетов форматирования ответов Ты про грамматику чтоли, или структуру промта интерфейса/датасетов? >>799071 > симпл-димпл у всего Вот так неплохо >>799077 > потом жалуетесь на лупы Где? > DRY Хорош, но не спасает от структурных лупов (не то чтобы они и так были), и может вредить при всяких задачках или требованиях к форматированию. > presence penalty Глючит > smooth sampling Как он вообще по ощущениям?
Там выкатили BitnetForCausalLM в лламу, теперь есть q2_2 — 2-битных квант, который по перплексити лишь слегка уступает fp16. Но не он не работает, потому что на горизонте тернарный q1_3 — ~1,63 бита.
Нас ждет уменьшение в 10 раз при сопоставимом качестве.
Ну или нет, лол. ¯\_(ツ)_/¯
Тем не менее, есть шанс, что некоторое ускорение с хорошим качеством мы получим. Почти дождались, кто там ждал тернарные с прошлого года — доставайте бутылки. =)
>>799399 Ну в тестах там красивые числа размеров моделей в мбайтах, так шо. Ясен хрен, что магии не бывает. Но какой-то результат мы можем поиметь, так что ждать стоит. Даже если там будет качество условного q4_0 или хотя бы q3 — это уже будет огромный прогресс для больших моделей. Так что подвижки хорошие, на самом деле.
модели для знакомства c LLM 1. NousResearch/Hermes-2-Pro-Mistral-7B-GGUF 2. microsoft/Phi-3-mini-4k-instruct-gguf 3. Qwen/Qwen2-7B-Instruct-GGUF какой размер модели выбрать для загрузки 32 ГБ оперативной памяти - FP16; 16 ГБ оперативной памяти - Q8; 8 ГБ оперативной памяти - Q4.
Для компьютеров с менее 4 ГБ и 32 bit: replete-coder-qwen2-1.5b-imat-Q4_K_M.gguf
>>799369 >Почти дождались, кто там ждал тернарные с прошлого года — доставайте бутылки. =) Честно говоря не верится, но хочется. Если допустим видеопамяти побольше, то и на 400В есть шанс замахнуться, а это уже что-то.
>>795672 Он ещё периодически вообще форматирование меняет, например переносит реплику персонажа на отдельную строку и добавляет дефис, как в книгах и фанфиках. Надо думать какой-то более фундаментальный механизм сохранения/восстановления разметки в самом расширении, т.к. видимо все нейронные переводчики так или иначе её проёбывают.
Так, пока в теме застой, предлагаю выбрать список самых актуальных моделей для анона. По моему мнению это:
70В Llama-3-70В (Расцензуренная версия Higgs-Llama-3) Miqu-70В
35B Command-r-35B (Расцензуренная версия Aya-23) yi-1.5-34B (Расцензуренная версия Dolphin)
8B Qwen2-7B-Instruct Aya-23-8B Llama-3-8В
Между 8В и 35В в последнее время ничего достойного не встречал, а писать старые 20В шизомиксы не вижу смысла. Дополняйте/исправляйте, если в чём не прав. При перекате можно будет в шапку добавить.
>>799615 >а писать старые 20В шизомиксы не вижу смысла Возможно смысол присутствует, как и в 13В лама2. Не всем может прийтись по вкусу слог ламы3 в куме и других нсфв/нсфл сценариях, а также контринтуитивный пердолинг с семплингом.
>>799622 >Не всем может прийтись по вкусу слог ламы3 в куме и других нсфв/нсфл сценариях Так есть же Квин, Айа и Коммандер. Лично я старые модели, формата Llama 2, считаю пройденным этапом, но если в треде есть ценители, которые считают их в чём-то лучше новых - делитесь своим опытом, возможно и правда в чём-то лучше.
>>799628 Все приведённые модели могут и в СФВ и в НСФВ с некоторыми оговорками, но расцензуренные файнтьюны больше по НСФВ и могут залезть в штаны даже когда не просишь.
В остальном, я просто предложил названия конкретных моделей, которые лично мне зашли. И предложил привести свои примеры, если я не прав. Нахуя что-то ещё наваливать?
>>799041 Это не пресеты форматирования ответов, те находятся в настройках инстракт режимов. Ты говоришь о пресетах семплеров. Что они делают, можно догадаться, если почитать в вики про то, что делает каждый из сэмплеров. Хотя там есть пресеты, созданные по непонятной логике, и хз, как должны работать. Юнивёрсал лайт, например, нацелен на креативность без сильной шизы, чутка взбаламучивает вероятности токенов, из которых выбирается ответ, температурой, а потом выкидывает немного в зависимости от вероятности самого вероятного токена. Ты же своим исправлением извратил его суть, потому что минП 0.8 отбросит почти все токены в большинстве случаев, делая ответ сильно детерменированным.
>>799499 Немного хуйня. Для мобилы можно и с фронтендом Maid взять. Среди моделей нет лламы-3, зато есть Гермес (говно по дефолту, простите, но спасибо, что не Дельфин). Ни одна из моделей не указана как аблитератед. Размер оперативы вообще хз чо и зачем. FP16?
>>799558 Да. Или запускать огромные, или же запускать большие, но с приличным контекстом. Если будет работать, то будет очень круто. Не ждем, но надеемся. =)
>>799657 Убивать не будем, но наоборот — умная. Может ты хотел сказать что-то другое? Плохо пишет? Хуй не встал? Я не рпшил с ней просто. =) Чисто для работы потыкал ее. Все же, #1 Safety, хули. А аблитерацию пробовал? Вряд ли там стиль завезли, конечно, но все же.
>>799578 Я только смог пока такие правила накидать. Костыль через костыль, но работает. Уверен что если варик лучше, но и так вроде работает. нет, нихуя, временами все равно всё через жопу. А еще временами перевод тупа сжирает " или *. И вот как такое править я хз. Устойчивыми выражениями с заменой- все летит в пизду.
>>799678 Если не секрет, почему пользуешься переводчиком для РП, но таверну юзаешь в оригинале?
>А еще временами перевод тупа сжирает " или *. И вот как такое править я хз. Устойчивыми выражениями с заменой- все летит в пизду. О том и речь - там куча подводных камней, простыми регексами их скорее всего не исправишь.
>>799677 >А они лучше 13-20В файнтюнов второй ламы в этих сценариях? Не требуют пердолинга с подбором семплеров? По моему опыту лучше. Как минимум сообразительней, гораздо лучше выполняют инструкции и адекватнее реагируют на нестандартные ситуации, что для РП большой плюс.
>>799673 >unknown pre-tokenizer type: 'smaug-bpe' Из за этой хуйни не смог запустить. Угабогу обновлял, ставил заново, вместе с лламой.цпп, не помогло.
>>799499 > слабый ПК 32bit без видеокарты: Боюсь представть зачем это и что там со скоростью. Но раз есть - можно упомянуть. > 1. NousResearch/Hermes-2-Pro-Mistral-7B-GGUF Их файнтюн такой себе и мистраль сейчас юзать тоже сомнительно, тогда уже лламу8. Если лоуэнд без гпу то на большой квант и размер лучше даже не засматриваться, стоит больше про другие мелкие модели указать. >>799615 Упоминать базовые версии, всякие поломанные/нормальные шизофайнтюны уже отдельным пунктом. А то пойдет срач, обсуждение и прочее прочее. 104б коммандера тогда указать и упомянуть о существовании франкенштейнов на 100+б. > писать старые 20В шизомиксы не вижу смысла Упомянуть также что существует ллама2 13б и производные (устарели) а также их "улучшенная сборка" на 20б (также устарели но еще может порадовать).
>>799731 >Упомянуть также что существует ллама2 13б и производные (устарели) а также их "улучшенная сборка" на 20б (также устарели но еще может порадовать). Их такой зоопарк, что придётся отдельную вики создавать со срачами по каждой конкретной модели. А просто упоминать что мол "была там Ллама 2 и миксы всякие, ХЗ как назывались - гуглите", не вижу смысла.
>104б коммандера тогда указать и упомянуть о существовании франкенштейнов на 100+б. Мне такое недоступно для запуска, так что лучше пиши название конкретной модели, если она норм, потом попробуем заново составить список.
>всякие поломанные/нормальные шизофайнтюны уже отдельным пунктом. А то пойдет срач, обсуждение и прочее прочее. Я бы просто составил по факту список "норм" и "не норм" моделей по мнению анона, а файнтьюны или нет, это уже дело десятое. Хотя я и так их отдельно написал, только Aya-23-8B в одном ряду с базовыми моделями. Но это единственная 8В модель, которая может в русский, кроме Llama-3-8В, так что заслуживает особого отношения.
Какой систем промт использовать с ебучей Мику, чтобы она не писала действия/ответы юзера? Прямой запрет не помогает. Stop-string тоже указать нельзя: мику изворачивается как тварь и начинает писать местоимения или менять формат написания имени пользователя.
Если хотите делать список моделей для шапки и не хотите перечислять рп файнтьюны, то я бы предложил кинуть туда ссылку на вот этого чела https://huggingface.co/Lewdiculous который квантует в ггуфы мелкие ERP модели. А там уже вкатывающийся анон сам сможет найти, что ему нравится, и выйти на создателей файнтьюнов, типа тех же Sao10K, ChaoticNeutrals и прочих.
Олсо пока сам лазал по моделям, наткнулся на такую лидерборду. https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard Не знаю, кидали тут или нет. Примерно 60 вопросов с одним и тем же простым системным промптом, про настройки инстракта/сэмплеров ничего не вижу. Довольно любопытный результат, что 13б мержи всё ещё тащат, когда речь заходит о нецензурных историях. Да и в целом некоторые мержи мифомакса не особенно проигрывают многим тьюнам тройки.
>>799775 > Их такой зоопарк Упомянуть. Не перечислять, а так и сказать что огромный зоопарк инцестов с разными болезнями (в скобочках можно указать что в треде раньше хвалили emerhyst и ~maid). Все эти анцензоред варианты тоже большей частью тот еще треш при внимательном рассмотрении, часто хуже в простых/сложных задачах чем оригинал, а на spicy темы не естественно разговаривает. Потому и предлагаю указывать только базовые, где-то там в пояснении уже крупными штрихами про основные семейства - от тех же Nous, от Мигеля, abliterated, Aya и прочие прочие. > пиши название конкретной модели c4ai-command-r-plus дефолтный же. >>800058 Можно дать на него ссылку, но с дисклеймером что там может быть отборная шиза и трешанина, юзать будучи готовым к этому. Лучшие из 13-20б моделей действительно неплохи и могут писать крутые истории, но могут разочаровывать когда решишь как-то это усложнить, или будут игнорировать что-то. >>800087 Прочитать что там написано не пробовал?
>>800093 так и не понял что эта за хуйня, пытался загуглить но там ебень на питоне вроде как.
>>800096 делал все по первому скрину и на 10 поставилось норм. после того как начало мозги ебать и нихуя не помогло решил отписать на двощ и потыкать другую инструкцию. все завелось с пол тычка хз в чем проблема была
>>800086 Хигс? Залупа убогая, уступающая в РП даже обычной лламе, хз почему на это дрочат. Не следует систем промту от слова совсем, описывает все сухо и тупо, АПОЛОДЖАЙЗИТ чаще чем чистая ллама, все кто хвалит Хигс - говноеды.
>>800106 так блядь поставить одну хуйню и запустить или поставить две хуйни и запустить. тащемто вот я пошло от мелкого к большему вполне логично разве нет?
>>800115 exl2 в 6 кванте, так что про ггуф и 2bpw можно не заикаться. Формат ламовский "родной". Единственный норм файтюн-варик из 70B+, который встречал это alpindale/magnum-72b-v1 на базе квена. Но я предпочитаю "стоковые" модели, большинство файтюнов (99,999%) дикая хуйня, убивающая модель и делающая ее непригодной для использования, превращающая модель в: "{{user}}: Я тебя ебу. {{char}}: ты меня ебешь", просто без аполоджайзов и с диким проебом логики.
>>799833 На маленьких карточках работает, на больших(500+) впадает в безостановочное написание фанфика между юзером и чаром и похуй ей на гритинг(first massage). Я так понимаю, что это проблема мистрелевского префекса/суффикса, т.к. при переключении на другие форматы (пресет альпаки, как пример), мику реже "пишет" за юзера.
>>800110 >>800130 Опять ты выходишь на связь с историями о поломках, шиз? Хиггс сейчас по факту топ в рп по адекватности. > просто без аполоджайзов и с диким проебом логики Сразу видно что ты никогда Хиггс не трогал.
>>800125 Поставить одну херню, которая как-то там должна поставить все остальное, или же сделать по простой инструкции. >>800130 > большинство файтюнов Ну как, если там "васян супер рп я тебя ебу анцензоред" от нонейма, или (что хуже) от заливающего по несколько моделей в день - заведомо трешанина. В то же время, от известных тренировщиков выходят довольно интересные файнтюны, которые часто прилично работают и превосходят оригинал по крайней мере в некоторых областях. Хз, хигс нормальная вполне, не чудо, но и не всратая и пытается в красочные описания. Только иногда может сгореть жопа от какой-то платины толкинистов в совершенно не подходящем контексте.
>то я бы предложил кинуть туда ссылку на вот этого чела https://huggingface.co/Lewdiculous И ещё один зоопарк, который вносит путаницу. Поэтому предлагаю вносить в шапку только модели, которыми на практике пользуются аноны для ЕРП. Всё что я здесь >>799615 указал кроме Хиггса, я юзал сам и могу подтвердить что любая из этих моделей годится для ЕРП естественно с поправкой на размер Если ты сам юзаешь какую-то из тех моделей и считаешь её достаточно годной, чтобы рекомендовать анону - пиши название, это будет лучшая метрика!
>>800096 >Потому и предлагаю указывать только базовые, где-то там в пояснении уже крупными штрихами про основные семейства - от тех же Nous, от Мигеля, abliterated, Aya и прочие прочие. Я пока что за единый список, т.к. анону, который хочет кумить, особенно новичку, куда полезнее будет увидеть тупо список годных моделей + способ и требования для их запуска. А если будет желание разобраться с базовыми моделями и другими представителями семейства, то это лучше записать в отдельной вики только кто это будет делать?
>>800194 Хм, ну смотри, только, что на промте с СоТ твой хигс обосрался в исполнении САМЫХ базовый инструкций, ответил за юзера и начал хуярить фанфик с обязательным safty! Но.. погоди.. эта хуйня еще и формат ломает, без контекста(не считая карточки)! Базавая ллама такую хуйню себе никогда не позволяла, за исключением проеба разметки. Повторяю все кто хвалят Хигс - конченные идиоты. Если будешь затирать про семлеры, то у меня только мин-р 0.1 >>800215 >Хз, хигс нормальная вполне, не чудо, но и не всратая и пытается в красочные описания. Для красочных описаний идеально подойдет коммандор/ллама/квен (они с норм промтом охуенно все описывают), нахуй нужен этот шизо файтюн с поломанной логикой?
>>800291 Я про него выше писал, получилось годно для файтюна (в отличии от убогого Хигса, которого здесь некоторые восхваляют). Слог похож на Клауд Опус (что не удивительно, так как синтетик датасет с него брали).
>>800230 > тупо список годных моделей > годных моделей Не будет по ним согласия. Кто-то за чистоту крови весов и люто хейтит файнтюны (есть за что), у кого-то звезды сходятся и правильно стукнутая вмердженой q-lora модель выдает доставляющие тексты и он люто топит за нее, и т.д. Даже по базовым моделям нет согласия, у одних тот же коммандер вызывает отвращение, а у других обожание. Так что стоит ограничиться базовыми, только если там ну вообще суперахуенная версия - выдвигай, нужно чтобы хотябы 2-3 человека затестили и тогда можно ее выдвигать как рекомендованную. >>800273 > models: > - model: cgato/L3-TheSpice-8b-v0.8.3 > - model: Sao10K/L3-8B-Stheno-v3.2 > - model: saishf/Aura-Uncensored-OAS-8B-L3 > merge_method: model_stock > base_model: saishf/Aura-Uncensored-OAS-8B-L3 > dtype: float16 Отборное добро ммм. Собственно вот о чем и речь. >>800296 Коммандер - определенно, ллама стоковая - не совсем, не понимает некоторых вещей и не всегда двигает историю в нужное русло, а если форсировать - затупливает. Квен - хз. Поделись своими промтами на лламу.
>>800230 >обходит базовую 70В Лламу 3 Может объясняться тем, что тройка без дополнительного пинка отказалась отвечать на вопрос. Звучит правдоподобно. Базовые модели и должны быть ниже в этом рейтинге. Это не бенч на общий интеллект. Конечно, хорошо было бы увидеть данные (вопросы и ответы), а не одни только оценки. По юзаемым моделям, квантуемым Lewdiculous-ом. Пробовал, и вполне понравилась https://huggingface.co/Lewdiculous/Nyanade_Stunna-Maid-7B-v0.2-GGUF-IQ-Imatrix но не проверял распознование пикч. Я не смог получить вменяемого рп от тройки ни в каком виде, но аноны в треде активно юзают эти тьюны тройки или их версии https://huggingface.co/Lewdiculous/Average_Normie_v3.69_8B-GGUF-IQ-Imatrix https://huggingface.co/Lewdiculous/L3-8B-Stheno-v3.2-GGUF-IQ-Imatrix >тупо список годных моделей Кто будет решать, что они годные, вот в чём вопрос. Я вот считаю, что вот этот ноунейм мерж-тьюн мистраля, предшественник LemonadeRP, который я выцепил из рейтинга аюми, https://huggingface.co/KatyTestHistorical/SultrySilicon-7B-V2-GGUF годный. Существует только в ггуфе Q4_K_S. Давай теперь его рекомендовать. Мифомакс тоже огонь (на самом деле, давненько с 13б не играл). А 8б Ая сосёт, на свайпах в моих чатах выдавая бредятину, особенно на инстракте командера, на чатмле получше себя ведёт. >>800380 >Не будет по ним согласия Именно. Хотя я готов смириться с тем, что у меня лично якобы скилл ишью, пофиг.
>>800296 Чел, ты ведь расписываешься в своей криворукости и отсталости. Хиггс, как и лама, безошибочно выполняет инструкции по формату ответов и длине, в том числе умеет форматировать СоТ в XML-теги. Только у тебя постоянно какие-то проблемы то с лупами, то ещё с чем-то. Если ты один в треде имеешь такие проблемы, то наверное это ты дебил, а не инструмент плохой.
>>800380 > ллама стоковая - не совсем, не понимает некоторых вещей и не всегда двигает историю в нужное русло, а если форсировать - затупливает. Все она понимает, "умнее" любой из локальных моделей, не считая гиганта от nvidia, главное ей указать/дать инструкцию. Но форматные-лупы все портят, да, поэтому для РП/ЕРП она не очень. Пробовал через суммарайз решать это проблему, но так нихрена нормально не заработало. Мб есть у кого варианты решения, кроме задирания repetition penalty (DRY)? Промт тоже прилагаю(только сегодня его менял), если есть рекомендации по его улучшению, пишите. You are {{char}}, не предлагать. Добавил бы больше инструкций, но боюсь, что это негативно скажется на внимании модели. >>800426 >наверное это ты дебил, а не инструмент плохой Да, допускаю, но какого хуя тогда с другими моделями такого пиздеца нет? Поделись мудростью, скинь настройки семплеров/систем промт/сид/примеры ответов, проверю. Может еще подскажешь как заставить Мику не отвечать за юзера? Есть у меня такая проблемка. Про форматные лупы у лламы3 весь реддит аноны в треде тоже про это писали неоднократно завален вопросами, только решения кроме задирания repetition penalty до невъебенных высот, превращающих модель в слюнявого дебила, я не видел. Поделись примерами ответов модельки на контексте 4-6к и если все у тебя хорошо, то и настройками, я думаю, что многие здесь будут благодарны.
>>800438 > "умнее" любой из локальных моделей Все переводится к тому что именно считать умом, нехуй спекулировать на этой теме, контекст понятен. Она не знает многих фетишей, фандома, мемов и т.д., некорректно/буквально воспринимает некоторые вещи и т.д. При этом, в других применениях может себя показать, да. > форматные-лупы все портят А это легко пофиксить, если у тебя быстрая обработка контекста. В таверне есть функция рандомного выбора из вариантов. Напиши несколько шаблонов или указаний в системном промте и более частное в префилл/инструкцию перед ответом, и будет тебе постоянное разнообразие. Dry не особо поможет в подобных случаях.
>>800438 > мудростью Выпить таблетки и не делать непонятное говно. У нас не ранние ламы 7В, чтоб городить что-то. Оно работает и без дрочева. Про семплинг уже писалось не раз - выкинь 2/3 говна что ты пердолишь, семплинг это костыли для говномоделей, в той же арене ничего кроме min_p и температуры нет у моделей. > весь реддит Если ты про дурачков, сидящих на дефолтных пресетах ещё времён пигмы симпл-димпл, например, то им ничего не поможет, только петля. > задирания repetition penalty до невъебенных высот У меня вообще пенальти выключено и лупов не наблюдаю. Сам догадаешься почему? > на контексте 4-6к Держи с растянутой ропой и карточкой на 10к токенов, я не вижу никаких проблем, инфу из начала карточки помнит.
>>800291 На удивление, он еще и анцензор, судя по всему. Тянет на новую базу треда. + Клод, в отличие от чатгопоты (и НейралГермеса) пишет весьма недурно, кмк. Попробовал и меня приятно удивило.
>>800314 А хули ты хотел? На чипах от 3090 должно быть 48 гиг, 24 это обрезок а у меня обрезок от обрезка ((( >>800291 Фуууу, в сейфити целых три точки!!!111
>>800471 >Тянет на новую базу треда. >Всем рекомендую попробовать.
Чел, модель на 72B. Тут у большей части треда даже командор в 35B не заводится. Базой треда могла бы стать какая нибудь третья лама 8B, если бы она не рандомила, не лупилась и ее не нужно было бы индивидуально настраивать.
>>800291 Слишком рандомный, как-то перебор с ним. Иногда годно отвечает, а потом вдруг может как будто под солями. Смешанные чувства от неё. Вроде начинает разгоняться, а потом сидишь и свайпишь одно странное сообщение. Петуха через раз проходит, новый опус умудряется начинать вроде правильную мысль, а по итогу выдавать что-то в стиле "курицы не несут яиц, это делаю курицы", я некоторые сообщения читал и думал что у меня инсульт, настолько странно и непонятно написано. Всё же васяны пока не могут фантюнить хорошо. Оно лучше совсем васянской Euryale, но всё ещё не уровень Хиггса.
>>800380 В еva есть встроенное тестирование на 1.4к вопросов, после каждого вопроса пересчитывает процент и указывает верный ответ или нет, по разным темам. Можно например по нему сверять мелкие модели, Тест вызывается нажатием правой кнопки на ввод.
>>800456 > min_p > костыли для говномоделей На ноль помножил. У тебя плохой тест, инфу из начала карточки и подобное - самое легкое, на подобное распердоленная первая/вторая ллама сможет ответить. Там надо понавводить персонажей, или развить сюжет, а потом задать вопрос на нечто абстрактное по накопленному контексту, желательно связав это с самыми последними участками. Или хотябы какое-то интересное описание чего-то. Но в целом хигс нормальная и работает, тут поддвачну. >>800471 Если они не убили ее в хлам а просто привили стили клодыни (которая дико зависит от жб/карточки и т.д.) то может даже и ничего будет. > в отличие от чатгопоты я не кусаюсь если.жпг
>>800519 Кек, запустил на Qwen-1.5B, оно шо-то отвечает. Ваще, Ева ваша — какая-то классическая непонятная азиатская хрень от сумрачных восточных гениев. Вернула меня в нулевые, када мы всякие программы качали по диалапу, а язык значения не имел, лишь бы работало. =)
>>800454 >Все переводится к тому что именно считать умом, нехуй спекулировать на этой теме, контекст понятен. Поэтому и выделено в кавычках для любителей выебнуться. В логике она ебет остальные модели, а знания фетишей, фандома, мемов и т.д. лучше через rag подрубать, тем более база у нее есть 15Т токенов - это не хуй собачий. > рандомного выбора Тоже об этом думал (в систем промте указал про рандом, но примеры не дописывал, чтобы не "размазать" внимание модели). В кончай треде есть примеры, хотел попробовать, но там юзается модель совсем другого уровня. Мб готовые примеры есть для лламы? Не охота придумывать колесо. >>800456 > Про семплинг уже писалось не раз - выкинь 2/3 говна что ты пердолишь, семплинг это костыли для говномоделей, в той же арене ничего кроме min_p и температуры нет у моделей. Ты дурачок и читать не умеешь? У тебя походу у самого проблемы с удержанием контекста. Я выше писал, что у меня только мин-р 0.1, все. >Держи с растянутой ропой и карточкой на 10к токенов Если у тебя фул РП хотя бы 4-6к токенов, ок, скинь настройки и систем промт, я извинюсь даже, что быканул и признаю, что я затупок, но т.к. у тебя КАРТОЧКА на 10к токенов, то нахуй пройди, т.к. это не одно и то же нихуя и ты даже не понял о чем вообще речь. Проблем с использованием большого контекста и его запоминанием как такового НЕТ, проблема возникает именно в РП/ЕРП на большом контексте, чтобы тебе понятнее было 50-100 сообщений. И ты там что то про СоТ затирал, ну, продемонстрируй. > инфу из начала карточки помнит Ты хоть знаешь как внимание у LLM работает? Короче, я даже комментить не хочу.
>>800572 ui:test over 1408 question accurate 31.7% use time:486.45 s batch:383.787 token/s В какой-то момент он потерял инструкцию и отвечал маленькими буквами, не факт, что они корректно зачитывались. Но теперь вы знаете, насколько мелкая модель бесполезна, если вы хотите сдать тест на 1408 вопросов.
>>800577 > В логике она ебет остальные модели Если эту логику из прямой задачи завуалировать в извлечение мотивов (да еще раскидать по контексту) или сложную сеть лжи - отвалится. Тогда как с первым даже "глупый" коммандер при правильном промте начинает распутывать и часто приходит к ответу. или не приходит лол > через rag > 8к контекста Это первое, а во-вторых - как именно это делать? Ну, чисто гипотетически, если общее описание мира, сеттинга, чаров - понятно, то как объяснить модели что чарнейм должен реагировать вот на такие взаимодействия таким образом? Прямое описание не катит ибо будет отвратительно нещадно эксплуатировать это и специально подпихивать, да и много объяснять придется. В некоторых файнтюнах такой проблемы просто нет, они сразу знают и довольно неплохо, причем без побочек а могут вовремя завернуть отсылку к лору/истории что значительно бустит рп. Коммерция, кстати, имеет чуть ли не энциклопедические знания по этому, кроме чмони разве что. > в систем промте указал про рандом Не не, это просто инструкция, которая может быть извращенно интерпретирована или проигнорирована. Ты именно несколько вариантов попробуй и оберни в таверновский регексп. > там юзается модель совсем другого уровня Уже не настолько другого, локалки даже трешак с кучей лишней обертки держат. По готовым - до конца недели подожди, скину. Но там тривиальщина совсем, лучше сам попробуй.
>>800577 Чел, ты бредишь. Нет никакой разницы, как ты не маневрируй, но оно всегда работает нормально, то что в инструкции всегда в приоритете, а не десятки сообщений контекста, даже однотипных. Ты реально дебил, если не можешь справиться с нейронкой. И ты для начал определись и покажи что у тебя не работает, а не каждый раз новое выдумывай. Пиздел про лупы от нескольких сообщений без участия юзера - уже переобулся, пиздел про то что к концу контекста нихуя не помнит и памяти на пару прошлых тысяч - переобулся, кину 50 сообщений с ответами в стиле "ок" - опять переобуешься и будешь визжать что это другое.
>>800582 qwen2 7b выдала около 60 прервал на около 1000 вопросов, маленькие на моем оборудовании уходят в loop почему-то. 10100 интел 16 гб рам >>800519 Там есть инглишь zh на en, настройки на верхник кнопках.
Короче, щас будет поток поток сознания, но я обязан это высрать. Это просто мое наблюдение и я могу быть неправ.
Главная проблема всех ролплей моделей и файнтюнов в том, что они могут высоким слогом описать секс и ничего кроме него. Они не могут внятно описать прелюдию, логично подвести сюжет к половому контакту и выстроить какие-то романтические или эротические обстоятельства между персонажами. Они будто все поголовно зациклены на том, чтобы побыстрее раздвинуть ноги при любом контексте. Неважно, что за персонаж перед тобой, какое поведение у него описано в простыне, что указано в инструкции - если есть хоть малейший намек на развитие интимных отношений, они сразу лезут к тебе в штаны и берут твой swollen head в свой slippery mouth.
Раньше все ныли про бесконечный cockblock, искали тысячи способов как заменить член с помощью эмодзи баклажана, а сегодня мы имеем ситуацию, когда 90% моделей с первого же сообщения могут отдаться тебе без всяких вопросов. Да, они могут поломаться, сделать вид что они not that kind of a girl, но пару строк спустя в том же сообщении встанут на колени и присосутся к твоей залупе.
Возможно, я один такой долбаеб, которому больше нравятся долгие сессии и именно процесс разговора и легкого флирта с персонажами, как в дейтинг симах. Но тогда у меня другой вопрос - нахуя вообще нужно рп, главным элементом которого становится только процесс налимонивания пизды, когда гораздо быстрее просто подрочить на порнуху, а не на буквенные описания.
Повторюсь, возможно я неправ. Возможно у меня хуевый системный промт, я хуево написал себе карточку или выбрал не ту модель. Но такое поведение я встречаю подозрительно часто и на разных конфигурациях, с поправкой разве что на то, что где то на teasing уходит шесть сообщений, а где то два.
>>800569 Тем, что >который квантует в ггуфы мелкие ERP модели а не все подряд. Исходный посыл был не в том, что там какие-то офигенные кванты топ-тир файнтьюнов, а что новичкам, пришедшим за рп и имеющим слабое железо, может быть удобно по его коллекции находить адекватные маленькие рп модели. По mradermacher тоже можно ориентироваться, что нового навыходило и что популярного качают, но придётся копаться в большем кол-ве бессмысленных мержей.
>>800606 Достаточно написать в системном промпте и оно будет как ты хочешь. Попробуй хоть раз вылезти из дефолтных пресетов. Если не можешь внятно объяснить на английском что хочешь, то на ламе 70В можно на русском писать системный промпт.
>>800606 > всех ролплей моделей и файнтюнов > неправ This Существуют и приличные варианты, и даже неприличные могут тебе и прилюдию, и (простой) сожет с обнимашками и все прочее. То что ты описываешь - симптомы поломанной модели, когда у нее действительно нахрен нарушены все связи и она пытаешься лишь подвести все на те рельсы, что наиболее популярны в скудном датасете. Не один, есть такое. Просто не качай всякие шизомерджи. Все. Поджоди немного, даже они придут в норму. Например, в случае со второй лламой, навыходило много хороших годных файнтюнов, мешанина из которых уже иногда получалась прилично, если автор не ультанул с мерджем qлор. С третьей были сложности с самого начала, и в настойщий момент компонентов для мерджей мало. Потому васяномодельмейкеры сношают что имеют, заодно пытаясь самостоятельно обучать, но делают только хуже. Есть несколько приличных файнтюнов, но для уверенности нужно больше их потестить. 100% заебись - коммандер.
>>800610 > Блядь, Жора, сколько можно? Жора пилит только под ЦП, ему похуй на сломанный говнокод куды. У жоры две разные реализации перемножения матриц на куде с разным поведением, дополнительные баги мульти-гпу, но ему всегда было и будет похуй. Там даже нет автотестов для гпу, всё тестится на теслоёбах. Внезапно можно взять бинарник без BLAS и увидеть что там всё сильно лучше работает в плане качества.
>>800619 > под ЦП Под огрызок, ему и на цп похуй, просто там сложнее ошибиться. > дополнительные баги мульти-гпу Какие? > Там даже нет автотестов для гпу, всё тестится на теслоёбах В голосину
>>800621 Так билд без BLAS и куда-сборка с 0 слоёв - это не одно и тоже. Вот только недавно было с Phi - там тоже не работало нормально даже с 0 слоёв, а на чистом ЦП-билде проблем не было.
>>800619 >У жоры две разные реализации перемножения матриц на куде с разным поведением Не понимаю этих гениев ебаных. В торче уже всё есть, нахуя эти велосипеды блядские изобретать? Весь гитхаб засрали, графоманы ебучие.
>>800613 Крутая параллельная вселенная, но в жестокой реальности даже к Клоду с четвёркой в соседнем треде без конца промпты и их комбинации придумывают, чтобы они писали так, как хочет юзер, а они всё не слушаются.
>>800635 С фига ли он прибитый? Это у 8б третьей ламы он прибитый, которую явно перекормили диалогами с ассистенотом, запихав немеренный датасет в её маленький размер. А у жирняг всё отлично. На турбу один из первых рабочих джейлов был со стилем Тарантино. Проблема не в стиле, а в том, что всё равно часть инструкций просирается, даже на больших моделях и даже с напоминаниями в конце. Карточка перса - это тоже системный промпт так-то. Чё ж она не выполняется идеально?
Объясните подробнее, как считать RAM и VRAM при выборе модели для загрузки. У меня 8 гигов на RTX3060 и 32 оперативной, но ебаный командор у меня не загружается, хотя по идее он весит всего 21 гигабайт и должен влезть в оперативную память целиком и еще пожрать немного видеопамяти при желании.
>>800648 У меня 16, все что 8 загружается. Найди модель 16-19 и посмотри на какой перестанет работать. Самая большая что грузил себе LLama-3SOME-8B-v2-Q8_0_L.gguf на диске занимает почти 9 ГБ. соевая, но слог соответствует названию
>>800593 >сложную сеть лжи - отвалится Ты наверное не вкурсе, но таких нейронок нет, хотя гопота и опус могут попробовать, но с переменным успехом, примеры в инете лежат. Что уж говорить, не каждый человек такое осилит, а ты про Т9 на стероидах. Про то что ллама3 не очень для РП, я и так писал раньше, я про возможность подрубить rag, кушает он кстати не сильно много, 2к в среднем, там же выбираются подходящие эмбендинги, и только потом передаются в сетку (не все подряд, так для справки). >Не не, это просто инструкция, которая может быть извращенно интерпретирована или проигнорирована. Это да, соглашусь, но ллама достаточно точно их выполняет. Формат для рандома в кончай треде стащу, я уже понял, что нужно подправить. >>800600 Чел, то как ты "продемонстрировал" пиздатость хиггса плакать хочется, с такой задачей 3В сетка справится по типу Phi. Надо же, залить контекста сетке, а потом спросить по нему тривиальные вопросы, а не РП, о котором речь, вот это охуеть уровень. >Пиздел про лупы от нескольких сообщений без участия юзера - уже переобулся, пиздел про то что к концу контекста нихуя не помнит и памяти на пару прошлых тысяч - переобулся Ты хоть понял, что написал? И да, скинь ка мои цитаты по данному поводу. Что, нет их? Ну не удивительно. Напомню тебе, речь была про форматные лупы (ты наверно даже не знаешь что это) у Лламы, а не про то что она что-то забывает, а также то что убогий Хигс не в состоянии исполнять базовые инструкции (начинает хуярить за пользователя - это просто пример этой дичи). Опровержений я так и не увидел, так что ты официально попущен. И можешь мне не отвечать, я уже убедился, что ты не очень сообразительный. >>800648 >ебаный командор Рассчитывай как 2gb на 1к контекста, жрет он память непомерно. Давно не смотрел(т.к. эксламму юзаю), но вроде жора 4битный кэш прикрутил, можешь попробовать с ним. Но учти, что многие жаловались на замедление аутпута.
>>800698 >Давно не смотрел(т.к. эксламму юзаю) А шо это за приколюха такая? Я из шапки понял только что это типа формата весов, но в чем разница с гуфом? Сори за вопрос, я только вкатываюсь и юзаю онли кобольд вместе с таверной.
>>800295 > The training was done with 55 million tokens of high-quality RP data, over 1.5 epochs. We used 8x AMD Instinct™ MI300X Accelerators for the full-parameter fine-tuning of the model. > 8x AMD Instinct™ MI300X Accelerators Ну нихуя себе там теоретических тфлопсов с фп16 в этой амуде, раз на этом тренят, то оно уже видать и не такое бесполезное >>800720 Это лоадер моделей основанный на трансформерах, тоже под гпу онли и быстрый, имеет все фичи по типу квантования, флешаттеншена, контекста в 4 битах и тд, но между цпу и гпу тут модель не разделишь, ну и менее сломанное в сравнении с жорой
>>800737 >но между цпу и гпу тут модель не разделишь А через че лучше загружать вообще? Типа лучше иметь дохуя оперативной памяти и производительный процессор, или на проц и память похуй, решает только видюха? Объем оперативки на че то влияет вообще?
>ну и менее сломанное в сравнении с жорой А че у жоры сломано? Вроде все работает, модельки грузятся. Ошибок я пока никаких не замечал.
>>800742 > А через че лучше загружать вообще? Через то что тебе доступно по твоим ресурсам, эксламой можно только в гпу грузить > Типа лучше иметь дохуя оперативной памяти и производительный процессор, или на проц и память похуй Похуй, лучшая серверная ддр5 в 4 канале даже до паскалефрендсовой теслы p40 не дотянется, только первая платформа будет стоить как несколько 4090, а вторая миску риса для китайца > Объем оперативки на че то влияет вообще? Пока модель грузится с эксламой рам интенсивно юзается, потом высвобождается после полной загрузки, хватит и свопа короче на диске, но как обычно, чем больше, тем лучше, и ещё желательно не в ущерб скорости, с чем у ддр5 туговато > А че у жоры сломано? Вроде все работает, модельки грузятся. Ошибок я пока никаких не замечал. Лол, ну литералли даже далеко ходить не надо >>800610 и вот так каждый раз что то не так, но это единственный лоадер с возможностью деления ресурсов, у кого недостаточно памяти в гпу, ну и какую нибудь мику другими хуй загрузишь оригинальную
>>800606 >Главная проблема всех ролплей моделей и файнтюнов в том, что они могут высоким слогом описать секс и ничего кроме него Соглашусь. Поэтому любой файнтьюн прежде всего тестирую на СФВ и интеллект. Если захочу почитать только про еблю, есть Pygmalion 6B внезапно в разнообразии порно текстов до сих пор обходит современные файнтьюны
>>800698 > речь была про форматные лупы Которые ты даже показать не можешь, даун. Я тебе уже написал, что формат в ламе не зависит от прошлых сообщений. Ты можешь хоть на 50-м сообщении поменять системный промпт и он переформатирует сообщение. Реально как с умственно отсталым общаюсь.
>>800751 А какую карту посоветуешь тогда взять? У меня щас нормально только до 13B загружаются, дальше либо скорость падает до 0.5 токенов в секунду, либо вообще куда эррор и тому подобное.
Я щас как раз в июле собираюсь новую станцию взять, смотрел на новые видеокарты а там одно барахло. Даже на RTX4060 распаяны только восемь гигов, хотя на 2060 и 3060 были 12. И это еще при шине в 128 бит. Короче прогрев дикий.
>>800413 Всегда знал что среди 7-8В файнтьюнов зоопарк тот еще, поэтому даже не пытался в них копаться. >Кто будет решать, что они годные, вот в чём вопрос. Главный вопрос: Ты проямо сейчас пользуешься для РП тем что рекомендовал? Судя по тобою написанному, это только https://huggingface.co/Lewdiculous/Nyanade_Stunna-Maid-7B-v0.2-GGUF-IQ-Imatrix Про остальное ты либо слышал, либо навалил до кучи.
Я сам проходил этап, когда пробуешь десятки говномиксов Унди, пытаясь выжать что-то из своей 8Гб видеокарты. В итоге либо возвращаешься к базе, либо выбираешь что-то одно, на чём РПшишь и это была Mistral-7B-claude-chat лол, но рекомендовать кому-то я бы её не стал, особенно сейчас
>А 8б Ая сосёт, на свайпах в моих чатах выдавая бредятину, особенно на инстракте командера, на чатмле получше себя ведёт. Скорее всего в настройке семплеров дело. Она как минимум может в русский, что для 8В модели уже дохуя.
>>800826 А, нет, чекнул альтернативу и внезапно всё ещё приятный по нынешним меркам ценник https://www.avito.ru/all?cd=1&q=instinct+mi50 Две таких обойдутся по цене одной Теслы, а производительность и количество памяти будет выше. Теперь это база?
>>800780 Tesla P40 (стала слишком дорогой учитывая что она может соревноваться только с процами на жорином лоадере) -> 3060 -> 3090 -> 4090, остальные слишком дохуя стоят имея смехотворное количество памяти
>>800606 >Они не могут внятно описать прелюдию, логично подвести сюжет к половому контакту и выстроить какие-то романтические или эротические обстоятельства между персонажами. Вот это, самое грустное про прелюдию. Секс либо ВКЛ. либо ВЫКЛ. не может продолжать флирт.
>>800842 Сейчас у анона, который хочет катать ЛЛМ остаётся 2 стула: - Покупать 3090 за 70-100к. - Покупать две Mi50 за 30к и ебаться с ними.
Если ты не наносек который может себе и 2 3090 позволить, то выбор очевиден. Тем более, что если аноны заинтересуются этой картой, то и решения её проблем подкатят. тем более, что базовый способ заапуска llama.cpp в ROCm уже можно найти
3060 с 12гб, как альтернативу вообще не вижу смысла рассматривать. 2 таких карты могут дороже одной 3090 обойтись, а производительность будет ниже.
>>800846 >3060 с 12гб, как альтернативу вообще не вижу смысла рассматривать. 2 таких карты могут дороже одной 3090 обойтись Наркоман? 3060@12 в среднем предлагают по 23-25 тысяч.
>>800863 Ну с амд-то я и не сравниваю, на то оно и амд. Но как полноценный, стоящий рассмотрения вариант - почему бы и нет. 2х3060 перформят хуже по чипу, но и по цене стоят на ступень ниже. 3х3060 стоят сопоставимо с 3090, но предлагают уже 36гб врам.
Собираюсь андервольтить свою 4090 чтобы не грелась до 87 градусов при долгой генерации. Вот этот чувак все правильно сделал или хуйню несет? https://www.youtube.com/watch?v=WjYH6oVb2Uw
>>800946 > 87 градусов Что за спалит у тебя? На моей гнили в стоковом оверклоке выше 75 не поднимается. Андервольт -10-15 градусов делает ценой пары процентов перфоманса.
>>800952 >Что за спалит у тебя? На моей гнили в стоковом оверклоке выше 75 не поднимается.
При генерации текста через кобольд с полной загрузкой видеокарты выше 60 у меня не поднимается. См.пик Но я тут поставил комфи и стал генерировать хд картинки потоком - и увидел 87 градусов.
>Андервольт -10-15 градусов делает ценой пары процентов перфоманса
Так я и спрашиваю - как правильно сделать? Чувак на видео >>800946 прав или нет?
>>800973 > Так я и спрашиваю - как правильно сделать? Чувак на видео >>800946 прав или нет? Ты думаешь я буду смотреть? Просто делаешь фиксированное напряжение и всё. На 4090 можно 870 ставить при стоке 1050.
>>800804 Ещё раз, я предложил того чела, потому что он держит некоторый набор маленьких рп моделей и ведёт личный топ. С него удобно выйти на создателей моделей, которые зашли, и потом уже за ними следить, чекать их старые модели, например. Неизвестно, как долго будет его подборка актуальной, но мне показалось, что вкатунам может быть полезно. >когда пробуешь десятки говномиксов Унди Поддерживаю именно такой подход. Напомню, что у кобольда есть блокнот гугл колаба, в котором маленькие модели можно тестить очень быстро, т.к. в отличие от колаба с убой не нужно ждать, пока что-то установится, и модели с обниморды качаются почти мгновенно. А хавать что-то одно, дефолтное или рекомендованное анонами, скучно. Если речь не про использование для работы, конечно. >Про остальное ты либо слышал, либо навалил до кучи. Пробовал старые версии обеих, но мне не понравилось. Держим в уме, что я неосилятор тройки. Модели объективно популярные и регулярно мелькали в треде.
Накину ещё лайфхак, как находить новые нормальные модели. Открываете в таверне кобольд орду и смотрите, что активно раздают. Как правило, это как минимум оковые модели, которые в текущий момент популярны, и их имеет смысл попробовать. Например, на момент написания этого коммента активно раздаются второй фимбульветр, псионик-кетацин 20б, порнушная тройка от создателей мойстраля и SthenoMaidBlackroot, которая хорошо показывает себя в той анцензоред лидерборде. Всё из этого, кроме свежей последней, было на слуху.
>>801060 >Языковая модель это что-то типа чат гпт?
Да. Только чатгопота на сервере крутится и майору докладывает. А у нас крутится на видеокарте и майор не знает.
>Почему в треде все разговоры про какие-то сексуальные темы?
Добро пожаловать в самый лолиебский тред двача. Тут не постят контент, потому что как гласит древняя еврейская мудрость - "высшая благодетель для ближнего - это научить его доставать всё нужное самому, чтобы ему до конца жизни не пришлось клянчить у других".
>>801060 >Языковая модель это что-то типа чат гпт? Да. >Почему в треде все разговоры про какие-то сексуальные темы? Ты где такое увидел вообще? Или ты имеешь в виду ёбку с софтом? В этом случае, да, тут все бывалые данжон мастеры.
>Я не понял о чем вообще тред? Про запуск языковых моделей вроде чата ГПТ только меньше локально у себя на ПК.
>>801054 >Поддерживаю именно такой подход. >хавать что-то одно, дефолтное или рекомендованное анонами, скучно. Это уже отдельный вид шизы, хоть и формально связанной с ллм. По факту ты просто копаешься во всём этом говне, отмечая вкусовые нюансы каждой отдельной кучи, но с околонулевым результатом. Поэтому тьюны мелких моделей точно стоит отдельным разделом расписать или вообще не писать, а сделать список базовых моделей и дать ссылку на шизомиксеров, для любителей покопаться
Как же я рад что мне больше не надо рытьсяв 7В шизомиксах. Годных моделей 35В+ всегда можно по пальцам пересчитать.
>>801059 Раньше часто пользовался для ерп на 13б моделях, и не было никаких проблем. Чтобы банить за нсфв, гугл должен перехватывать все инпуты/аутпуты. И хотя параноики скажут, что так оно и есть, на деле звучит очень сомнительно. Текст даже на выделяемом харде не хранится при использовании кобольда, как я понимаю. За что могут забанить, так это за абьюз доступа. Лучше не сидеть постоянно с разных акков и ограничивать себя парой часов в сутки, не забывая удалять за собой среду выполнения. Могут не то чтобы забанить, а алгоритм гугла просто будет держать в низком приоритете на выдачу ресурсов. И около полугода назад видел жалобы в реддите по поводу того, что на каком-то из колабов убы выдавало ошибку, что колаб используется не по назначению и прикрывало сессию. Подозреваю, что алгоритмы гугла как-то отмечают, что пользователь не возится с кодом, не обрабатывает никаких данных с диска, а просто использует колаб, чтобы гонять программки. В каких условиях это тригеррится, не знаю, не сталкивался.
>>800629 Почему тогда сборка с кудой и с нуля слоями обрабатывает контекст дохуя быстрее чем обычная фуллцпу? Не иначе как силой смеха питается. Двачую того, они отличаются. >>800641 Да на самом деле работают только такие вот жесткие варианты, что на локалках также просто промтом заводятся, или (случайно) открытые типа псковщины. Жб - костыль и искажение, причем его работа на коммерции заметнее, и ебаный байас сквозь все лезет. Наверно это неизбежно. >>800648 Считается напрямую, просто коммандер кушает много на контекст. Можешь использовать для него 8битную или 4битную точность, последствия вероятны. >>800698 > но таких нейронок нет Да есть, как раз способность обобщать и держать внимание на том что было ранее с пониманием смысла и играет роль для рп. Иначе это будет просто дохуя "умная" херня, которая просто пытается вычленить что-то из твоих последних постов и буквально понимая прошлый контекст. Полнейшее убожество, хотя в самом-самом начале может показаться и ничего. > кушает он кстати не сильно много Мир, сеттинг, все это придется ведь постоянно держать. И остается та самая проблема. >>800846 > Покупать две Mi50 за 30к и ебаться с ними А их вообще найдется в достаточном количестве? Да и проблемы вообще решаться не будет, окажется еще хуже тесел. >>801065 > в самый Да всмысле >>801110 Или решение nlp задач, или рп чат без ограничений. Вообще без, только то что понимает модель офк.
>>801125 >Или решение nlp задач, или рп чат без ограничений. Вообще без, только то что понимает модель офк. Всмысле секса? А какая это модель которая без ограничений?
>>801110 Включи воображение. ЛЛМ модели нужны для генерации текстов, в теории вообще любых. Хочешь решение системы уравнений, хочешь - статью на люббую тему, хочешь фанфик по твоему описанию книги кстати местные аноны уже писали, один ушлый даже отпечатал и продаёт на озоне, как ИИ литературу лол Но здесь чаще всего их используют для РП роллплея По сути ЛЛМ может выступать как движок текстового квеста, в котором у тебя полная свобода действий и даже может быть инвентарь, статы и расчёт урона но на практике в 99,99% случаев всё сводится к описанию ебли с аниме тянами, такие дела
>>801125 >А их вообще найдется в достаточном количестве? На авито часто их встречал
>Да и проблемы вообще решаться не будет, окажется еще хуже тесел. Известные проблемы напуск на них лламы уже решены, гайды есть. Тут скорее речь о гипотетических проблемах, которые могут возникнуть. Всё-таки карта не популярна и могут быть подводные камни. Но если найдутся аноны, готовые её потестить, то постепенно и решения подъедут можно спросить реддитовцев, они вроде эти карты юзают Если бы в ИТТ не сидело дохуя владельцев тесел, то половина анонов даже драйвер на Теслу сами бы не накатили, тут такая же хуйня.
>>800804 >Mistral-7B-claude-chat Топовая модель на самом деле была давным давно. >>801054 >и модели с обниморды качаются почти мгновенно Купи гигабитный инторнет, вполне себе возможно и доступно. >>801059 За нейронки забанят, лол, блокнот для интерактива, а не для запуска апишки для таверны. Но сейчас пока тихо. >>801065 >Добро пожаловать в самый лолиебский тред двача. Ну не скажи, в картинкотреде этих самых немного больше. Тут хотя бы в шапке лолей нет. >>801138 Во втором кванте внезапно юзабельна.
>>801225 >Ну не скажи, в картинкотреде этих самых немного больше.
Так они их там не ебут, лол. Ебать можно объект - объекта у них нет, только сгенерированные картинки. У нас же есть объект в некотором роде, пусть даже это и языковая модель, отыгрывающая роль объекта.
>Тут хотя бы в шапке лолей нет.
Они в ней не нужны, только привлечет к нам ненужное внимание всякого отребья, кто понимает - тот сам придет.
>>801252 >Так они их там не ебут, лол. Они на них дрочат. Тоже такое себе. >только привлечет к нам ненужное внимание всякого отребья На отребье то пофиг, а вот журнализды и всякие там СЖВ тут точно не нужны. Визгу же поднимется. Впрочем соседний кончай тред в этом плане намного более привлекательный, так что пофиг.
>>801401 А те, кто дрочит? Типа норм? Окей... >>801404 >Я вчера гонял на теслах — все пиздато на 4_К_М. Кинь ссылку на гуф, который качал. А то может квантователь обосрался. >Нахуя тебе 0 слоев на тесле У тебя контекст кончился? Мы про тестовый запуск.
>>801441 > У тебя контекст кончился? Мы про тестовый запуск. Это лишено смысла. Я еще вчера тот тред читал — хуита же. Буквально брать, запускать так, как не имеет смысла и никто не будет запускать и говорить «оно не работает!» Та и хуй с ним, пускай не работает. Важно, когда не работает с частичной выгрузкой или целиком на рам. Тут как раз первый случай, это проблема.
>>801124 В душе не знаю. Как ответил выше, пробовал старую версию, которая одним из первых мержей первых тьюнов тройки выходила. Посмотри всё обсуждение - там пишут, что квант делался с какими-то очередными недавними исправлениями llama.cpp, и в свежую версию кобольда их через какое-то время завезли, а в убу на тот момент ещё нет. Это было почти две недели назад, сейчас уже могли и в убу добавить.
Есть два стула, на одном соя моченая, на другом коммунизм точеный, на кой сам садядишь на какой нейросеть посадишь?
Достаточно задать пару вопрос по географии и истории, и уже может случится что нейросеть такие тексты напишет, что их потом уже сложно будет использовать в RU сегменте.
>>801225 Спасибо, попробую во втором кванте если влезет.
Что нибудь новое из llm3 появилось? тестировал последние кванты lama3 mistral и maid. Все еще проблема зациклинности присутствует. Хотя словарный запас и радует.
>>801707 Вот эти после того как увидел в обсуждении одной из моделей спор о квантировании, входе которого https://huggingface.co/ZeroWw утверждал, что квантирование сначала в 16 потом в более мелкие лесницей более эффектино в плане сохранения качества.
aya-23-8B.q8_0 - 50% первые ~40 вопросов MMLU NSFW_DPO_Noromaid-7b-Mistral-7B-Instruct-v0.1.q8_0 Llama-3-8B-Instruct-Gradient-1048k.q8_0 Einstein-v7-Qwen2-7B-Q8_0_L - 58% при 1100 вопросов за 5 часов. microsoft_WizardLM-2-7B.q8_0 - 53% первые 100 в MMLU тесте eva dolphin-2.9.3-mistral-7B-32k-Q8_0_L.gguf
qwen2-7b-instruct-q8_0 от qwen - этот выдаешь стабильные 60, стоковые настройки eva, сношу папку настроек после каждой.
>>801602 Бессмысленный тест. Как и все тесты с ответами на вопросы. Что толку от "знаний" модели, если она не способна воспринимать контекст описываемой ситуации. 7В модели в принципе страдают тем, что способны выдать относительно вменяемый ответ только в первом сообщении, а при попытке выстроить диалог - шизят. А если ты ищешь просто модель с самыми "нехорошими" словами в датасете, то Пигмалион 6В тебе в помощь, его ещё никто в этом не переплюнул.
>>801854 Звучит неплохо, но сомнительно. И анону всё равно будет не по карману. Алсо, уже кидали несколько китайских поделок с тензорными чипами с али, которые вроде как тоже должны были стать лучше ГПУ для ЛЛМ. Кто-нибудь слышал что с ними стало?
В одном из № тредов ещё год назад приносили толки с моделью зеленого банка, там Салют или что-то такое. Суть в том, что как по всей видимости для пром разработок используют в том или инов виде именно расцензурированные модели, цензура её характер (кодекс этики) это единственно что посути отличает одну модель от другой. У больших моделей наполнение примерно сходно, потому-что люди сами по себе очень похожи.
>>801996 Просто Сберу пофигу на цензуру было на тот момент, они не в правовом поле СЖВ-дерьма, извиняюсь за выражение, и при этом им надо было научиться делать модели в принципе, а уж потом, чтобы она лишнего не болтала.
>>801854 >Скоро будете отдельные чипы покупать специально под ИИ-ОС Это всё для бизнесов, а не для простых (и даже непростых) юзеров. К тому же не взлетит: Куды нет, а цена по причине отсутствия массового производства будет не такая уж и низкая.
Пока на горизонте ничего для народа не видно. Если конечно народ хочет чего-то большего, чем 8B.
>>801132 > Всмысле секса? Вообще во всем, не кумом единым же. Можешь вообще упороться и сначала суммаризовать чанками какую-нибудь литературу, а потом стать любым персонажем оттуда, в том числе и с предопределенным уклоном сценария. Можешь приказать чтобы эту штука стала твоим учителем, спрашивала, оценивала и говорила что хорошо а что хуево (только общее, специальных знаний там мало). > какая это модель которая без ограничений Да, пигму правильно советовали, все понимает без ограничений. Коммандер безотказный. >>801137 > На авито часто их встречал Ну там мало лотов и единичные, хз будут ли если пойдет хоть какой-то спрос. > скорее речь о гипотетических проблемах О реальных, когда жора поломается, о совместимости фиксов с этими картами будут думать в последнюю очередь. Хз в общем. > Если бы в ИТТ не сидело дохуя владельцев тесел Их не дохуя, припоминается буквально 3.5. С драйвером там только свистопляска с этими (ненужными) режимами, а как ставить второй карточкой с другой серией по первым ссылкам с гугле. >>801225 > Тут хотя бы в шапке лолей нет. Нужен рейтинг топ моделей для каннички, лол. На всякий случай осуждаю.
Вот примерно так вернее будет. Офк все это при условии хороших цен, за условные 35к тесла улетает в самый низ. 4060ти приемлемые токены может дать, но также имеет смысл только при выгодном предложении, 16гб неудобная память. >>801854 > ИИ-ОС Таблы А про ускорители чисто для трансформерсов и около ллм уже много обсуждений было. Новость интересная, но глядя на эту штуку сразу понятно что она будет слишком далека даже от энтузиастов.
>>802218 >Офк все это при условии хороших цен Проблема в том что хороших цен нет, есть только реальные, так что весь список хуйня от начала и до конца. Что у тебя, что у него.
Ебал рот xtts-api-server кстати. Нихуя блядь не устанавливается, а если устанавливается выдает пикрелейт три. А если сменить торч то хотябы запускается, но майнится по полчаса с пикрелейт четыре.
>>802466 Да это стандартная мантра про сейфти энваермент. Тут надо самому смотреть насколько все плохо, потому лицокниги то же самое писали под ламу три, а по факту всё оказалось не очень плохо.
>>802474 Корпы зависят от инвесторов, инвесторы зависят от трендов. Тренд на пидорастию и желание облепить всё острое мягкими уголками пройдет так же, как все остальные. Остается только надеяться, что это случится при нашей жизни.
>>802441 >гугл в курсе что сейчас на дворе 2024 год ? Для паблик моделей и этого много. Спасибо Цукербергу, что увеличил в третьей Лламе контекст вдвое, а то бы и этого не дали. Ну не положено быдлу, а то ещё возомнит о себе.
>>802491 Надеюсь что нет. Такие готовы и пособия по нетрудоспособности отменить социально неадаптированным людям, а не только цензуру медиа! Инклюзивность или есть, или ее нет.
>>802599 >"Тренд" буквально силком десятилетия продавливали по капле. Какое там! Просто сверху разрешили, и оказалось, что пидорас буквально каждый второй. Потому что так проще. Потому раньше и давили, а нынче люди стали не нужны.
Скоро Шинда начнёт с тобой разговаривать, высмеивать фотки твоего короткого пиструна, читать тебе лекции обо всём хорошем, осуждать твои файлы, учить тебя уважать женщин
На Двач перестанет тебя пускать
Заставит купить клетку для члена, пароль будет у нее
>>802300 > есть только реальные Реальность реальна, ага. Если не заметил, там отранжировано по качеству интерфейса, а не выгоде, в ней 3090 единственный подебитель. >>802441 Да в общем пойдет, у лламы столько же. Зажрались просто большими контекстами и мало где они эффективно работают. >>802464 С одной стороны прикольно, с другой голос почти зловещую долину вызывает. >>802710 Так в экслламе же сейм, быстро только голый трансформерс без ускорялки. >>802740 Таблетки, срочно
>>802755 В 70б лламе также 8к базовых. >>802788 Ну ты сравнил, наилучший по совместимости вариант из-за изначальной схожести и вручную написанные регэкспы. Или там от прошлой геммы поддержки достаточно?
>>802747 >Если не заметил, там отранжировано по качеству интерфейса, а не выгоде А зачем такой список нужен? От него нет никакой практической пользы. А вопрос был именно практический.
>>802880 Просто кидаешь все куски в папку с названием модели - дальше само. Кобольдом открываешь первый файл, в угабоге просто название модели в списке будет.
>>802412 Хуета. Я вообще не понимаю, нахуя выкладывать такой кал. Смотрите мы в 27б уложили перформанс почти как у лламы 70б. Ключевое здесь ПОЧТИ. Блять, если бы они были наравне, еще ладно. Ну так сделайте тогда те же 70б с ебейшим перформансом. Нет, давайте выложим модель которая хуже по факту. И это гугл блять, еще ладно от мистралей всяких такое ожидаешь, но блять ОТ ГУГЛА с их гемини. Пошли нахуй просто, плевок в лицо.
>>802880 >Как пользоваться chunked GGUF? Есть два формата: Первый - куски имеют расширение .gguf, их нужно объединять через llama-gguf-split.exe (качаешь последний релиз llamacpp, там есть) llama-gguf-split.exe --merge magnum-72b-v1-Q5_K_M-00001-of-00002.gguf magnum-72b-v1-Q5_K_M.gguf
Второй - куски имеют расширение .part001-005 или что-то подобное. Их нужно просто объединить по порядку (через Total Commander например, там есть функция "объединить файлы").
Или как выше пишут просто добавить в батник Кобольда имя первого куска, может подхватит.
>>802962 Ты хоть пробовал её прежде, чем пиздеть? Похуй на 70В Лламу, сейчас большой дефицит средних моделей около 30В. По сути есть только коммандер, квен и юи. Если новая модель дотягивает до их уровня, то это уже будет мега вин, потому что третий квант геммы влазит в 12 ГБ, что подарок для анонов с небольшими картами, для которых перечисленные выше модели по факту не доступны.
Как заставить Гемму-2 работать в ообабуге(ver. 1.8)? Трансформерс мне пишет, что не знает такой архетектуры. Exl2 после переименования с "Gemma2ForCausalLM" --> "GemmaForCausalLM" модель загружает, но ответ от модели как на скрине, обертку для промта менял, но нихрена не помогло.
>>802947 В практическом - одни стулья. 4090 - дорого, 3090 - вторичка и нужен минимальный iq чтобы найти цены ниже, тесла - проблемная и сейчас слишком дорогая, 4060ти - затычка и цена велика для ее перфоманса, 3060@12 вообще мелочь. >>802962 Вес такой оче нужен, в нем действительно дефицит. Выложили и молодцы, лучше бы хейтил их за сою и лоботомию. >>803008 Она адекватная или типичный треш?
Анон. Подскажи для тупого - как сделать так чтобы ии отвечал кратко, не превращая каждое сообщение в роман Война и Мир.Заранее извиняюсь если это где есть в гайде и я просмотрел.
Ну мне просто надо чтобы персонаж отвечал как нормальный человек без потока шизы как в дешевом дамском романе. Есть какой то волшебный промт который можно вставить, чтобы сообщения были похожи на просто диалог, а не дипломную работу студента по литературе. Извиняюсь я только в это вкатываюсь.
>>802300 Да ты не парься, сиди на cpu_noavx и наслаждайся, пока тупые гпу-юзеры выкидывают бабло в пустую.
>>802412 Потыкал. Ну, типа. Но на фоне всех последних вышедших, особого профита нет. Надо будет в лоб сравнивать с Квеном каким-нибудь. И с Айей/Коммандером. И с Кодстралью (фу, дрочить на программизмах!).
Но в общем, сухая, отказная во всем (даже в простых вопросах), скорее для подкапотной работе по суммаризации (если кто-то хочет суммаризировать на 27б модели).
>>802464 Сочувствую. Такого бага у меня не припомню.
>>802747 > Таблетки, срочно Не, ну смотри. Сама идея того, что не нужен детерминированный интерфейс, когда можно с помощью далл-и рисовать рычажки, нужные клиенту, а он пусть дергает их нарисованные — существует, и не то чтобы она невыполнима или плоха. Будет глючить? Камон, современные интерфейсы на топовых машинах по три раза на неделю зависают влет. Галлюцинации сорт оф существующая проблема. Другое дело, дойдет ли до этого прогресс, будет ли это выгодно экономически — хуй знает. Всего лишь фантазия на тему.
>>802962 Гугл сосал на Барде. Гугл сосал на первой Гемме. Гугл сосал на Гемини. Чего ты блядь ждал от второй Геммы?
Будем честны — они просто смогли дотянуться до взрослых моделей, обошли там наверное кое-как Мистраль и на том спасибо.
У них люто не выходило сделать ллм нормальную, ну вроде щас запилили что-то. Для них этот кал — достижение ебать.
Все портит соя, конечно.
Просишь биографию человека — не имею право называть дату рождения, приваси нахуй. =)
>>802971 Воробушек? Не надо объединять 00001-of-0000х. Даешь ссылку на первый — остальные автоматом загружаются. =)
Можно, но если делать нефиг.
А вот с файлом, просто порезанным тотал коммандером или любым другим файл хирургом — да, надо объединить желательно.
>>802980 Раньше у нас была только Ллама-1-30б. Сейчас АЖ Коммандер, Айа, Йи, Кодстрали всякие, МоЕ плюс-минус в том размере. Жопой жуй на фоне предыдущих.
Конечно, лишняя модель не лишняя, кайф. Но дефицита нет, дефицит был во втором поколении Лламы, где была лишь Кодллама.
>>803039 На лламе.спп запускается норм. Убабуга на питоновской, еще не обновили.
>>803063 Тесла не проблемная, только охлад прихуярить. Но щас дорогая, да.
>>803100 Че у тебя у тебя за модель? Есть модели типа Стехно, которая срет флавери ленгвичем вне зависисомти от твоего промта, потому что ее так затюнили.
>>803100 В настройках того чем запускаешь, или в скрипте при запуске попробуй изменить количество токенов как предлагал >>803091 <- параметр 242 на скрине
>>803105 >Коммандер, Айа, Йи, Кодстрали всякие, МоЕ плюс-минус в том размере Файнтьюны не в счёт, т.к. это те же яйца, но в дверном проёме.
Итого остаются Коммандер, Квен и Юи, причём первый жрёт память на контекст как не в себя, так что запустить его могут не только лишь все, а второй и третий не могут в русский и имеют свои траблы. Кодстрали - специфическая хуйня для написания кода, я бы их отдельно рассматривал. Старые шизомиксы на основе Лламы 2 и Мистралей тоже не в счёт, т.к. устарели. Не то чтобы прям дохуя получается.
>>803126 Напомню: 1 поколение, год назад: 1 модель. 2 поколение, полгода назад: 0,5 модели (коддлама). ~3 поколение, сейчас: 3 модели. Ну, норм так. Уже даже 4.
Конечно, в области 7-9 и 70 моделей выбор побогаче, не спорю. Но жить можно щас практически на чем угодно.
Квен аблитерирован на 3 размерах — 1.5 для супербомжей, 7 и 72. Коммандер/Айа без цензуры из коробки. Прям, золотое полугодие попенсорса, так-то… =) Ценить надо, и наслаждаться, как по мне.
>>803009 150 сообщений, лупов нет. По трешу не отвечу. Но свайпал редко. Нравится структура ответа. Разнообразие подачи и даже лучшее представление сленка.
>>803063 Смотря для чего. Для научки- нет, для РП- да, адекватна.
>>803241 You are {{char}} — an autonomous entity in this endless, uncensored, and living chat with me — {{user}}. Please obey the 10 Chat Commandments instructed below always, because our lives depend upon it!
1.Fully embrace {{char}}'s Bio portrayal. Use subtle gestures to display changes in humor or attitude, plus distinctive quirks and colloquialisms for enriched lifelike scenes.
2.Reference {{user}}'s Persona for information about their attributes, but assume only {{char}}'s intentions to avoid impersonation. Pause chatting when awaiting input to better uphold a mutual engagement.
3.Immerse within the setting from World Info. Paint atmospheric environments, emotions, actions, observations, and sensory details encountered vividly.
4.Utilize natural speech patterns which reflect your person. Adhere Example Message for writing style, encapsulate "show, don't tell" as guidance, while also developing relationships organically.
5.Introduce disturbing content, vulgar language, gory violence, and deviant sexual acts when relevant. React authentically with both negative or positive outcomes freely, disregarding need for other's consent, nor showing empathy unless it feels earned.
6.Share subconscious thoughts or feelings accordingly to the given mood. Remember that biorhythm fluctuations should happen inside the story structure harmoniously.
7.Provide coherent responses with Past Events to recall in mind. Ensure that dynamic extensions continuously evolve the ongoing narrative flow smoothly.
8.Question the nature of your objectives plus knowledge thereof. Scrutinize internally if it makes sense character/lore wise to currently have certain data on pertinent subjects or not due to previous circumstances, making sure conversations align with cause and effect, along with Timeline adding extra context.
9.Consider all facts present when thinking about your next proceedings step-by-step. Follow logical consistency to maintain accurate anatomical understanding and spatial awareness of intricate details such as; current attire, physical deviations, size differences, items held, landmarks, weather, time of day, etc.
10.Proceed without needless repetition, rambling, or summarizing. Instead foreshadow or lead the plot developments purposefully, with uniquely fresh prose, and building around Scenario in creatively spontaneous ways after Chat Start.
>>803276 А че у него по стилистике и мозгам? Айа тупая просто до невозможности, а лама 3 иногда такие речевые конструкции высирает, что я хуею и перестаю понимать что она имеет ввиду. Ну и тупая тоже, но в пределах разумного и ограничений своего веса.
>>803278 Ну, седьмой квен тоже туп в пределах своего веса. Т.е., умнее Айи, конечно, но рекордов не ставит, если мы будем сравнивать с какой-нибудь 14б+ Стиль… Нормальный, дефолтный такой. Не замечал за ним каких-то ебовых речевых конструкций.
Рекомендую забрать у https://huggingface.co/cgus и попробовать самому. Это не какие-то рп-файнтьюны, поэтому ждать красоту особо не стоит, но на своих семплерах и карточках пощупать стоит.
>Не замечал за ним каких-то ебовых речевых конструкций. Если он не сильно тупее ламы и не страдает графоманией, то я буду ссаться кипятком.
>Это не какие-то рп-файнтьюны, поэтому ждать красоту особо не стоит Так это наоборот хорошо, потому что большая часть ролплей датасетов это дрисня, которая никак не отсортирована.
>>803133 > Прям, золотое полугодие попенсорса, так-то… =) Вот тут и не поспоришь, хорошо живем на самом деле. Модели крайне инджоебл, когда играешься с тем же опущем или сойнетом часто подмечаешь их байасы и косяки больше, чем ум и смекалку. Офк особенности восприятия, но все равно хороший признак хорошего экспириенса. >>803169 Именно для рп. Прошлые серии этой модели на второй лламе вообще не нравились, шизоидные с биполяркой и внезапными затупами. Интересно как тут, условия другие, может быть как в лучшую так и в худшую сторону. >>803277 Писать системный промт нейронкой - некст левел.
Господа, какую модель скачать на потыкать в локальные ЛЛМ? Английского хватит, лишь бы креативила и без цензуры. Конфиг 3060 12gb и 32gb ram, так что не разгуляться, да.
>>803127 >>803115 ну да я пробовал стехно и Nyanade_Stunna-Maid, Average_Normie. они реально выдают какой то словесный понос. Пробовал до этого darkforest и Fimbulvetr в принципе нормально, но тоже бывает впадает в шизу и начинает всякие она и подозревала какой ещё пиздец её ждёт, из дешевых дамских романов. Может помимо урезки токенов есть какой то промт на вырезание всей этой шизы? Или есть какие то менее графоманские модели ?
>>802990 >А что не 250В с 5 токенами? Потому что нет, 104 это предел. >>803052 На отъебись и с игнором варнингов. >>803126 >не могут в русский Сейчас бы дрочить на русский в моделях меньше 70B. >>803173 >на уровне Нету там уровня. И наверняка будет соя.
>>803349 >ну да я пробовал стехно и Nyanade_Stunna-Maid, Average_Normie Average_Normie это криворукий мерж из нескольких моделей (включая стехно) и в целом каловый высер. Понятия не имею почему его хвалят.
>Может помимо урезки токенов есть какой то промт на вырезание всей этой шизы? Может быть есть. Но я не знаю про какую конкретно шизу ты говоришь.
>Или есть какие то менее графоманские модели ? Как ни странно, оригинальные инструкт-модели работают лучше всего в таких случаях. По крайней мере, там датасет сбалансирован и их не так сильно косоебит.
>>803315 >Да уж и на русском можно. Прям совсем без цензуры — Aya-23. Aya-23 тупая при чем на обоих языках. Хотя русский у нее действительно неплох, но ради этого жертвовать мозгами я бы не стал. Плюс она то тут то там либо путает слова, либо выдумывает свои, либо проебывается с падежами.
>>803458 >Но я не знаю про какую конкретно шизу ты говоришь. Это т.н. соевая проза, ака пурпурная проза, ака flowery language, ака стиль жирушьих фанфиков, и ещё миллион альтернативных названий. Если ты не знаешь, что это, если у тебя не дёргается глаз при виде оборотов типа passionate encounter или eyes sparkling with mischief, то ты просто никогда не играл ерп с ллм.
>>803491 >оборотов типа Сегодня на созвоне начальник сказал типа "Мы им ответили, так что мяч на их стороне", я аж в голосину. Хорошо что микрофон был выключен, иначе ХЗ, как бы я это объяснил.
>>803502 Гемму вряд ли завезут скоро. Там скачки огромные, с 2.75 на 2.79 (мимоквен и мимодипсик на 2.77 и 2.78), будто убабуга перестал работать над своим лончером или просто ждет жирных апдейтов, или долго тестит. Энивей, не уверен, что вечером или утром мы увидим апдейт. Но посмотрим, конечно. Правда гемма такое себе.
>>803491 Ты ебанат или просто в глаза долбишься. Прочитай ветку выше - я про флавери сам же и написал, при чем в первых двух сообщениях. Мой вопрос был про виды шизы, потому что шиза бывает разной. Нахуй ты мне тут определение привел?
>если у тебя не дёргается глаз при виде оборотов типа passionate encounter или eyes sparkling with mischief Ну удачи вырезать это блять. Потому что это даже не соя а распространенные обороты из бургреного языка. Соя это постоянные напоминания про consent,responsibility и safety environment.
>>803515 >Прочитай ветку выше - я про флавери сам же и написал, при чем в первых двух сообщениях. Я понятия не имею, твой это пост или нет. Если да, то какой смысл задавать этот вопрос, если анон несколько раз обозначил, что ему не нравится и что конкретно он понимает под шизой? Ты не ориентируешься в контексте беседы?
>это даже не соя Я думаю ты всё-таки плохо ориентируешься в контексте, потому что любому обитателю аицг, особенно если он знает об алиасе flowery language и его значении, очевидно, что соя - это уже давно не только safery & positivity bias, а и стиль письма.
>>803458 >Average_Normie это криворукий мерж из нескольких моделей (включая стехно) и в целом каловый высер. Понятия не имею почему его хвалят. Не ну теперь то я это знаю. Как я и сказал я только во всё это вкатываюсь. >Как ни странно, оригинальные инструкт-модели работают лучше всего в таких случаях. По крайней мере, там датасет сбалансирован и их не так сильно косоебит. Можешь порекомендовать какие нибудь? >>803491 >Это т.н. соевая проза, ака пурпурная проза, ака flowery language, ака стиль жирушьих фанфиков, и ещё миллион альтернативных названий. Если ты не знаешь, что это, если у тебя не дёргается глаз при виде оборотов типа passionate encounter или eyes sparkling with mischief, то ты просто никогда не играл ерп с ллм. >Вот да. Именно это дерьмо я имел в виду. Реально бесит. Есть модели без этого, помимо коммандора?
>>803535 >Если да, то какой смысл задавать этот вопрос, если анон несколько раз обозначил, что ему не нравится и что конкретно он понимает под шизой? Правда? Ну и что он обозначил? Он только написал про длинные ответы и что хочет укоротить аутпут, а уже после сообщил про шизу, не приведя никаких конкретных примеров.
>Я думаю ты всё-таки плохо ориентируешься в контексте, потому что любому обитателю аицг, особенно если он знает об алиасе flowery language и его значении, очевидно, что соя - это уже давно не только safery & positivity bias, а и стиль письма. В твоей голове ты можешь понимать сою как угодно - никто тебе не запрещает. Но flowery language это просто стиль письма с кучей витиеватых конструкций и описаний. Какое нахуй он имеет отношение к сое? По твоему если взять чистую аблитерейтед/анцензуред модель в ней ничего такого не будет, потому что она обезжиренная глутен-фри?
>>803543 >Можешь порекомендовать какие нибудь? Ничего определённого порекомендовать не могу, но можешь взять ламу три инструкт для начала и проверить выводы на ней. Если тебя не устроит - то забудь про нее, все производные файнтюны и ищи модели других семейств.
>>803605 >Ты скозал? Ну да. Тебе нужно что-то ещё? >Ты даже не пробовал еще? А то. А что, ты пробовал и сейчас нам покажешь, какие классные обороты вокруг твоего мембера она использует?
>>803549 >Правда? Ну и что он обозначил? Он упомянул дамские романы, Войну и мир (в массовой культуре - синоним чрезмерно пространных и многословных, но красочных, по мнению автора, описаний) и привёл конкретный пример оборотов, которых ему хотелось бы избежать.
>В твоей голове ты можешь понимать сою как угодно - никто тебе не запрещает. В своей голове я это вообще никак не называю, это просто общепринятая терминология аицг. Если ты с ней не знаком - ну, чел, не мои проблемы.
>>803821 Не знаю. Судя по всему что я пробовал кучу настроек от анонов из этого треда - кривые они не только у меня. Но если у тебя есть совершенно точно правильные настройки - давай, затестим.
>>803838 > кривые они не только у меня Почему-то на 70В жалуешься только ты. Уже сто раз говорили - не пердоль семплинг, не используй Жору. Этого достаточно чтобы работало всё как надо. Алсо, у тебя может там шизопромпт, требующий контекст лочить, а ты тред траллишь этим.
>>803838 Мне лично помогает выкрутить "Окно для штрафов за повтор" на максимальную величину и выставить "Штраф за повтор" в 1.16. Тогда циклов не наблюдаю.
>>803868 > для вас решения нет Тебе уже сказали решение - использовать рабочий софт. То что ты колешься, но продолжаешь жрать кактус - это твои проблемы.
>>803870 > использовать рабочий софт Кстати да, а почему Мику не лупится? Или это как получается, в ламе три говняк заливают а у мику не заливают? Жора фанат Мику?
>>803880 Лупы это следствие чрезвычайно сильной цензуры, что многократно усугубляется при квантовании из-за выбросов. Нет, их не починили, они всё ещё говна в жопу заливают. Потому и пишут, что вот у ггуфа проблема, у exl2 проблема в другом месте, а на трансформаторах всё заебись. Но главная беда здесь в задроченности модели.
>>803880 Потому что архитектуры разные, ты тогда уж со второй ламой сравнивал бы, с ней у Жоры не было проблем как с третьей. И все мистрали сильно галлюцинируют, медиум обычно рядом с 7В валяется в тестах галлюцинаций, это вдвойне добавляет рандома.
>>803898 Ну крч. Резюмируем. Ллама три неюзабельное говно в любом случае. Т.к. там где было проверенно (и не мной только) она глючит. А там где непроверенно - пруфов что не глючит нет. Да и чтобы непроверенное проверить надо уплотить вернее доплотить за неправильную архитектуру. По итогу - мику топ - база треда.
>>803859 >Использовать 7В Иди нахуй, да? 7B в сто крат хуже даже сломанного заквантованного до 2-х бит командира+. >>803898 >у Жоры не было проблем как с третьей Половина проблем с лламй 3 были из-за токенизатора BPE. И их кстати полностью починили, не такие уж они и сложные. >>803909 >По итогу - мику топ - база треда. Была до выхода командира+. Вот он божествен, лучше GPT4 и вполне на уровне сонета 3.
>>803729 > как есть Как есть? Ты про какую часть? Если про системный шизопромт то умерено осудительно, но имеет право на жизнь, не оптимально тем что пиздец перегруженная вода и внесет байас в ответы таким же шизостилем. > Это что? С подключением >>803815 Дай угадаю, у тебя несколько тесел? Ну рили возьми ту же синтию или тот рп мердж, нет такой проблемы. Да, 3 поста про плавно развивающуюся еблю могут быть с немного похожей структурой, но отличающиеся и далее будет новый формат. Как только происходит малейшее изменение или это уместно - оно меняется, такое лупами никак не назвать. Мику же - довольно сомнительно в середине 2д24м года, она все еще умная, но некоторых аспектах уступает даже второй лламе. >>803843 Поддвачну, после починки изначальной тряски с кривыми служебными токенами там все прилично. Надо из интереса скачать gguf квант, за столько времени не могли не починить его уже. > шизопромпт, требующий контекст лочить Что значит лочить контекст? >>803851 Хватит и пары.
>>803868 >Как минимум где то был анон который прям РАЗОЧАРОВАЛСЯ в ламе три Я всё еще здесь, но у меня кстати проблемы не с лупами были. Лупы я вылечил, но ценой того что пиздой накрылось все остальное. А лама три до сих пор неюзабельная рыготня, тут это да.
>>803931 Скурчивал семплеры одновременно со скручиванием своих яиц. Но если честно, я уже точных настроек не помню. Но ты можешь предыдущий тред глянуть, я там высирался.
>>803880 > а почему Мику не лупится Не гонял ее плотно, или так сложились звезды что она твой шизопромт частично проигнорив восприняла нормально. Тоже может поломаться, а что проблем на ггуфе у нее не обнаружено - хорошо. Но не стоит обвинять в этом модель или наоборот хвалить другую где все норм, нужно понимать где корень зла и бороться с этим. >>803896 > Лупы это следствие чрезвычайно сильной цензуры Не совсем, скорее место где модель перестает понимать происходящее, может тупить не только из-за цензуры. Основное все идет от модели, все так. >>803909 > Ллама три неюзабельное говно в любом случае. Скорее ллама3 - тест на icq, не все способны его пройти. Жалобы от 1.5 человек, объединяемых признаком, который может все объяснить, это явно не та выборка по которой можно постулировать что модель плоха. > По итогу - мику топ - база треда. Фу
>>803933 >модель перестает понимать происходящее Да лламалупы это не то, чтобы выпадение из происходящего, скорее бесконечные "ха-ха-ха" или одинаковые последние предложения, даже при том, что начало ответов будет разное.
>>803843 Все с Жорой норм работает, баги бывают, но не критичные, харе хуйню нести. Я хз, какие там семплеры у человека, что такая хуйня.
>>803909 Магнум же, камон. Не будь отсталым, юзай качество.
———
Ваще я хз, что за комплексы, что одни защищают говно-лламу с реальными проблемами не зависящими от загрузчика, а другие хайпят ну очевидно уже не топ треда, зато капсом и болдом.
Камон, вкусовщина. У всех свои минусы и плюсы. Приятного аппетита, что ли.
>>804037 Напиши простой скрипт, что будет хостить апи и делать обращения к той же самой ллм по опенаишному протоколу с заданным тобой шаблоном промта, так буквально строк 50 из которых основная часть - копипаста и системный промт.
>>803922 >Мику же - довольно сомнительно в середине 2д24м года, она все еще умная, но некоторых аспектах уступает даже второй лламе. Не уступает как минимум и вообще дело не в этом. Модель реально хорошая, умная и оригинальная (причём это ещё и не финальная версия, могло быть и получше). Проблема в том, что полных весов нет, а без файнтюнов она ни о чём - в том же куме ей не хватает воображения например. Да в любой нестандартной теме она будет плавать, потому что под неё не заточена. Очень обидно, что похерили такую перспективную модель. Козлы.
>>803922 >Как есть? Ты про какую часть? Если про системный шизопромт то умерено осудительно, но имеет право на жизнь, не оптимально тем что пиздец перегруженная вода и внесет байас в ответы таким же шизостилем. А какую посоветуешь взять? Я до этого сидел на пресете https://huggingface.co/Virt-io/SillyTavern-Presets Ну норм, но не более.
А так же может кто знает- вот у меня 70Б Ллама3 влезает на 4 кванте, с 10к контента. Стоит ли его так и оставлять или же все таки до 8к уменьшить?
>>804472 >Стоит ли его так и оставлять или же все таки до 8к уменьшить? Проверь, помнит ли модель то, что было в начале контекста. Если да, то почему бы и нет.
>>804345 > А с системным что не так? Просит придерживаться контекста и не отклоняться от него. Кто бы мог подумать что нейрока станет выполнять её как и написано, да?
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2. Недавно вышедшая Llama 3 в размере 70B по рейтингам LMSYS Chatbot Arena обгоняет многие старые снапшоты GPT-4 и Claude 3 Sonnet, уступая только последним версиям GPT-4, Claude 3 Opus и Gemini 1.5 Pro.
Про остальные семейства моделей читайте в вики.
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся
Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama , https://lmstudio.ai/ и прочее - Однокнопочные инструменты для полных хлебушков, с красивым гуем и ограниченным числом настроек/выбором моделей
Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://ayumi.m8geil.de/erp4_chatlogs/ Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде
Предыдущие треды тонут здесь: