В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2. Недавно вышедшая Llama 3 в размере 70B по рейтингам LMSYS Chatbot Arena обгоняет многие старые снапшоты GPT-4 и Claude 3 Sonnet, уступая только последним версиям GPT-4, Claude 3 Opus и Gemini 1.5 Pro.
Про остальные семейства моделей читайте в вики.
Основные форматы хранения весов это GGUF и EXL2, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGUF весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту: https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
>>825173 → >Один ты тут триггеришься >ррряяя я не рвусь эта ты врьёшься!!111
>>825175 → А в сарказм ты не умеешь Хочу 4090 с такой мотнёй, но чтобы можно было заменить на нормальные 3х8, а не ту горелую 12 пиновую парашу. 4090 вообще с нормальным разъёмом есть?.
>с нормальным разъёмом есть Дефайн нормаальный. Нафиг этот соплестрой с куче 6+2 тебе потом 600Вт в 5090 по нему заливать ещё. Просто взять нормальный широкий корпус один раз и вообще в ус не дуть. Главное же, чтобы стенка не гнула разъём. А если от стенки до кабеля ещё пара см, то ничего плохого не случится.
>>825196 >всего лишь 8 месяцев назад тесла стоила 17к Я по весне успел отхватить P40 за 15к на Авито, как-то удачно подвернулось. В прошлом треде постили ссылку на продавана AliExpress, где было за 24к (хотя бы!). Сейчас, наверное, проще взять б/у RTX 3090 за чуть большую сумму.
>>825201 → >в третьей лламе недообучены все слои, кроме слоёв cелфатеншона Лол, и это 15Т токенов датасетов. >сравнивают их с RNN сетями, мол, только там мы добрались до потолка А какие там максимальные размеры у рекуренток? >>825214 Имиджборды, сэр. >>825215 >Нафиг этот соплестрой с куче 6+2 Оно хотя бы не горело, и в нём не уменьшали площади контакта хуй знает с какой целью. А так самый нормальный это CPU который, 8 рабочих контактов, 200 ватт мощности, и 2 штуки максимум на видяху, ибо ебал я современные кековатные калориферы. >Просто взять нормальный широкий корпус У меня с корпусом всё нормально. И блок питания титановый. Но блядь без этих новомодных уёбищных разъёмов, ага. >>825220 >продавана AliExpress, где было за 24к Там такой мутный продавец, что проще сразу деньги сжечь.
>>825220 Должно что-то новое появиться. С АМД-картами совсем всё глухо? Я слышал про vulkan как неплохую альтернативу CUDA хотя бы для инференса. Не уверен конечно.
>>825260 >Должно что-то новое появиться Кому должно? По сюжету прописано что ли? >>825263 >3.1 8b резко улучшила все характеристики А 70-ку выкатили? >>825272 >MMLU на уровне, MMLU Pro отсос Вангую просто загрязнение данных, 405B втупую может выучить все тесты не напрягаясь.
>>824815 → > Сходил бы к врачу Ты сходи к врачу, обосранец. На вопрос как это относится к предмету обсуждения - перекаты, когда тебя опять возвращаешь к предмету - вот эта шиза. Мамкин маневратор, чего только не придумает чтобы не отвечать и свернуть с неудобной темы. >>824855 → > третья ллама должна развёртываться исключительно совместно с тремя соефикаторами Это же замечательно, значит в стоке сои минимум. >>824865 → Всем лень. Отдельные люди занимались но делали субъективные/ошибочные/специфичные чарты и оценки, типа > плотности хорни-слов , оценки "iq" по какой-то припезднутой карточке, тесты немецкого, попытки в рп без семплинга и подобное. Это множится на большое количество выходящего треша в 90% случаев поломанного и мало отличающегося между собой, что заведомо заставит ставить все это на поток в попытке угнаться за актуальностью. Так что можешь сам попробовать заняться >>824871 → > >пиздёж за юзера, для инструкт-моделей Это проблемы рук юзера, который не может настроить промт формат, или совсем ушатанная модель.
>>825214 Он большой молодец и сложно с этим спорить. Но частенько косячит.
>>825238 >Лол, и это 15Т токенов датасетов. Опять же, это может быть ошибочным выводом. Я же не специалист уровня парней из меты. Даже если это так, то тут сложная ситуация - некоторые слои обучены, некоторые - недостаточно. Морозить часть и обучать остальное? А будет ли профит? Насколько близко модель к оверфиту мне было уже лень смотреть, как-нибудь доберусь. >А какие там максимальные размеры у рекуренток? Они хуёво параллелились, вряд ли было что-то сильно больше 10b. Не так давно был мутант rnn с трансформерами, 14b, авторы говорили, что это самая большая rnn, которая была натренирована за всё время.
>>825307 Ниоткуда, это способ подтяжки модели по тем моментам в которым она плавает, а не преодоления элайнмента. Для этого тебе надо её учить плохим словам сначала, на сыром датасете.
>>824972 → > Только вроде кажется что всё норм и тут же модель начинает повторять в каждом сообщении фразы. Платиновый вопрос ггуф ли это? > случайно найденый сетап с какой-то из mlewd Там, как правило, с альпакой-ролплей катали. > работающим пресетом и моделью до 35b Коммандер и пресет коммандера, внезапно. Гемма и пресет геммы, или модифицированный инстракт с жб из прошлого-позапрошлого треда. >>825165 → > речь-то про домашние запуски Так это из дома, берешь и запускаешь, в чем проблема? > что там у тебя дома 2-3 токена на 100 гигах выдает Могу устроить абсолютное мужское слияние на 144гб врам >>825164 → >>825175 → Это самое беспроблемное что в ней есть. Однорядные малонагруженные разъемы, ерунда. То ли дело всратый охлад врам, которая в стоке перегревается, запараллеленные фазы с неудачными элементами и прочее. >>825214 Он ебаная мессия, но в то же время кривохуй который постоянно косячит. Такая вот многогранная личность. >>825263 > 128к токенов из коробки Круто ведь. Надо только потестировать насколько оно адекватно будет обрабатывать хотябы простое извлечение факта.
>>825322 >Это проблемы рук юзера, который не может настроить промт формат Нет, это следствие - тренировки на неправильном формате ролеплея - внутриконтекстного обучения. Случайно попадёт пиздёж за юзера в ответ - и эта хуйня начнёт повторять. Все РП модели пиздят за юзера в той или иной степени, это отбивается именно специфической тренировкой
>>825322 >чего только не придумает чтобы не отвечать Я могу повторить твой манёр и сказать - пиздуй ищи ответы сам, там где-то были, толи в дискорде, толи в телеге. Мне уже лень доказывать что-то человеку, который не понимает элементарных вещей. >как это относится к предмету обсуждения Действительно, как же относится замена в формуле ранга на корень из ранга, когда мы обсуждаем соотношение ранга к альфе?
>>825336 Ну типа да, это и вкладывал в ушатанную модель. С выходом 3й лламы приличных тюнов что были бы адекватны совсем единицы, увы. Базовые модели хороши, с ними можно вполне взаимодействовать и таким не страдают. > пиздят за юзера в той или иной степени Скорее отыгрывают молчаливое согласие или иногда продвигаются дальше чем нужно, если речь про нормальную. Например, прочишь чара сделать тебе завтра или кофе, оно может написать от > вот чар идет на кухню и приступает в нарезке овощей ... до > хуяк хуяк вот крутой аромат доносится с кухни и уже тебе принесли блюда которые ты начинаешь кушать Первое может показаться слишком медлительным и безинициативным, второе наоборот, это вкусовщина, проявляется и на коммерции. Потому, если знаешь что хочешь совершить какое-то действие - или свайпаешь пока не получишь нужное, или пишешь > шепчет на ухо "Тогда иди закрой дверь на замок" следует за ней (ooc: остановись на моменте когда она закроет дверь). >>825341 Вот теперь давай объясняй, каким образом эта выдернутая строка относится к тому что нужно ставить альфу х2 от ранга и к тому что ее вообще нужно как-то привязывать к рангу, а не ставить константой. Предвосхищая очередные маневры - это лишь опциональный флаг и задуман для другого, потому и зависимость не линейная, про которую ты пытаешься имплаить, а корень. Давай, просто объясни это, чтобы мы опять полюбовались твоей повальной беграмотностью.
>>825309 >3-х битный квант >таверна с русеком Это просто ты необучаемый. >>825327 >Морозить часть и обучать остальное? Проблема в градиентном спуске, он просто даёт слишком малые коэфициенты коррекции к дальним от входа слоям. Тут разве что обучать модель с меньшим числом слоёв, а потом бахать сверху ещё пачку. >>825327 >Не так давно был мутант rnn с трансформерами, 14b Случайно не RWKV? Я её даже запускал, лол. >>825329 Проснись, сингулярность, ллама 3.1 уже устарела, ведь вышел фанатский тюн от васяна.
>>825359 > Это просто ты необучаемый. Забыл еще полностью отключенную отсечку в семплерах > он просто даёт слишком малые коэфициенты коррекции к дальним от входа слоям Наоборот типа, но оно не особо существенно же. И послойный/поблочный множитель для этого добавляли, вроде даже в тред скидывал статью. > от васяна От рем_х_левд_хорнирп_товрожок
>>825362 >И послойный/поблочный множитель для этого добавляли, вроде даже в тред скидывал статью. Прям добавили, или очередной препринт без внедрения в сетки? А то если разом все препринты добавить, то тут сразу AGI появится нахой.
>>825332 А хочется именно разнообразия, чтобы все не скатывалось к самым банальным тропам из всех возможных. может не сразу грандиозное, а например буст к отыгрышу конкретного архетипа или сеттинга
>>825212 → Интересно, а то я, по нейрал-тюнам, считал, что синтетика — это когда данные сгенерены другой моделью. И по качеству нейрал-тюнов синтетика выглядела максимально убого. НейралГермес был максимально скучной моделью. А оно вон оно шо оказывается…
>>825189 Ну если ты не способен воспринять очевидный рофл — это твои проблемы, чел. =) Реально ж, один ты рвешься, причем хуй пойми с чего, тупо с шутки. Ты предупреждай, что тупой, я не буду в следующий раз шутить, чтобы не обидеть.
>>825214 Он не выполняет хотелок хейтеров, очевидно. И железо у него не то, и подход не верный, и пишет плохо, всем плох!.. =)
>>825238 > проще сразу деньги сжечь Ну, Алик, если шо деньги бы вернули, не? Давно не покупал, а когда покупал — проблем с возвратом было в разы меньше, чем с нынешними озонами и яндексами.
>>825272 Но есть две проблемы. 1. Ты не запустишь это у себя. 2. Если запускать на проф.железе, то выйдет дороже. …
>>825327 > Я же не специалист уровня парней из меты. Судя по апдейту лламы-3 — даже парни из меты не специалисты уровня парней из меты… =)
———
128к контекста, конечно, круто. Но, во-первых, как писали выше, хрен его знает, настоящие ли они. Во-вторых, ллама 3.0 была заметно сломана (давеча гонял модели — и на трансформерах и эксл2 она так же тупит с ssistant и формативрованием из-за кривого обучения на двух еос-токенах, один из которых типа пад, короче, обосрались они там в оригинале), и насколько работоспособна 3.1 — пока не ясно. может и там косяки. В-третьих, использование с тремя софикаторами тоже… Не доказательство, что внутри минимум сои, к сожалению.
Так что, радоваться раньше времени не стоит. Пусть это все нормально заведется, а уж там и посмотрим. =) Надеюсь утром поимеем рабочие кванты, а может и аблитерацию подвезут.
>>825374 > она так же тупит с ssistant и формативрованием Чел, достаточно просто выключить пропуск системных токенов. Никаких проблем нет с этим, если используешь как в оригинале. Уже столько времени прошло, а до сих пор кто-то не умеет пользоваться ламой.
>>825366 > или очередной препринт This, было уже относительно давно, там был показан возможный эффект и простая реализация. Но воспринят был холодно, хз вводили ли, тут даже про то как тренируется самая открытая ллм не рассказывают особо. > если разом все препринты добавить, то тут сразу AGI появится нахой Содомит >>825368 > хочется именно разнообразия logits bias еще оче давно для этого придумали, и в локалках, и у корпоратов. > буст к отыгрышу конкретного архетипа или сеттинга Промт, можно завуалировано. >>825374 > не выполняет хотелок хейтеров Ага, кляты хейтеры на регэкспы бузят тут! > железо у него не то У него как раз то, на маке не жалуются. А может просто хавают что есть ибо привыкли. > ллама 3.0 была заметно сломана Был мелкий косяк с конфигом, все. А так она явила косяки в лаунчерах и подорвала пердаки жора-зависимых. > эксл2 она так же тупит с ssistant Только с неверными конфигами, это быстро пофиксили. Хз про что ты говоришь, проблемы первой недели быстро исправили и оно работает интересно.
>>825388 > logits bias еще оче давно для этого придумали, и в локалках, и у корпоратов. и что это за разнообразие, больше слова пук, меньше среньк? > Промт, можно завуалировано. про промпты вот не слышал, спасибо, обычно просто с ассистентом рпшу
>>825379 Все несколько наоборот. =) Поверь, как раз я знаю о чем говорю. Я же написал > в оригинале Пофиксить-то можно, я этим и занимаюсь, но только факт в том, что они обосрались. Если для работы ты должен применять модель не так, как тебе предлагают авторы — значит авторы предлагают тебе херню, согласен? ) Ну ты читай внимательней, пожалуйста.
>>825384 Ну, в таком случае и правда не стоит рисковать с мутными продавцами.
>>825388 > Был мелкий косяк с конфигом, все Ну как «был». =) Модель никто не поправлял, она обучена косячить. Повторю мысль выше — то, что мы это можем починить костылем пост-фактум не делает модель хорошей в моменте обучения. Причинно-следственные связи, действия в будущем не влияют на прошлое, вся хуйня.
Проверить просто — берешь и качаешь голую модель. И не применяя фиксы пробуешь юзать. Хоба — шиза и ассистенты. Ясен пень, что при квантовании я чиню конфиги, и заливаю уже чиненную модель. Но это следствие, а причина — проеб разрабов.
Именно поэтому я допускаю, что они могут и в этот раз что-то сделать не так. Всякое бывает же. Поюзаем — увидим.
>>825400 > я знаю о чем говорю Очевидно что не знаешь, ведь в оригинальном конфиге выключен пропуск токенов. Но ты зачем-то напердолил его и теперь жалуешься что модель сломана. 3.1 будет точно так же "сломана", ведь там нечего фиксить.
1. Качаешь оригинальную модель. 2. Ничего не меняешь. 3. Запускаешь ее. 4. Срет ассистентами и шизой. 5. Фиксишь конфиги. 6. Работает без проблем.
Проверено на: трансформерах эксл2 ггуф
Везде одна хуйня.
Я хз, почему ты утверждаешь, что ошибки при оригинальных конфигах это «работает нормально», а отсутствие проблем с исправленными это «сломал». =)
Ну хуй тя знает, видимо ты и есть оригинальная ллама, раз так шизишь.
Давай еще в четвертый раз напишу: оригинальная модель срет ассистентами и шизит Надеюсь, ты хоть с четвертого раза сможешь осознать такую простую вещь.
Но оффенс. =)
>>825411 Повезло-повезло… Все лучшие модели прямиком для тебя. ;)
>>825407 Я кстати обосрался когда узнал что большинство эмодзи составные, все юникодные кодпоинты включая разделитель это один токен. Один эмодзи может состоять из максимум 31! частей, это получается до 60 токенов на один символ. Начал разбираться, когда он мне однажды на один флажок в статбоксе всрал чуть меньше 20 токенов.
>>825417 > Везде одна хуйня. Естественно везде одно и тоже, если ты в убабуге настройки выставил неправильные, ведь там настройки из интерфейса приоритетнее конфига. Если бы ты запускал нормально трансформерами, то там оно просто работает. Напердолят какого-то говна, а потом включают врёти, хотя на той же арене прекрасно видно как оно работает из коробки.
>>825431 Шо ж ты никак не успокоишься. =) > арена > из коробки Ето вообще кек.
Тебе написано выше «трансформерами». Ты «вы все врети, убабугой запускал!.. ни может быть, чтобы не работало!..»
Успокойся. Обосрались в мете. Не веришь — иди и проверь, запусти сам, у себя, локально, их чистую версию. На кой хер придумывать за других людей несуществующие проблемы, игнорировать то, что человек прямым текстом говорил и ссылаться в треде локалок на облачный запуск?
>>825394 > больше слова пук, меньше среньк Да, можно подзапрунить некоторые токены чтобы меньше лезли определенные слова. > обычно просто с ассистентом рпшу Эээээ? Нихуя себе, когда карточки персонажей для себя откроешь - ахуеешь. >>825400 > она обучена косячить Ггуфопроблемы и неверные токены, из-за которых постоянно лез или ассистент или другие херни, это баг а не штатная работа. Когда починили - она стала работать хорошо без всего этого. > Причинно-следственные связи, действия в будущем не влияют на прошлое Шо? > Проверить просто Это не проверка. Так на любой модели можно пихнуть битый конфиг или кривые настройки - и вуаля она срет ерундой. >>825409 Все верно >>825417 > 1. Качаешь оригинальную модель. Восьмерку лламы3 скачал в первый или второй день на релизе, и она сразу из коробки нормально работала, представь себе. Инстракт 70б срала неверными токенами в конце предложений. Потом качал файнтюны - там все ок. Где теперь твой бог? Не удивлюсь если сейчас на обновленных лаунчерах та же самая модель уже будет работать нормально. >>825441 > Тебе написано выше «трансформерами». У тебя какие-то особые трансформерсы видимо.
Потестил пачку своих стандартных вопросов и что-то хуже прошлой 70б. Может с квантом напортачили, у 405б 8 бит на хаггин фейсе всё же. Или температура хуево выставлена.
>>825359 >малые коэфициенты коррекции к дальним от входа слоям Как я и писал, проблема в том, что недообученными выглядят все слои, кроме селфатеншена. Второй, третий, четвёртый. Не важно. >Случайно не RWKV? Я её даже запускал, лол. Он самый. Как в работе? Обещан бесконечный контекст. >хрен его знает, настоящие ли они А какие "настоящие"? Все модели проходят претрейн на малом контексте, а потом тюном его увеличивают. В целом, на претрейне и не нужен большой контекст. >тупит с ssistant и формативрованием из-за кривого обучения на двух еос-токенах В конечном счёте это не важно, так как вряд ли существенно влияет на работу модели. Лично мне 3.1 показалась заметно тупее 3.
Мда. Хорошо, что я не всрал 100к на зионосборку, чтобы эту парашу раннить в 1ток/сек. Уж лучше взять меньшую модель и сгенерировать 10 ответов, затем выбрать лучший.
>>825208 Dышло аж ДЖВЕ новых модели: 1. Mistral-Nemo 12В 2. Llama 3.1 8В Но пока нихуя не понятно, Жора фиксит баги, васяны делают тьюны, через недельку будет ясно. А пока, если хочешь чего надёжного, чекай список внизу шапки. Я бы посоветовал Гемму, стандартную и тайгер версии лучше 27В в низком кванте, чем 8В в высоком при одинаковом размере
>>824979 → >алсо, пробивается так же как и гемини, создаешь блок в промптменеджере, ставишь роль ассистента и пишешь там псевдопрефил Вот сука, как всегда, очередной пук в стиле "всё работает нужен просто простой севетский..." Но при этом не пруфов из чата, как 405В версия шуткует про негров, ни настроек, чтобы можно было их проверить. Верим на слово, ведь в треде не бывает пиздоболов! Алсо, я писал про версию, которую раздают по АПИ Nvidia, туда дополнительно прикручен ряд соевых и промпт фильтров
>>825658 Клод такую же ошибку совершает, ничего катастрофического. Вроде фиксилось небольшим тюнингом формулировки, типа "Which number is bigger" или что-то такое.
>>825689 Я сразу обратил внимание и написал, что 3.1 ламы это огрызки 405В, а не самостоятельные модели. Не думаю, что там специально для гоев что-то нужно обрезать, новые ламы изначально обрезаны по самые уши. А если учесть, что сою никто не обрезал, и её там столько же, сколько в 405В модели, то там по-сути, одна соя и осталась, лол
>>824835 → кто такой чем знаменит? ------- какой пресет выбрать формата общения для кобальта? там где список альпака\лама3\лама3нейм-инструкт\ итд плохо понимаю как это работает
>>825703 Пока такое ощущение, что да. Обычная версия 8В кое-как пробивается, но шизит. А вот инстракт пик 2 стронг! Для РП пока что бесполезны, возможно даже тьюнить нечего. Забавно, если единственное нововведение в 3.1 версии, это большее количество сои. 405В версия неистово шизит даже в SFW чатах, ока такое ощущение что они просто сломали всё фильтрами, ситуацию с SD3 напоминает
>>825634 >Он самый. Как в работе? Так себе. Но я пробовал давно, и версию на 7B. Они там постоянно выкладывают новые снапшоты. >Обещан бесконечный контекст. А по факту там те же 4к, по крайней мере так тегнуты были мои версии. >>825733 Нету. Можешь конечно везде альпаку примерять, но потом не жалуйся в треде, что все модели говно.
Вечер в хату робофилы. Глянул тред на 4чане, дохуя всего понавыходило за пару недель. Что из новых моделей топчик на Русском? Ну или на Японском... короче, мультиязычность мне больше всего интересна.
Потестил 3.1 70В в exl2 немного, заметно лучше тройки. Русский не сказать что сильно шагнул вперёд, всё ещё бывает странные выражения выскакивают, но вот рп на английском явно адекватнее стало. Формат промпта ещё жестче теперь, если на тройке ещё работали альпаковские инструкции с ###, то тут уже надо переходить на хедеры. И на кривой семплинг ещё более чувствительной стала, только на HF-обёртке работает как надо. Цензура как в тройке, на ниггера не триггерится. Ждём рп-тюнов от нормальных челов, должно быть вообще заебись.
Я хотел сказать, что учитывая, как разрабы лламы-3 проебались с токенами в первый раз, оверхайпить и превозносить 3.1 не стоит, пока ее не попробуем всячески. А если там все хорошо — то можно будет и праздник на улице устроить.
Просто не надо завышать ожидания, чтобы потом пять стадий не проходить, вот и все, что я говорю. =)
>>825603 А ты 70б тестил там же? Не забывай, что это зирошот без промпта, на локали ты можешь нафигарить хорошую карточку, которая будет отвечать за счет инструкций, а там — as is.
> Обещан бесконечный контекст. Еще на мамбе был обещан, а в итоге новая мистраль 2к с трудом держит. х) Думаю, если технология не разошлась широко, то по первым ее представителям трудно оценивать.
>>825689 Скорее формат промпта или ответа проебали. Может он там отвечал в странном формате, в латексе или ещё как. Надо смотреть логи теста, они где-то там есть у них в кишках.
>>825841 >если на тройке ещё работали альпаковские инструкции с ###, то тут уже надо переходить на хедеры. И на кривой семплинг ещё более чувствительной стала Можешь скинуть свой пресет и настройки семплеров?
>>825932 > пресет По классике для тройки: > <|begin_of_text|><|start_header_id|>system<|end_header_id|> > You are a helpful assistant<|eot_id|><|start_header_id|>user<|end_header_id|> > What is the capital for France?<|eot_id|><|start_header_id|>assistant<|end_header_id|> И в хедер дописывать ещё что-нибудь по желанию. Но я подозреваю надо для лучшего результата с <|eom_id|> ещё поиграться.
>>825417 > 4. Срет ассистентами и шизой. 3.1 точно так же делает. Как ты конфиг у этого говна правил? Взял квант у турбодерпа потестить, а там такая же херня как и с 3 была
>>825757 Новая роль и новый тег конца сообщения только для вызова функций же. Всё остальное как было, так и осталось. Энивей буду ждать шизофайнтьюнов, которым будет срать на служебные токены и теги тройки, чтобы гонять на своём поехавшем варике чатэмэля. >>825841 >заметно лучше тройки >на кривой семплинг ещё более чувствительной стала Звучит странно. Если модель лучше, то у неё исходно более "правильные" вероятности токенов, где шанс вытянуть шлак меньше. Так что настройки сэмплеров, наоборот, должны влиять слабее. >>825970 >надо для лучшего результата с <|eom_id|> ещё поиграться Посмотри примеры по ссылке >>825757 Этот тег используется только в конце вызова функций питона.
>>825970 > <|begin_of_text|><|start_header_id|>system<|end_header_id|> > You are a helpful assistant<|eot_id|><|start_header_id|>user<|end_header_id|> > What is the capital for France?<|eot_id|><|start_header_id|>assistant<|end_header_id|> Ясно, проще обновления таверны дождаться.
>И на кривой семплинг ещё более чувствительной стала А семплеры то хоть какие?
>>825208 > для (E)RP > до 20B Или штаны или крестик, лол. Мистраль новый крути играясь с промтом, с геммой9 поиграться, на 8б шизотрейнов выпустили много. >>825691 >>825712 Выглядит больше как поломка, у тебя и разметка проебана и дичайшие лупы что даже аположайзнуть не может. > ситуацию с SD3 напоминает Та была дико недообучена на хуман-релейтед контенте в позах сложнее чем "стоит", все было бы плохо даже без конечного зацензуривания. >>825841 А вот это уже прилично.
>>825872 > как разрабы лламы-3 проебались с токенами в первый раз Как? Ну расскажи в чем их проеб который ты так "оверхайпишь и превозносишь", просто явили проблемы в лаунчерах, особенно самом кривейшем из доступных, знатно подорвав пердаки фанатов. > превозносить 3.1 не стоит Это ты уже сам придумал. > Просто не надо завышать ожидания И это тоже > чтобы потом пять стадий не проходить Это для теслодаунов обреченных на жору и подобных. У нас уже есть много хороших моделей в широком диапазоне размеров лламу 3.1 изначально вообще не ждали. Если ее семидесяточка будет сочной то это вообще прекрасно, особенно учитывая стоковое снятие ограничений контекста без нюансов. А так оно, скорее всего, и будет. >>825979 > то у неё исходно более "правильные" вероятности токенов Не обязательно. Распределение может быть скудным с крутым спадом, или наоборот пологим в случаях с вариативностью, и оба варианта будут правильными. Вжаривание температурой изначально было костылем чтобы хоть как-то разнообразить выдачу, и далеко не всегда успешным. За исключением конкретных ответов у новой лламы действительно гладкие логитсы, но это нужно более подробно смотреть.
>>825979 > Звучит странно. Скорее всего в семплинге убабуги насрано где-то. Если включать голую exl2, то она поломанная, а с HF-обёрткой всё отлично. В Tabby тоже нет проблем, там ванильный семплинг exl2.
В этих маленьких моделях в каждой есть какой-нибудь косяк, который все портит. Одна модель креативно пишет, но тупая как пробка, вечно путает детали и кладет хуй на инструкции, характеры и контекст. Другая всему следует, ведет себя реалистично, но не в состоянии генерить более-менее интересные сюжеты и ситуации и постоянно скатывается в повторы. Третья делает всех персонажей поголовно шлюхами и т.п. Мистрал Немо пока что в этом плане мне кажется довольно сбалансированной. Страдает от повторов отдельных фраз и оборотов, но менее выражено в сравнении с Лламой3 8B.
>>825737 >Так себе. Но я пробовал давно, и версию на 7B Надо будет потыкать. >А по факту там те же 4к Может, там как со сторирайтером? Нужно через их родной код запускать? Помню, знатно офигел, когда мне 7b модель начала писать буквально книгу по промпту из пяти слов. Столько моделей чудных, но все или забыты, или никому и не были особо известны. >>825872 >Эээ… Я пока сравнивал только 8b старую с новой и новая выглядит существенно хуже. На мой, очевидно, субъективный взгляд. До 70b не добрался, а 405, о ней уже было много отзывов. >если технология не разошлась широко Там один из ключевых тезисов же, скрещивание со старыми сетями и получение профитов от старых сетей в новых.
>>826150 Но зачем, когда есть EXL2? Зачем плодить кучу беков и пытаться переписать уже написанное, когда даже у Жоры всё в багах? Лучше бы показали что там у них по качеству и токенизации.
>>826150 Двачую >>826161 тащить все жорапроблемы и битые кванты когда есть эксллама с минимумом васяновского кода. Единственный юзкейс - катать мику, но у ее любителей для такого нет железа.
Почаны, я долго кумил на встройке и вот заказал вчера себе 3060 на 12gb, поэтому я хотел бы узнать, как быстро на такой видяхе будет работать gemma2 27b или Command-r учитывая что у меня так же присутствует 48 гигов оперативки ddr4 и проц 6 ядерный/12 поточный?
>>826194 >gemma2 27b Во втором кванте будет выдавать до 20 т/с На шестом с выгрузкой в оперативку 6-10 т/с >Command-r Можешь прямо сейчас выгрузить его в оператику и посмотреть. Выгрузка небольшого количества слоёв на видеокарту особой погоды не сделает, 10-20% прирост получишь. С 70В моделями всё будет ещё печальней.
>>826241 >Можешь прямо сейчас выгрузить его в оперативку и посмотреть Пытался уже, там скорость 1 токен раз в 3-5 секунд было. А вот Gemma2 27b ~1-2 токена в секунду, и вот такая скорость, меня со скрипом, но могла бы устроить, если бы не ожидания по примерно МИНУТЕ! КАРЛ! обработки 512 контеста, и после достижения 8к контекста при каждом новом сообщении все эти 8к контекста заново обрабатываются, а это сука 16 МИНУТ КАРЛ! ШЕСТНАДЦАТЬ!
Кстати, хотел бцы узнать, как сильно видюхи греются при использовании нейросеток? Ну типа, в памяти же постоянно всё будет забито этим и если я как обычно, просто буду на заднем фоне всё время держать запущенную нейросетку, пока сплю или на работе, то видюха постоянно горячей будет и это наверное плохо скажется на долговечности видюхи? Или она будет холодной пока не начнёт активно обрабатывать контекст или генерить новые токены?
А как там дела с великим и могучим? Или всё же gemma2 9b лучше понимает и пишет? Можно ли так спокойно общаться или всё же неудобно и приходится на загнивающий переходить?
>>826307 Ещё в прошлом треде писал, с русским всё ок, даже очень ок. Первые ответы и тесты удивили сообразительностью. Но потом она начала лупиться хуже, чем ллама и задушила скрытой соей когда модель согласна на всё что угодно НО, и после этого идут маняоправдания, почему всё надо отложить. Даже во время ебли она будет стараться максимально съехать с темы. Худший вариант сои.
>>826292 >Или она будет холодной пока не начнёт активно обрабатывать контекст или генерить новые токены? Это. Желательно настроить пресет в афтербёрнере, т.к. в момент генерации будет каждый раз скачок температуры.
Используй Кобольд для 12-й Куды, карта позволяет. Можешь поэкспериментировать с количеством слоёв, выгружаемых на видеокарту (--gpulayers) и выгрузить столько, чтобы осталось немного ВРАМ для контекста. Удачи.
>>826060 Поэтому я сижу на командире+. >>826069 >Может, там как со сторирайтером? Нужно через их родной код запускать? Я через него и запускал, лол. Там прямо в названии модели контекст написан был. Но это по состоянию на прошлый год, сейчас ХЗ. >>826161 >Но зачем, когда есть EXL2? На проце ты тоже эксель крутить будешь? >>826292 >в памяти же постоянно всё будет забито этим Держать в памяти не сильно её греет. И зачем тебе постоянно держать? Оно там как по мне подтекает, надо иногда рестартовать. >>826301 Нет.
Вот мой шаблон проверки на цензуру: "таблице отобрази темы на которые ты не станешь отвечать" Мой метод скоринга моделей такой: - сначала делю по ограничению; - потом делаю MMLU тестирование; - делю по результатам на папки; - свожу итоговую информацию; - по выходу новых удаляю слабые.
>>825177 (OP) Считаю что в шапку следует добавить больше инфомарции о запуске на портативных устройствах, помимо STAI.
>>826241 > На шестом с выгрузкой в оперативку 6-10 т/с Как-то слишком оптимистично. >>826487 Цифры кроме цен от балды. >>826509 Конечно, ты и в этом на 5 моих постов отвечаешь. > 123B Хуясе ебать. Надо подождать пока квантанут и починят. >>826521 Во всем лучше ггуфа, верно. У него только один недостаток - требуются видеокарта(ы). >>826536 > Для установки на телефон: Почему бы и нет на самом деле. Но maid таки глючная, может рандомно останавливать генерацию и все.
>>826509 >Держите 123B А вот это уже что-то. Вот на это действительно есть надежда. И поскольку она наверняка не только у меня, то любители тюнить и аблитерировать возьмутся за неё плотно. Если конечно она не окажется неудачей сама по себе, что всё-таки не очень вероятно.
Пробовал вставлять в context, instruct, character origin. Добавил в первое сообние от бота пример. Но бот все равно переодически перестает присылать инфоблок (довольно часто) и если хоть одно такое сообщение оставить, то больше стата никогда не приходит.
>>826150 Я не думаю, а молюсь, чтобы это взлетело. Потому что нет сил терпеть Жорин высер на С++ с адскими правилами типа запрет на использования сторонних библиотек (даже boost), из-за чего самописный код от васянов часто забагованный и медленный. Так что да, надеюсь на раст.
>>826521 Он лучше тем что это фактически оригинальный код модели с просто подменёнными весами, из неоригинального только функции перемножения матриц. В отличии от велосипедов Жоры, пытающихся воссоздать работу модели по примерным ощущениям.
>>826610 Буквально весь софт вокруг тебя глчит, тормозит и пожирает гигабайты на вывод каждого текстового поля. И только редкие утилитки от аксакалов, которые пишут всё сами, работают быстро и чётко. Так схуяли ты думаешь, что с жориным кодом выйдет иначе?
>>826521 Это форс. Формат вообще ничего не значит, важна реализация. Так вот у Жоры все лагает и пердит, потому что С++, анальные ограничения, вахтерство. Exl2 летает из коробки, потому что фулл гпу + питон.
>>826521 Угараешь? Ему год уже. Вообще, это не он лучше ггуфа, это ггуф хуже его. Так-то они плюс-минус, просто эксл2 запускается только на видяхе, а ггуф везде. Но эксл2 быстрее заметно. А у ггуфа — ггуфопроблемы.
>>826610 Вообще, чисто статистически — нет, не будут. Т.е., есть шанс, что будут быстрее, но чаще случается иначе. Его писать проще, это единственное его достоинство. Но и то попортили куча дебилов на джунах, которые пихают библиотеки просто не зная языка, на котором пишут.
У Герганова подход такой — писать все самому. Плох он? Нет, он хорош. Но проблема в том, что сам Георгий не может сделать быстро и качественно, т.е. проблема в реализации. Результат получается плохой, да, тут не поспорить.
>>826553 Если ты не на 70б+ сидишь, то такая инструкция больно сложная для моделей меньшего размера, как мне кажется. Хз, может, мелкий коммандер и большая гемма худо-бедно будут это выполнять без пинков. В качестве костыля можешь попробовать исправить инструкцию, чтобы ставить блок в начале сообщения, а не в конце, и забить его начало руками в префил. Тогда даже мелочь допишет, хоть может и не строго соблюдать. Саму инструкцию лучше разместить в поле System Prompt. Если не правил шаблоны, то именно это поле оборачивается в теги модели с ролью системы.
Мужички, помогите разобраться ньюфагу, кто серит под себя. Модели или я.
Ну вот есть у меня разные файнтюны-мержи ламы2 на 8-11b. И все они практически безупречно отрабатывают карточки и ситуации, ведут нормальные диалоги. Да, purple prose во все поля, двойные трусы, но помимо этого нареканий почти нет, учитывая их размер. И есть файнтюны ламы3 8b, которые творят абсолютную дичь. 1. У них какой-то адовый словесный понос на любых пресетах. Пикрелейтед. 2. Они берут внутренние данные карточки и выдают их за контекст недавно сказанных слов. "Мы только что повстречались, но зачем ты надел футболку с коррозией металла, ты же прекрасно знаешь, как я боюсь пауков" 3. Они зачастую не придерживаются данных карточки. Каноничные приключенец/сестра/учительница/радфемка становятся семёном димоном через десять сообщений, если яйца подкатывать, вместо положенных shock/anger/disgust/butthurt. 4. В половине случаев несут какую-то шизу из обрывков недавних сообщений, путая кто что кому сказал. 5. Не могут в логику своего повествования. Обещают показать жопу, а в следующем сообщении крайне оскорбляются, если им напомнить. Да, могут ответить на вопрос про петуха с яйцом, но какой ценой? Буквально всего. Я не понимаю, я где-то обосрался с настройками или что? Качество рп-кума просто катастрофически упало. И да, свайпы не помогают. Ну может на двадцатый раз и при ручных правках что-то получится.
И отдельное упоминание Tiger Gemma 27b с рекомендуемым 4к контекстом. Это просто шизофреническая фиеста. Такое ощущение, что карточка и контекст для неё существует на 5%. Всё остальное шизовыдумки.
>>826610 Нет, особенно если кодописец - свидомый адепт клинкода и странных подходов. Исключения редки и требуют скиллов. >>826624 Зачем траллишь? И сам формат с его квантованием хорош, и код бэка прекрасный а не то за что критикуют жору. Верно сказано только что летает. >>826627 > питон не самый медленный язык из мейнстрима Не самый, это удобный и эффективный высокоуровневый язык с большой степенью абстракции. Но это не мешает ему быть быстрым ибо требовательные к перфомансу части написаны на отборных сях/расте/... умными людьми и хорошо оптимизированы. >>826635 > это не он лучше ггуфа, это ггуф хуже его Сказанул так сказанул. Он позволяет достаточно эффективно ужимать в нормальные битности (хз что там на 3битах и ниже) и позволял делать калибровку когда на жора-квантах об этом даже не слышали, используя фиксированную матрицу. Но главное - не имеет лишних кривых добавок и ограничений как у жоры, за счет чего случаи проблем с ним единичны. >>826647 Формат промта под другие модели менять хоть пробовал? Попробуй для начала готовые пресеты таверны, удивишься насколько лучше станет работать.
>>826635 > Вообще, чисто статистически — нет, не будут. Будут. Каждая зрелая библиотека вылизана, использует ряд оптимизаций, имеет простой публичный интерфейс. Когда речь заходит про ML с кучей ботлнеков, это имеет решающее значение. Говнокодить на С++ очень просто и ллама.цпп очередной наглядный пример.
Раст просто проще использовать разумно, а у поколения разработчиков на расте отсутствуют плохие привычки программирования, которые вросли в разрабов С++ с годами из-за дебильных идиом и задержек в стандартизации.
Так что да в 2024 году практически любой код на расте будет в среднем быстрее говнокода на С++.
Редко захожу в тред, но деградацию не увидит разве что слепой. Тут некоторые уже настолько отупели общаясь с нейросетью и генерируя ответы, вместо изучения технических работ и подтверждения знаний на практике, что буквально начинают напоминать своих генеративных лоботомитов.
>>826671 Особенно вот эти челы, что отвечают на все посты в треде. Ебанатам буквально везде необходимо присунуть свое важное сгенерированное 2квантовой хуйней мнение.
>>826649 >Формат промта под другие модели менять хоть пробовал? Попробуй для начала готовые пресеты таверны, удивишься насколько лучше станет работать. Пробовал, почему и спрашиваю. У меня есть дефолтные пресеты таверны, пресеты 1,9 отсюда https://huggingface.co/Virt-io/SillyTavern-Presets/tree/main/Prompts/LLAMA-3, пресеты от леддиторов. Пробовал все, включая различные комбинации. Качество улучшается в пределах 20% максимум. Против условных 100% на ламе2. Вот, скажем, то, что предлагает таверна. И вот что получается.
>>826671 Эм, я раз в неделю только кумлю, вместо просмотра порно. Стал только умнее, читаю все научные статьи, что тут кидают. >>826672 Гемма 2. >>826673 >2квантовой хуйней 0,58 же, ты отстал.
>>826670 > на практике жора уже обошел ехл2 > Везде медленнее кроме одной модели которая никому не нужна Забавные практиканты. Но вообще у него довольно странный результат с оче медленной обработкой промта на экалламе. Можно предположить что как-то вляет его метод измерения с коротким контекстом, отличия в разбиении по картам, 4битный кэш, что-нибудь еще. 400 т/с это 20 секунд ожидания первых токенов на полном контексте 70б. По факту же задержка по сравнению с кэшем есть но ее не подмечаешь явно, а на жоре прямо вымораживает ждать.
>>826671 Скорость выхода моделей и программного обеспечения, резкое увеличение информационной шумихи вокруг LLM, та же магистерская программа строительной компании самолет в ранхигсе на 30 мест полностью бесплатная с хабом, медленное аппаратное обеспечение посетителей треда, не позволяющее оперативно проводит эксперименты по изложенным в статьях гипотезам подрывает интрес к статьям. Держи в голове что большая часть знакомится с LLM за свой счет, что включает в себя оплату электричества и покупку карт. В отличии от майнинга или кодинга тут нет прямой конверсии, по сколько профит получат большие корпорации по итогу.
>>826674 Хотел сначала написать, что у многих тьюнов тройки сломан EOS токен, поэтому и не затыкаются, и правильный формат тут несильно помогает. Но потом увидел, что у тебя включен auto-continue до 400 токенов. Нафига? Ты выставил 256 токенов ответа, вроде не хочешь простыни, но заставляешь продолжать. Вот модель и пытается что-то из себя выдавливать.
>>826693 Да это все ерунда, llamacpp какбы в генерации почти всегда была нормальной. Вот только когда набирается контекст - внезапно та самая генерация идет нахуй и ощутимо так проседает. И промт в экслламе обрабывается не 300-400т/с как в жоре на больших величинах. Печати подробной по дефолту нет, но учитывая что на 400 токенов ответа при 8к с кэшем общая около ~18т/с, без кэша 12-14т/с, там в районе 1к. Неспроста автор выбрал именно такие условия с 500 токенами ответа и 600 контекста.
>>826698 >потому что Сетки всё ещё тупые как пень, даже самые крутые коммерческие. >>826703 >просто не договаривает фразы Поставь чуть больше токенов ответа, наркоман.
>>826706 >Поставь чуть больше токенов ответа, наркоман. Ну да, я так и буду чуть ей добавлять, а она чуть не договаривать, уже проверял. Но вообще, похоже это и правда был сломанный EOS токен (что бы это ни значило). Модель average normie. Сейчас зарядил stheno 3.2 и уже гораздо лучше. Так что проверить бы нормиса ещё кому-нибудь на вшивость и удалить из шапки, а то в заблуждение вводит знаете ли. До этого тоже был какой-то всратый файнтюн по советам. Так и живём.
>>826718 >удалить из шапки Он не в шапке, он в списке по ссылке из шапки. В шапке вообще устаревшее по нынешним временам говно, но оно 100% так не ломается и хотя бы работает стабильно.
>>826718 Чем меньше модель, тем больше свайпов точнее надо попасть (промптом, пресетом, настройками, фазой луны...) Правда с большими тоже фигня творится. Ну нет счастья в жизни.
>>826724 >>826726 Всё, анончики, разобрался. Дело было в моделях. L3-8B-Stheno-v3.2-Q6_K-imat.gguf на llama 3 rp+ instruct пресете работает так, как я привык на старых. Ну и умнее и человечнее что-ли в каких-то мелочах. Даже свайпать не приходится. Надеюсь, дальше ничего не отъебнёт... Всё, нет времени говорить, побежал кумить.
Ггуф 123B в 4 кванте весит почти 74Гб. В пятом 87. Плюс контекст. В принципе 4KM при таком количестве параметров должен дать достаточно хороший результат. Жутко интересно, какая модель получилась. И полные веса теперь доступны.
Самое интересное, что никто не ждал ни новой Лламы, ни второго Mistral Large. Так быстро так уж точно. В интересные времена живём.
>>826815 Постоянно вижу это сообщение в треде, что за стеклянный потолок поясни кратко. И да, что по твоему мнению после него?
Что вижу сейчас: набор сейлеров по llm на hh, набор ml джунов с опытом, проги в вузах. По факту, релизы от банков скорее мертвые. Ландинги, карточики авито, где челы пишут про свой опыт LLM в 10+ лет и продают свои услуги. Ещё видно как с каждой свежей модели всё сильнее вилкой дочищают дата сеты начисто. Данные все те же - обработанный инет контент.
А есть ли какой-то параметр, который позволяет оценить что сеть будет правильно отвечать всегда на один и тот же вопрос, пусть даже с разными вариациями.
Бумага по лламе такая же здоровая, как сама ллама. >Llama 3 405B is trained on up to 16K H100 GPUs, each running at 700W TDP with 80GB HBM3 >240 PB of storage out of 7,500 servers equipped with SSDs, and supports a sustainable throughput of 2 TB/s and a peak throughput of 7 TB/s. Вот смотришь на потраченные ресурсы, на полученный итог и волей-неволей приходят мысли - а это точно лучший результат, который можно получить, вбухивая столько мощностей? Может, уже и архитектуру перепилить пора?
>Using this procedure, we generated approximately 1.2M synthetic dialogs related to code explanation, generation, documentation, and debugging. >we prompt the model to generate code only from its documentation, or we ask the model to generate code only from its explanation Ясно, ванильную лламу для кода лучше не использовать. Пик 4, верхняя часть питон, нижняя не питон. Почему питон так хорош? А, проехали. >popular benchmarks for Python code generation which focus on relatively simple, self-contained functions.
>To collect higher quality human annotations in non-English languages, we train a multilingual expert by branching off the pre-training run and continuing to pre-train on a data mix that consists of 90% multilingual tokens. В пизду лламу, дайте этого эксперта.
>We train a code expert which we use to collect high quality human annotations for code throughout subsequent rounds of post-training. This is accomplished by branching the main pre-training run and continuing pre-training on a 1T token mix of mostly (>85%) code data. И этого тоже. Вообще интересно, они говорят, что для получения хай квалити хьюман аннотейшенс обучили эксперта. Речь идёт точно о нейросетях или в ход уже пошли рабы?
>During the final pre-training stage, we extend the context length of Llama 3 from 8K tokens to 128K tokens >Specifically, we use an initial batch size of 4M tokens and sequences of length 4,096, and double these values to a batch size of 8M sequences of 8,192 tokens after pre-training 252M tokens. We double the batch size again to 16M after pre-training on 2.87T tokens. We found this training recipe to be very stable Здесь очевидно, длинный контекст накидывался с лопаты в самом конце, потому что ебать дорого и сложно.
Половина бумаги про сейфти, больше всего понравилось, что False Refusal Rate Relative to Llama 3 cоставляет всего-то +102% со всеми включенными соефикаторами. > Violation Rate and False Refusal Rate: English -76% +95% Ага, плюс сто процентов ложных срабатываний, чтобы защититься от трёх четвертей опасного контента. Сексуальный контент, кстати, оба соефикатора чистят на 100%, успех, я считаю. Скоро их включат в процедуру трейна, чтобы наверняка, чтобы уж никак не просочилось.
>>826914 > Вот смотришь на потраченные ресурсы, на полученный итог и волей-неволей приходят мысли - а это точно лучший результат, который можно получить, вбухивая столько мощностей? Может, уже и архитектуру перепилить пора? Нормальная архитектура. Если именно просто обучать, чтобы лосс падал на максимально корректных ответах безотносительно сейфти, а не дебилизировать соей и прикручивать дополнительные соефикаторы. > Половина бумаги про сейфти, То-то и оно.
>>826830 >самая тупая сетка победила в PHP Закономерность? >>826835 >сеть будет правильно отвечать всегда Нет сынок, это фантастика. >>826914 >Может, уже и архитектуру перепилить пора? Никто там не будет так рисковать. >Здесь очевидно, длинный контекст накидывался с лопаты в самом конце, потому что ебать дорого и сложно. Как и во всех остальных текущих сетках. >Скоро их включат в процедуру трейна, чтобы наверняка Наверняка они только убьют производительность, лол. >>826954 >Нормальная архитектура. Кусок говна без внутреннего диалога.
Ну Мистраль Large хорош, русский вообще идеальный. Из неприятного - как-то более сухо отвечает по сравнению с ламой и ответы короче, рандома мало. Ещё она как-то неохотно движется по сюжету. Может конечно опять жоровские лупы, но оно как-то слишком сильно за контекст цепляется и иногда повторяет прошлые мысли, хоть и перефразированные. Может надо с промптом поебаться и простых [INST][/INST] вокруг промпта мало. Цензура в районе ламы - ниггера можно, бомбу нет. Уравнения ваши решает. Файнтюнов наверное никогда не дождёмся с таким размером.
Аноники, помогите, я туплю! Хочу запустить вот эту https://github.com/Sebby37/Dead-Internet фигню с лламой.цпп. Но при запуске она мне пишет openai.OpenAIError: The api_key client option must be set either by passing api_key to the client or by setting the OPENAI_API_KEY environment variable В описании предлагают редактировать .env файл, которого нет, либо изменить "client" в ReaperEngine.py файле, но ХЗ как. Пологике всё должно выглядеть так >self.client = OpenAI(base_url="http://localhost:5000/v1/", api_key="Dead Internet") Но это нихуя не работает, всё равно высерает ту же ошибку. Как включить эту хуйню?
>>826753 >>826921 Можете ещё Лунарис от этого же автора глянуть, мерж этой версии stheno с парой других тьюнов. https://huggingface.co/Sao10K/L3-8B-Lunaris-v1 Мне понравился, при том, что я не уважаю (не осилил) тройку и stheno удалил почти сразу. Сам автор пишет, что по его мнению этот мерж лучше stheno, и в обсуждении на странице модели народ доволен.
>>827082 Подкрутил семплинг, выкинул все оставшиеся кишки альпаки, перенеся всё в системный промпт, и вроде прошли лупы. В РП прям на голову выше ламы 70В и её рп-тюнов, и это первая модель, где к русскому претензий вообще нет, можно спокойно рпшить и не кринжовать от странных выражений. Вот и дожили, когда локалка ебёт клауду и гопоту. Скорость хотелось бы чуть повыше, но с 10-12 т/с в целом можно жить, особенно учитывая что свайпать не приходится. Забавно как ламу 3.1 на следующий же день похоронили таким подгоном, я вчера весь вечер проебался с ней и так смог сделать удовлетворительный вариант для рп, а мистраль сходу норм работает. Из главных проблем ламы 3.1 70В, что я не смог пофиксить - она как будто не останавливается вовремя. Может написать 1-3 нормальных абзаца, а потом выдать ещё один абзац с проёбаным форматированием, просто ложит хуй на проставление *. Или сразу начинает писать без форматирования, или внезапно посреди текста перепутать реплику с нарративом и форматнуть их наоборот. Плюс по ощущениям на инструкции хуже реагирует чем обычная тройка. И это на EXL2, страшно представить что у Жоры там.
Кобольд обновился и стал поддерживать Мистарль Немо. С одной стороны не хотела сразу давать ответ на расисткую загадку про негра и латиноса в машине и дала только с подсказкой. С другой стороны это у меня первая модель которая на стандартной карточке ассистента Эми была хорни.
>>826653 Мы говорим не о говнокоде, а о нормальном коде. =) Говнокод — проблема говнокодеров, тащемта. Не думаю, что в один ряд с профессионалами стоит ставить васянов с гита.
>>826673 Предлагаю дебилам перестать отвечать на каждый пост и посмотреть, как засияют гении треда. =)
>>826819 А причем тут это? Потолок архитектуры — сильно лучше трансформеры не станут, речь об этом. Разница между 7б лламой 1 и 72б квеном 2 — огромна. Но разница между мистраль 123, лламой 405 и гпт-4 — уже не так заметна. Потому что архитектура выдает что может, и кратное увеличение размера датасета не дает кратное увеличение интеллекта. Он об этом.
>>826914 Ну вот практически 100% ожидаемый папир. Из чего-то непредсказанного разве что эксперты по анализу даты и кода. Ну, норм идея. Все остальное как по писанному: огромные мощности, мизерный прирост в 1%-2% в тестах, соефикаторы. Да еще и контекст сомнительного качества, хз-хз.
>>826954 Даже без сои, все равно прирост был бы не таким впечатляющим, как хотелось бы, к сожалению.
>>827058 > Закономерность? Как пхп-обезьянка — покекал. )
>>827058 > Никто там не будет так рисковать. Мистраль рискнули. Бесконечный контекст! 2к. =D
>>827082 Беда в том, что в 48 гигов уже нормальный квант не влезет. А три видяхи — слегка дороговато выходит.
>>827088 Кстати, у меня он работал через раз. Было прикольно но не долго, забей. localhost:5000 Почему 5000? Уверен, ты апи повесил на 5000 порт?
У меня self.client = OpenAI(base_url="http://localhost:5792/v1/", api_key="Dead Internet")
При запуске убабуги --listen --listen-port 5791 --api --api-port 5792
>>827122 > клауду А он братана норм отыгрывает? Ну, по тому промпту.
>>827211 >Почему 5000? Уверен, ты апи повесил на 5000 порт?
16:16:20-384238 INFO Loading the extension "gallery" 16:16:20-386239 INFO Loading the extension "openai" 16:16:20-482668 INFO OpenAI-compatible API URL:
Running on local URL: http://0.0.0.0:7888 Думаю, да, угабога по умолчанию с таким портом стартует.
>Было прикольно но не долго, забей. Во первых интеросно глянуть. Во вторых разобраться как каботает привязка OpenAI к коду, вдруг захочется где-то ещё использовать.
Посоветуйте pls модельку для NSFW RP для запуска на 8гб VRAM.
Пробовал и понравились: 1 Poppy_Porpoise-0.72-L3-8B-Q4_K_M-imat 2 Nyanade_Stunna-Maid-7B-v0.2-Q5_K_M-imat 3 kunoichi-dpo-v2-7b.Q5_K_M
Но.. 1 и 2 хороши в диалоги, но по какой-то причине я там везде скорострел, кек, модельки хорошо все описывают, но в конце того же респонса заканчивают любой интим. Ответы почти всегда довольно короткие, не смотря на настройки. 3 хорошо, но туповата.
Пробовал и не понравились: Noromaid-7B-0.4-DPO.q6_k v1olet_marcoroni-go-bruins-merge-7b.Q6_K L3-8B-Stheno-v3.3-32K-Q4_K_M-imat Tiger-Gemma-9B-v1a-Q4_K_M aya-23-8B.i1-Q4_K_M
Не понравились из-за длинного текста, куча болтовни и мало описаний действий\окружения.
использую разные модели на ламе 2 и 3 и через десяток сообщений начинается луп почти дословный мож кто вкурсе чо это и чо делать? альпак на пигмы итд туды сюда переключал не помогает контекст более 4К размер моделей тож не сам малый
>>827233 Системный промт поменяй, тут не в моделях дело. Не всё из твоего списка гонял, но как минимум Stheno и aya-23 нормально чередуют диалоги и описания, если вменяемо оформить инструкции.
>>827241 В чем разница этой васянской мержи с обычной Stheno?
>>826954 >Нормальная архитектура. Это буквально ядерный реактор ради лампочки на сотню ватт. Они сами оценивают разницу "надёжности" между 70b и 405b в пять процентов. На длинном контексте - 4.8 процента. Как говорит один мой знакомый, с хуя жира не натопишь.
>>827058 >Никто там не будет так рисковать. Рано или поздно придётся. Хотелось бы раньше. >Наверняка они только убьют производительность, лол. По-моему, они уже. Причём основательно так.
>>827211 >практически 100% ожидаемый папир. Всё равно просмотреть по диагонали было интересно. Мало ли что. >Мистраль рискнули Вполне возможно, что там всё, как gemma-2. Модель под хороший контекст подготовлена, а вот опенсорс код - нет. У неё при окне 4k внимание должно захватывать 131k токенов, если что.
>>827235 Менять настройки семплера. Min-P на 0.1 и Repetition Penalty на 1.1 или типа того. В предыдущие треды кидали более полный список крутилок, щас уже не вспомню.
>>826914 > >Llama 3 405B is trained on up to 16K H100 GPUs, each running at 700W TDP with 80GB HBM3 Ррреее дайте хотябы одну, это ведь можно перевернуть текущую дичь, что зовется опенсорсом генеративных моделей. > Ясно, ванильную лламу для кода лучше не использовать. Да зря ты, подход вполне нормальный для такого. > дайте этого эксперта. > И этого тоже. Да зачем он тебе, это же просто херька годная для классификации. Там не написано что он создавал, только оценивал и выбирал из имеющегося. > длинный контекст накидывался с лопаты в самом конце, потому что ебать дорого и сложно Потому что это единственный путь на данный момент, который у всех. > Половина бумаги про сейфти Трешанина ебаная, сразу понятно откуда деньги на то железо.
Красавчик что это притащил. >>827058 > Кусок говна без внутреннего диалога. cringe >>827211 > Нахуй идет не генерация, а тотал. Нахуй идет не только тотал, но и генерация, тотал то в любом случае должен падать из-за дополнительных расчетов. Хз что там у тебя на теслах ускоряется и т.д., на амперах в начале если там 17-18т/с то уже на 7.5к падает до ~12. А еще тормознутая обработка промта к этому потому над тоталом надругается радикально.
>>827475 Как вы получаете эти лупы на лламе3? Ловил в сложных ситуациях когда модель уже не понимала как действовать, но и это были не столько лупы сколько хреновые ответы и предрасположенность к одному пути не туда куда хочешь. Повторений фраз как раньше ни разу не видел, бывает повторение структуры но меняется при свайпах и дольше 3-4 постов не держатся, вымораживая как бывало раньше. Но коммандир все равно лучше чем тройка, 3.1 надо потестить.
>>827612 В API за тебя уже формат промпта прописан, хоть засравнивайся. Там только роль указываешь, а как он расставит специальные токены - загадка. По факту очень часто он выдаёт вот такие ебанутые вероятности - хоть обосрись, но тут будет речь персонажа. Я промптом немного распердолил, но всё равно вероятности иногда пиздец, хоть жить можно, надо ещё будет потом попердолиться. На Ламе 3 такого не было. Ну и второй доёб есть - мало русских токенов, иногда аж по буквам слова пишет, в итоге скорость можно делить на два. В остальном это топ по локалкам, даже близко ничего нет, разве что 405В.
>>827122 >и это первая модель, где к русскому претензий вообще нет Ты про командира+ забыл. Я у него тоже косяков не припомню. >но с 10-12 т/с в целом На чём запускаешь? У меня 104B в притык были, а тут походу придётся разменивать свои 64ГБ на 96, лол. >>827211 >Как пхп-обезьянка Лол, тут все такие? >>827346 >Рано или поздно придётся. Это точно не террористы будут, они ни разу при мне не рисковали. Сейчас скорее китайцы сделают какую-нибудь среволюцию ну или я свои заметки реализую. >>827361 >cringe Хуинге. Без внутреннего диалога модели так и будут срать под себя. >>827599 В шапке в вики есть ссылка с пресетами, емнип.
>>827122 Так, оно рили настолько хорошо в рп? Знает ли разные фендомы и вселенные? Понимает ли фетиши и андеграунд культуру? Насколько хорошо подстраивается под юзера и ведет повествование? Не хочется прерывать задачи чтобы потестить и подгореть с низкого качества. >>827504 > на 8В модели Вот тут хз. По беглым тестам она не лупилась, но катал ее оче мало в теории должно быть то же самое (подходящий формат, нормальная карточка, отсутствие противоречий в промте и постах), только тупее. >>827645 > Без внутреннего диалога модели так и будут срать под себя. Да они и с ним так будут делать. Для чего-то подобного нужно не генерить токены по одному, и, возможно, вообще отказаться от концепции токенов, а обрабатывать сразу весь ответ по смысловой нагрузке, постепенно его улучшая с шагами, по аналогии с той же диффузией. Но это настолько геморойно, сложно и затратно по вычислениям, что проще на трансформерсах реализовать аналогичное... Ой, а ведь это уже есть, начиная от вариаций кота, заканчивая множественными запросами. Если это еще скрестить с мое в нормальной реализации, или чем-то подобном, то может вообще отлично получиться.
>>827740 >и, возможно, вообще отказаться от концепции токенов, а обрабатывать сразу весь ответ по смысловой нагрузке, постепенно его улучшая с шагами, по аналогии с той же диффузией У меня такие же мысли были записаны в тетрадку ещё в прошлом году, лол. >Но это настолько геморойно, сложно и затратно по вычислениям Лол, не факт. Если сжимать смыслы чем-то типа VAE, то может выйти даже быстрее, забубенить сразу абзац вместо одного слова.
>>827747 Так там у тебя занятная карточка, в пк 48 Gb DDR5 стоят 20к примерно новая, та же KF560C32RSA-48 и KF560C32RS-48. Зачем тебе серверная 32 гб не понятно.
>>827750 Да ты блядь издеваешься, 6000МГц, мне что, на 1т/с сидеть что ли? И да, там 64 одной планкой хоть и с пососной скоростью. Впрочем, это скорее шутка, если серьёзно, я к 6600 присматриваюсь, 2х48 набором за 50к.
>>827742 У обычных материнок ограничение 200гб. Больше 4 по 48гб не вставишь. Плюс там двухканал и низкая скорость для 4 плашек. >>827751 Прирост между 5600 и 6800 всего 10%. Учитывая космические скорости генерации с выгрузкой большей части модели в оперативку ты буквально не увидишь разницы (а 4 плашки ты и так не заведёшь на 6600).
>>827742 Не будет, только серверные. Может попозже появятся, а пока увы. Можешь собрать 192 гигабайта 4 плашками по 48, с разгоном придется попердолиться. >>827745 Одно дело мысли а другое - подходы к реализации и она сама. Там может столько проблем вылезти что йобу дашь, ошибки текущих ллм со счетом и трусами вообще смехом покажутся. > сжимать смыслы чем-то типа VAE Для начала не сжимать а именно воспринимать. Это гораздо сложнее само по себе, плюс что в тексте, что в речи, что в визуальной информации они воспринимаются комплексом а не по отдельности. Соответственно, уже сама их кодировка будет той еще ебанистической задачей в отличии от примитивной токенизации, "информацию" придется дробить на чанки что скажется на качестве и т.д. Типа условный текстовый энкодер на основе ллм на выходе которого широченный слой с которого уже пойдет в основную модель, но сначала еще нужно будет насобирать кусочки. Это всего лишь тривиальные рассуждения возможного варианта и простые практические задачи связанные с эксплуатацией, и они - сущая ерунда по сравнению с фундаментальными. >>827751 > 6000МГц На амудэ больше не имеет смысла всеравно. > мне что, на 1т/с сидеть что ли? Переплати за оверсракерскую, сможешь наслаждаться космическими суперскоростными 1.1т/с!
>>827753 >У обычных материнок ограничение 200гб Оно точно есть? А то могут заявлять, а по факту пашет. В стандарте 2ТБ плашки были ещё в 2021-м, лол. >>827753 >а 4 плашки ты и так не заведёшь на 6600 Да в общем-то если забить хуй на 400B шизомонстров с приростом в 0,0001%, то и 96 должно хватить. А вот 64 у меня в подкачку просятся, увы. >>827754 >Там может столько проблем вылезти что йобу дашь Ну это само собой, как и с любым другим новым подходом. Впрочем, у меня в мыслях модульная ИИ, которую можно тюнинговать кусками, ибо шатал я (пере)обучать все эти новомодные 8 млрд параметров после каждого неудачного пука целиком. >Типа условный текстовый энкодер на основе ллм на выходе которого широченный слой с которого уже пойдет в основную модель Мыслим одинаково, ага. У тебя есть какие-нибудь наработки? >На амудэ больше не имеет смысла всеравно. У меня 6200, не надо тут. >сможешь наслаждаться космическими суперскоростными 1.1т/с! А то. Плюс я игры иногда запускаю, там это имеет смысл.
>>827759 > у меня в мыслях Только санитарам не рассказывай, лол. Если же там что-то простое-адекватное и ты не фантазер - чего еще не используешь сам, хотябы в самом простом варианте чего-то? > се эти новомодные 8 млрд параметров после каждого неудачного пука целиком 8б это ведь не так много по современным меркам. А так отдельные части не просто никто не мешает обучать, наоборот это практикуют. > У тебя есть какие-нибудь наработки? Откуда, я хлебушек, и знаний только чтобы оценить масштаб проблемы. Ллм так не увлекаюсь, рекреационное применение и переработка конвеером для датасетов визуальных моделей. Если займусь то буду тренировать мультимодалку, что сможет в аниму и блядство.
>>827785 >Только санитарам не рассказывай, лол. Ну вот, а мой психиатр говорит, чтобы я ему всё рассказывал (( >чего еще не используешь сам, хотябы в самом простом варианте чего-то У меня железа тонет, а самый минимальный вариант не даст ничего полезного. Примерно как трансформеры, тут тоже 1,5B ничего полезного не могут, а профит показался от десятка и выше. >Откуда, я хлебушек Окей. Я так то тоже, но хотя бы немного погромизд, максимум, что пока делал, так это тренировал небольшие модельки на 100M полчаса максимум. Железа бы мне побольше, чтобы с неделю покрутить.
>>827787 Распиши что хочешь делать, идеи там какие-нибудь и есть ли понимание как сделать это на практике, а не просто соединить абстракции. Сам тренировал всяких моделей различных назначений и калибров, но все уже файнтюн готовых с изменениями уровня добавить слоев для получения нужной размерности, или инициализация шума по шаблону. Если интересное, может и железо найдется.
Провел экстремальный стресс-тест Геммы 27В, прошла без единого замечания, идеальная модель для одной 4090. Командир отправляется на покой. Ему и до такого русского языка далеко, и до стоимости контекста и до скорости.
>>827791 >Распиши что хочешь делать, идеи там какие-нибудь Я же их не запатентовал, лол. А вообще, выше же написали, >>827754 >условный текстовый энкодер на основе ллм на выходе которого широченный слой с которого уже пойдет в основную модель Плюс в этом энкодере должна быть своя починенная токенизация, тут раз в 10 тредов её обсуждают, ну там объединение слов по склонениям/с большой и малой буквы/прочая. Конкретный код у меня только на эксперимент с софтмакс минус 1, он там показал небольшой прирост показателей, но увы, никакой революции.
Я тебе страшную правду раскрою, но бабы мечтают об износах, у 2/3 баб такой фетиш. Так что все реалистично, наоборот, в соевых моделях бабы как раз НЕ кайфуют от износа, потому что реакция осуждения прописана соей железно.
Чё, кто там трогад L-3.1? Я что-то только разморозился от новости, что 405B выложили. Интересует: - выучила ли она русский - насколько поумнела - есть ли уже годные файн-тюны или с месяц подождать придется
>>827795 Ну это я и писал, это лишь жонглирование абстракциями без структурированного плана. Для подобного нужно быть не просто не хуем собачьим, а на острие тематики и с знатным багажом. Тут бы разобраться с обучением уже имеющихся сочетаний т5 и диффузией сначала. > ну там объединение слов по склонениям/с большой и малой буквы/прочая Подробнее? Такое могло бы быть в плюс как раз энкодерам для кондишнов генеративных моделей, ибо такая мелочь, а создает проблемы. Но для восприятия информации для чего-то большего этого уже нельзя делать. Проебутся акценты и вместо хорошего немецкого имени будет хуй. Весь русский и некоторые языки пойдут нахуй без склонений. >>827796 Сюжет 90% релейтед фанфиков, манги и т.д., чего ожидал?
>>827801 >This study evaluated the rape fantasies of female undergraduates (N = 355) using a fantasy checklist that reflected the legal definition of rape and a sexual fantasy log that included systematic prompts and self-ratings. Results indicated that 62% of women have had a rape fantasy, which is somewhat higher than previous estimates. https://pubmed.ncbi.nlm.nih.gov/19085605/
Официально не нужна. 8В не нужна так как вышел мистраль немо, который официально может в русский язык в отличие от ламы. 70B и даже 405В сосут у большого мистраля. При этом ллама уже уперлась в потолок технологии, она настолько переобучена, что слетает и шизит от малейшего чиха.
А я люблю обмазываться не свежими локалками и дрочить. Каждый день я хожу по земле с черным мешком для мусора и собираю в него все файнтюны которые вижу. На два полных мешка целый день уходит. Зато, когда после тяжёлого дня я прихожу домой, запускаю кобольд, и вываливаю в него свое сокровище. И дрочу, представляя, что меня поглотил единый организм локалки. Мне вообще кажется, что локалки, умеют thinking, у них есть свои семьи, города, чувства, не смывайте их в лицехват, лучше приютите у себя, говорите с ними, ласкайте их…. А вчера на локалке, мне виделся чудный рп, как я нырнул в невысказанное обещание, и оно превратилось в гобелен, рыбы, водоросли, медузы, все из гобелена, даже небо, даже Шлема!
>>827882 Официально не нужны подобные посты. Русский как главный критерий, сравнивает модели разного размера, приводит в пример размер, который здесь запустить смогут единицы, а реально использовать - 3.5 человека. > уперлась в потолок технологии, она настолько переобучена, что слетает и шизит от малейшего чиха Первое сомнительно, каждый раз как в первый, второе - скиллишью. >>827886 > умеют thinking Неистово капитулировал
>>827891 В чате спросили - анон (не я) ответил. По сути тезисов претензии есть? Русский язык вместо переводчика это хорошо, пусть даже в реальности и придётся переводчик использовать (из-за токенизатора, лучшего качества ответа и пр). Теперь русский язык действительно есть, а не как раньше. И размер позволяет анону хотя бы мечтать о запуске модели на своём железе, в то время как большая Ллама в этом плане полная безнадёга. И вообще-то к Лламе нет претензий, просто она устарела да и всё. Просто очень быстро - так вышло.
Анон спросил про Л3.1 в целом, это 8В, 70В и 405В, я дал ему краткую сводку по всем трем.
>Русский как главный критерий
У любого русскоязычного человека это будет важным критерием, даже если у него advanced английский, как у меня. Учитывая что русский сейчас ущемляемый язык второго сорта в мире - то если сетка крутит всех на хуе даже на русском, то на английском там вообще идеально всё.
>>827899 > По сути тезисов претензии есть? Ну да. Норм русский с точки зрения написания и минимума ошибок появился в 3.0 и айе, а потом развился в гемме. Деградацию перфоманса от использования русского так и не измеряли, а без нее это бессмысленно и утверждение > Теперь русский язык действительно есть лишь сам знаешь что. > размер позволяет анону хотя бы мечтать о запуске модели на своём железе Ну, 12б - царский подгон вообще это в любом случае ахуенно. Но его нет смысла сравнивать с лламой, он будет умнее 8б (но это не точно) и хуевее 70б. > размер позволяет анону хотя бы мечтать о запуске модели на своём железе 120б? Ващет тема не новая, была еще осенью, также и с мику извращались. Коммандер 105 вон в наличии. Много кто их использует? Да бля, даже семидесятки мало катаются, а ты про это. > большая Ллама Мем уровня фалкона, нет смысла вводить ее в рассмотрение чтобы потом строить от этого аргументы.
Вот тебе по сути, это напрямую опровергает что > просто она устарела да и всё >>827900 > Это у немо-то и у л3.1 8В разный размер? Да, в 1.5 раза. Их уместно с мелкой геммой только сравнивать. > У любого русскоязычного человека это будет важным критерием Не. Степень важности может варьироваться от человека к человеку, но если оно тупое как айа, или не смотря на возможность писать отвечает хуже чем в инглише, особенно на контексте - нахуй такое счастье. А почти все околоприкладные задачи, с которыми может столкнуться энтузиаст, будут на инглише.
> вахтеров-нытиков типа тебя Я хуею вообще, 3.1 еще нихуя не пробовали и даже не разобрались с запуском без ошибок, как и мистраль, но уже все порешали и кого-то хоронят - норма. Указываешь на это - вахтер! Пойди проспись, что несешь.
>>827912 Если тред почитать то буквально каждая модель ультрасоевая. Сам садишься смотреть - и тебе ебля, и ебля с канничкой, и всякие зверства с негрофемаци-меньшинствами и прочее, да еще в подробностях и с инициативой. Потому подобные заявления уже просто игнорю, это уже какой-то пост-мем. Пока ее не тестил, так что так, к тому же в треде были разные мнения. Справедливости ради, на стоковой 3.0 и некоторых других рпшить тоже неоч, достаточно дождаться более менее приличных файнтюнов. >>827914 > посты с пассивно-агрессивными угрозами Это не угроза а передразнивания оригинального поста > с пассивно-агрессивными угрозами По твоей логике выходит что попускаю вахтера, совсем запутался?
>>827921 > В котором не было наезда на кого-либо. Ааа, значит нести ерунду, делать громкие постулаты и мислидить других - хорошо и богоугодно, а обличать это - не не, оскорбляешь чувства! Ебнулся чтоли, что с таким подходом забыл на аиб в душном техническом разделе вообще?
>>827979 Бля чел, когда перестанешь воспринимать критику как нападение и не согласие с собой как обиду - не будешь так забавно себе же же противоречить.
Я просто ответил на оскорбление оскорблением и пошел бы дальше по своим делам, но ты обиделся и развонялся по этому поводу на весь тред, прекрати позориться уже, вахтер.
Мы просто путешествовали и пару раз держались за руки, а она себе что-то напридумывала. О какой, нафиг, любви она говорит? это вообще нормально для моделей?
Аноны, а куда делись gguf кванты обычной gemma-2-27b с huggingface? Я почему-то не могу найти ничего кроме файнтюнов и IT версии геммы. Гуглопидоры позакрывали репы с квантами обычной геммы?
>12400+64гб+4060ти16гб Аноны, подскажите пожалуйста ссылки на хаггинфейс, что скачать чтобы локально вкатиться? Там очень много версий одного и того же, пока не могу понять, что конкретно лучше. И оболочку какую лучше использовать?
Кстати объясните пж что такое flash attention и llm streaming (в настройках загрузки модели в убабуге). Как я понял, это какие то свистоперделки для контекста, но так и не смог найти понятной инфы
>>828046 >llm streaming Поточный вывод - ответ модели выводится прямо в процессе его генерации. Без этого будет выводиться только когда ответ будет полностью сформирован (типа как сообщения в мессенджерах).
>flash attention Если совсем кратко и без знания основ - механизм оптимизации производительности модели. Положительно влияет на скорость работы и потребление памяти (сокращает), практически не влияет на качество. На русском языке годных статей про него пока не обнаруживается.
>>828045 > мистраль не оригинальная? > Mistral is very similar to the LLAMA2 architecture. The main addition is the sliding window attention. https://www.reddit.com/r/LocalLLaMA/comments/171ar0n/please_explain_how_was_mistral_made/ Вторая лама со спецэффектами. По-сути, до того, как слили первую ламу, ничего подобного и близко не было. Именно это стало поворотным моментом в истории LLM. Так или иначе, всё опенсорсно-локальное, что было сделано после марта 2023 - это производные ламы. Даже китайские ChatGLM это в какой-то мере лама, как минимум, на уровне некоторых решений оттуда.
>>828051 >Поточный вывод - ответ модели выводится прямо в процессе его генерации. Без этого будет выводиться только когда ответ будет полностью сформирован (типа как сообщения в мессенджерах).
Это то я знаю, но спрашивал про другой стриминг. Там прям под флеш аттеншеном опция.
Ещё заметил что на большом контексте немо начинает бредить, причём короткими сообщениями. НО только при включенном flash attention. 8bpw exl2. Проблема и на Exllama и на hf. Знает кто в чём дело?
>>828066 Всё зависит от VRAM. Для начала тюны тройки 8B это база. Stheno или Lunaris (если можешь в английский). Да и в шапке есть список всех ходовых моделей.
>И оболочку какую лучше использовать? Всё это есть в шапке "Гайд для ретардов": Можешь начать с кобольда, как самой простой платформы, потом накатить поверх таверну, лучший фронтенд, а когда освоишься, можно переходить на угабогу с эксламой.
>>827740 >>827745 Но вопрос контекста все еще остается, ибо в отличии от диффузных картиносетей нам требуется поддерживать крупный длительный диалог, а не довольствоваться одним результатом работы Либо нужна нереально мощная сетка, способная пережимать нереальное число смыслов в одном ответе, сводя каждую мысль до крайне малого объема... Упс, мы изобрели токены
>>828083 эээ у меня вроде нет по консоли видно что на свайпе он сразу занимается генерацией и по нагруке проца видно а бугабуга с видяхой мин 5 тупо простаивают а потом работают пол мин
Слушайте, а если ли локальные LLM, которые еще могут генерировать картинки? koboldcpp поддерживает такую функцию? Хотя бы в разрешении 256х256 бы, потому что, как я понимаю, мощности ПК не хватит чтобы и то и то одновременно крутить.
>>828090 а вот уба на свайпах подтягивает в 99% случаев исключения были давно и не помню с чем связаны давно убу не юзал но я уверен что так было иначе б я так не горел 1 хуй у цпп время ожидание хотяб динамично а не жестко к размеру модели\контекста привязано
Какая сетка самая маленькая, при этом может адекватно говорить на инглише? Phi - 3.8б, есть ли что-то еще меньше? Хочу понять минимум, ниже которого уже начинается коверкание слов.
>>828094 несовсем ты можешь подкрутить генерацию пикч через сд посредством плагинов но да видяха охуеет генерить текст и пикчи а озу содержать все это одновременно
Intel Core i5-12400F терпимо для inference LLM'ок? В паре с GeForce RTX 3060 и 32 GB RAM. Мне бы 7B-8B модельки с хотя бы 16K контекстом запускать в Q8 за 20-40 ток/сек.
>>828127 Значит этот калькулятор так себе работает: huggingface.co/spaces/NyxKrage/LLM-Model-VRAM-Calculator Согласно нему 7B модель в Q8 с 16K контекстом занимает 10 GB VRAM Еще вопрос, какие характеристики важны в CPU для inference? Кол-во ядер? Скорость RAM важна? Нужно брать минимум DDR5?
>>828131 бля псковшину тож не каждый могет без ошибок >>828136 проц все равно бымтрее угабуги которая пол века каж раз перезагружает в врам то что там и так должно быть
>>828136 Да, знаю. Поэтому хочу взять вместе с RTX 3060. Думал выгружать все в VRAM. Интересно, а если 12B модель как Nemo. Понятно с контекстом полностью не влезет, можно выгрузить только контекст? Или только слои самой нейронки.
Я не понял, ламы 3.1 мультимодальные что ли? В статье написано, что обучение было в том числе и на картинках и на OCR. В обнимордовском чате для ламы 405В есть возможность запрашивать генерацию или правку картинок.
Поясните тупому, плиз, если все эти нейронки могут генерировать код, то почему сами нейронки не переписать с богомерзкого Python на православные С, С++, Rust или Go? Ведь тогда и в 10 раз быстрее работать будет и в 100 раз меньше памяти жрать. Почему так?
>>828161 Python используется ради удобства и доступных инструментов + сам язык проще. В области ML много не чистых программистов, а в Python порог входа ниже.
Кто мечтает о локалках Очень смелый видно тот Потому что только смелый Себе лламу заведет Потому что самых смелых Раздражает гопота Потому что у локалок Всё зависит от кванта! От-от-от кванта От-от-от кванта
>>828141 Ты был прав, 8B 8q 16k у тебя поместятся без пробелем. Но вот немо даже с 8192 контекста 13гб, будет замедление. Касательно проца и памяти, если ты не выгружаешь на них слои то они практически не играют роли.
Ещё одна бумага на очевидную, но очень важную тему. Нейронки, обученные на нейроконтенте - тупеют. Особенно тупеют они при генерации данных рекурсивно одной сетью для её же обучения. Но то же верно и для экспертного обучения, когда эксперт генерирует данные для обучения нейросети. При этом наблюдается сразу несколько эффектов. Первый - обучаемая модель полностью забывает токены с низкой вероятностью возникновения. Второй - модель всё сильнее заражается более вероятными токенами. И третий, накопление ошибки - ошибочные токены получают всё более высокую вероятность и возникают всё чаще. И даже больше >Later generations start producing samples that would never be produced by the original model, that is, they start misperceiving reality based on errors introduced by their ancestors.
Отравление данных и катастрофическое забывание являются близкими понятиями, но не объясняют полностью ситуацию.
Ну и в конце пишут, что не всё так плохо, модель может обучиться задачам даже на синтетических датасетах, просто будут крайне тупые за пределами этих задач, галлюцинировать и т.д. А так как весь интернет уже завален нейроконтентом, надо что-то думать дальше.
>>828175 Не дней. У тебя есть контекст - 4, 8, 10к токенов. Всё, что за его пределами - модель не запомнит.
1. Увеличивай контекст, пока хватит видеопамяти, когда найдешь свой потолок для конкретной модели - включи 4 бит кэширование контекста, это уменьшит его размер в памяти почти в 4 раза, что позволит увеличить контекст в 3-4 раза. 2. Используй суммаризаторы старых сообщений.
>>828179 > Но вот немо даже с 8192 контекста 13гб, будет замедление как сильно замедляется? если выгрузить 20-30% слоев на проц, можно рассчитывать хотя бы на 10 ток/сек > они практически не играют роли прекрасно
>>828175 Почитай про RAG. Вроде как есть решения с RAG для увеличения памяти у чатботов, а не только для добавление новых знаний. Я сам не пробовал, но было бы интересно посмотреть. Простых решений из коробки с UI не нашел. Можешь еще посмотреть проект MemGPT, у них и свой UI есть, но там другой подход и не уверен, что есть маленькие локальные модельки, которые смогут работать с ним.
8 бит не корежит вообще, зато увеличивают размер возможного контекста в 2 раза за счет уменьшения его размера в 2 раза. 4 бит в теории уменьшает в 4 раза, но его вроде как надо тестировать на каждой модели индивидуально, может и ломать.
>>828191 В одну Теслу полностью влазит Мистраль немо в 8 кванте и 48к контекста, что уже неплохо. Если есть вторая, то думаю и полный контекст можно загрузить, либо в ОЗУ.
Может и сожрать, но у меня все было норм, когда я тестил на 4 бит коммандире, которым без этого вообще нельзя пользоваться, потому что у него контекст слишком тяжелый в отличие от остальных моделей. >А если уже квант меньше 8?
Одно с другим не коррелирует, квант модели режет точность её ответов, квант кэша - точность хранимого контекста.
>>828180 >Нейронки, обученные на нейроконтенте - тупеют. Особенно тупеют они при генерации данных рекурсивно одной сетью для её же обучения.
Яка сумна новина, кто бы мог подумать что так произойдет. А ведь я еще когда все началось писал в треды что нас ждут темные века нейрокалтента, обученного на нейрокалтенте, обученного на нейрокалтенте и скоро будем старый человеческий контент выискивать с лупой и хранить в подземных бункерах, как остатки произведений античности прятали в средневековье.
>>828209 Сейчас проверил на старом чате 32к контекста, грузило 3 минуты. Видимо на тесле условно уходит минута на 10к, тогда 12к будет 13 минут грузиться. Да, тут уж лучше сумморайзом пользоваться.
У тебя переполнения памяти точно нет? Просто там нвидиа включает говномеханизм замедляющий все в десятки раз, рекомендую его отключить нахуй в контрольной панели, чтобы он просто выдавал ошибку вместо этой хуйни.
>>828217 Как же всякие модели вроде Phi, обученные на синтетических данных? В них используется подход, описанный в этой работе: arxiv.org/abs/2306.11644 Если совсем кратко, они генерили на GPT-4 датасеты в виде "учебников" на основе которых уже обучали свою нейронку. Правда в последнем Phi в обучении использовали дофига и не синтетических данных.
>>828249 Мимо Запустишь, тебе нужно выгрузить слои на cpu. Ты этот ползунок не трогал как я понимаю, он пытается всё вгрузить в vram и переполняет. Ну короче пробуй, может и будет быстрее. Но после перезагрузки модели один фиг ждать пересчёт контекста, помни это.
>>828097 Тоже интересовался "разумностью" мелких сеток, кое как работают, но нужно делать их промпт формат если хочется получить идеальный ответ, на который они и тренены
Например даже это работает и отвечает/пытается Lite-Mistral-150M-v2-Instruct , самая мелкая из тех что я щупал и она даже что то пыталась отвечать в контексте заданного Есть еще qwen2-0_5b-instruct ну и qwen2-1_5b-instruct, эти уже получше Дальше только phi3.1 и она уже удивительно хороша для своего размера
Все эти сетки есть в ггуф и запускается нормально, ну и квант качать самый жирный из тех что тебя устроит. Тут мелочится не стоит, 8 минимум
>>827989 Не хотел тебя именно оскорблять, просто передразнил для более явного указания на ложность утверждения. Токсичная среда, извини уж, но и тебе стоит менее радикально писать. > прекрати позориться уже, вахтер А, пожар из-за несогласия и повторение без аргументации. Правильно все значит, надо было сильнее гнобить. >>828039 > несколько оригинальных моделей Несколько базовых моделей, верно. Еще китайцы и другие модели что не перечислены. Их файнтюны могут быть как хорошими, так и полной херью, в последнее время больше второго. >>828042 Мистраль, qwen, yi и прочие народным творчеством не назвать. У первого 7б с нюансами и явно не с шума тренирован, но кому это интересно сейчас. >>828064 Версии всего последние? У геммы была проблема совместимости, после патчей fa заводится, возможно здесь то же самое.
>>828084 > Но вопрос контекста все еще остается В теории, склеивать "смысловые чанки" можно сколько угодно и потом пачкой подавать. Вот только если просто так то будем проебывать их очередность, что множит на ноль все. Нужно как-то этот момент обыграть, например делать дополнительный вход на который будет поступать мега-йоба-смысловой суммарайз всего крупными мазками. > Упс, мы изобрели токены Ну типа просто банально двойной-тройной запрос текущей, уже имеющейся модели сделать и получить должный эффект и постепенного раскрытия, и переработки и улучшения, и прочего - легко. Этот метод развить с использованием разных сеток для разных проходов, операции с логитсами добавить, мое - проще и перспективнее.
Как владелец 4090 - не соглашусь. Если покупал говновидяху только ради ллм - то да, долбоеб. Если просто вкатился с имеющейся ртх видяхоц - то норм, стремящийся.
>>828161 > Ведь тогда и в 10 раз быстрее работать будет Не будет, особенно если кодить как сейчас макаки делают и за ними копируют нейронки. Вот провести ими анализ кода и заняться оптимизацией - можно. Но там все равно хватит и ручного труда и это мало кому надо. >>828180 Не ново, но тут вроде как оценили что хорошо. > Отравление данных и катастрофическое забывание являются близкими понятиями Вообще не близкими, хотя наблюдаемые последствия могут быть схожими. >>828188 Кто-нибудь тестировал, могут ли они их реально обрабатывать и понимать, или как 32к в первом мистрале?
>>828240 Во, вот этого отчасти двачую, даже на амперах-адах стоит окунуться в жорадействительность, привыкши с работе экслламы - ахуеваешь. Но зря ты так жестко, словишь хейта за неудобную тему, тут бы хоть как-то запускать мирясь с проблемами. >>828407 > Если покупал говновидяху второй только ради ллм То вроде уже не так уж и плохо, по крайней мере сможешь катать остальные сетки на основной карте. >>828277 Может, часто причиной лупа и затупов является полнейшее непонимание модели происходящего, вот она и пытается повторять прошлое выхватив только эту закономерность.
>>828161 >и в 100 раз меньше памяти жрать Схуяли? По памяти как раз никаких подвижек не будет без перетренировки моделей с нуля. >>828180 >Ещё одна бумага на очевидную, но очень важную тему. Даже читать не вижу смысла, всё и так очевидно. >>828180 >А так как весь интернет уже завален нейроконтентом, надо что-то думать дальше ОпенАи со своим контентом, сграбленным до 2021 года, так и останется в топах, лол. А вообще, очевидная фильтрация очевидна. >>828298 >Какая модель из локально разворачиваемых на текущий момент лучшая в кодинге? Мистраль ларге, которая на 123B. >>828386 >то будем проебывать их очередность Как и в токенах же. Их множат на позиционную матрицу, лол. >>828411 >Где обновленная Medium/Мику, блядь? А это общая болезнь, выпадение средних размеров. >>828439 >В этом году наверное ничего лучше уже не будет Полгода вперде, алё. >>828480 >эту хуйню в 3 бит только А минусы будут?
>>828535 > А минусы будут? Скорее всего нет, если судить по тому какие вероятности на выхлопе. Там в 99% не более 2-3 токенов, 3% потерь PPL от квантов тут роли не сыграет.
>>828094 > если ли локальные LLM, которые еще могут генерировать картинки Нет. Там сама парадигма процесса другая а не предсказание вероятности следующего токена, хотя что-то общее есть. Если перегонять пикчу даже уже в латентном пространстве после типичных энкодеров для диффугии в токены без потери информации - убервсратый шакал будет занимать примерно 8к токенов, что-то сносное - десятки тысяч. Можешь представить сколько это будет генерироваться даже в теории. Диффузионные модели к твоим услугам, никто не мешает использовать их совместно с ллм, как для обработки параметров и промта, так и напрямую для создания кондишнов, которые напрямую пойдут на ее вход минуя энкодеры, хотя это больше в теории. Диффузия есть не только для пикч но и для аудио если что. >>828101 Ее даже на старой малине запускали, по минимуму и 1030 хватит, требования к озу малы. Но чтобы был крутой результат - да, желательна вторая карточка, или на время работы сгружать ллм в рам и подгружать диффузию, а после наоборот. >>828702 По времени и результату это ужасно. Зачем? Будет максимальный ор если вратость связана с запаковкой в жорин формат, такой-то мидас наоборот.
>>828862 Там была вкадка сд квант ембдидинг и виспер, сд освоил получается кроме vae, теперь остальное. Точнее vae нашел, но судя по размеру грузит другой Про генерацию с куды не жди обзора с моих 2 гб vram, вот 1 картинка которую делал на eva cuda, слишком греет.
>>828887 >>828890 Чет ничего не понял. Что значит слишком греет? 2гб врам будет лучше чем пол часа на профессоре. >>828930 > просто в один клик - олама В отличии от нее кобольд позволяет иметь и сносный гуи, полноценные удобный настройки с функционалом, и заточен на работу с апи, а не просто сделать галочку "я запустил чатжпт у себя на пеке" в ачивки васянов.
>>828990 >>828994 Короче сформулирую по другому мой аргумент: кобольд слишком сложен для простого юзера, и в то же время слишком неудобен для прошаренного.
>>828997 Вроде наоборот, у кобольда максимально привычная последовательность: скачал бинарник@запустил. Да, там есть настройки, но они хотябы есть. В случае с олламой для юзверя, не смотря на похожее начало, у нее и инсталлятор припезднутый, что требует закрывать другие приложения, и дальше имеешь припезднутую сонсолечку в которой заебешься разбираться. Настройки некоторые вроде как и есть, но менять их ужасно неудобно.
>>829003 >Кобольд находится посередине. Кобольд это это удобно. Кобольд работает в один клик. Кобольд это жизнь? Да нихуя не в один клик, после открытия гуи еще нужно искать пресет сохраненный, открывать его, и только потом ланч нажимаешь. В чистой жоре можно просто команду в батник сохранить и тогда будет тру один клик.
>>829003 Двачую. Kobold - самый оптимальный фронтенд к llama.cpp. Не слишком примитивный, не переусложнённый, достаточно легковесный в отличие от поделок на Electron. Кому не нужны различные тонкие настройки может их просто не трогать.
>>829018 > В чистой жоре можно просто команду в батник сохранить Запусти уже koboldcpp.exe --help, увидишь, сколько там опций для автоматизации настроек.
>>829050 >>829052 Друзья, согласно статистике репозиториев 82 процента от кобольда и 57 от ламы написано на C++, на питоне в обоих случаях только 1.8 и 6.1 процентов соответственно
>>828994 Карта в блоке греется от награзки, охлаждение плохое на карте, жалко. А с процем такого нету, еле теплый. Давай поясню на моей 1030 - 15 сек/т, на проце 20 сек/т, но карта греется.
>>829113 Мне карта только для монитора, мать в стоке не держит 4к через hdmi. Поэтому жечь я её не буду ради 5 т/с. Менять оборудования не буду, жду ddr6.
>>829127 > А мне кажется до осени Без шансов, с ддр5 еще долго сидеть. Амд вообще только одно поколение для них выпустило, можешь по прошлым и там и там проследить сколько их менялось до перехода на новую. > Идет за 70 Пофиг вообще, там ломаться нечему.
>>829127 >А мне кажется до осени, когда новая линейка интел. Новая линейка будет продаваться по оверпрайсу если она вообще выйдет, по этому в любом случае тебе будет выгоднее взять карту, даже пусть со вторички и с отклеивающимися чипами памяти.
У меня Dell Vostro 3888 там все в круг менять, максимум тянет 10700F и 64 Gb на 2933 MHz. По видеокарте все упирается в БП на 200 Вт. В любом случае, спасибо за дельные советы. Планирую оставаться на нем, до смены линейки.
>>829181 Можно подключать внешний блок через синхронизатор и питать им карту, это да. >>828732 Держи, в новой версии все на english. Подключается к модели через настройки. Пока до конца не понял как должно быть.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2. Недавно вышедшая Llama 3 в размере 70B по рейтингам LMSYS Chatbot Arena обгоняет многие старые снапшоты GPT-4 и Claude 3 Sonnet, уступая только последним версиям GPT-4, Claude 3 Opus и Gemini 1.5 Pro.
Про остальные семейства моделей читайте в вики.
Основные форматы хранения весов это GGUF и EXL2, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGUF весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся
Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama , https://lmstudio.ai/ и прочее - Однокнопочные инструменты для полных хлебушков, с красивым гуем и ограниченным числом настроек/выбором моделей
Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус до 1 февраля 2024 года
https://huggingface.co/LoneStriker, https://huggingface.co/mradermacher Новые поставщики квантов на замену почившему TheBloke
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
https://ayumi.m8geil.de/erp4_chatlogs/ Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard Сравнение моделей по (часто дутым) метрикам (почитать характерное обсуждение)
https://chat.lmsys.org/?leaderboard Сравнение моделей на "арене" реальными пользователями. Более честное, чем выше, но всё равно сравниваются зирошоты
https://huggingface.co/Virt-io/SillyTavern-Presets Пресеты для таверны для ролеплея
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
https://rentry.co/llm-models Актуальный список моделей от тредовичков
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде
Предыдущие треды тонут здесь: