Сохранен 512

https://2ch.su/ai/res/825177.html

большие языковые модели /ai/ - Искусственный интеллект 2ch

К сожалению, значительная часть сохранённых до 2024 г. изображений и видео была потеряна (подробности случившегося). Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №71 /llama/

Аноним 23/07/24 Втр 21:47:46 #1 №825177

Llama 1.png

Альфа от контекста.png

KL-divergence statistics for Mistral-7B.jpg

329748269-9c772390-dd48-499b-be49-9acb97130b46.png

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2. Недавно вышедшая Llama 3 в размере 70B по рейтингам LMSYS Chatbot Arena обгоняет многие старые снапшоты GPT-4 и Claude 3 Sonnet, уступая только последним версиям GPT-4, Claude 3 Opus и Gemini 1.5 Pro.

Про остальные семейства моделей читайте в вики.

Основные форматы хранения весов это GGUF и EXL2, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGUF весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama , https://lmstudio.ai/ и прочее - Однокнопочные инструменты для полных хлебушков, с красивым гуем и ограниченным числом настроек/выбором моделей

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус до 1 февраля 2024 года
https://huggingface.co/LoneStriker, https://huggingface.co/mradermacher Новые поставщики квантов на замену почившему TheBloke
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
https://ayumi.m8geil.de/erp4_chatlogs/ Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard Сравнение моделей по (часто дутым) метрикам (почитать характерное обсуждение)
https://chat.lmsys.org/?leaderboard Сравнение моделей на "арене" реальными пользователями. Более честное, чем выше, но всё равно сравниваются зирошоты
https://huggingface.co/Virt-io/SillyTavern-Presets Пресеты для таверны для ролеплея
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
https://rentry.co/llm-models Актуальный список моделей от тредовичков

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>819978 (OP)
>>811392 (OP)

Аноним 23/07/24 Втр 21:51:44 #2 №825188

>>825177 (OP)
На 4 пике Жора копает могилу своему говнокоду?

Аноним 23/07/24 Втр 21:52:00 #3 №825189

изображение.png

>>825173 →
>Один ты тут триггеришься
>ррряяя я не рвусь эта ты врьёшься!!111

>>825175 →
А в сарказм ты не умеешь Хочу 4090 с такой мотнёй, но чтобы можно было заменить на нормальные 3х8, а не ту горелую 12 пиновую парашу. 4090 вообще с нормальным разъёмом есть?.

Аноним 23/07/24 Втр 21:54:25 #4 №825196

Анон проебал 17к на китайский палёный картон.png

>>825188
То, что родилось мёртвым, в закапывании не нуждается.
Эх, а всего лишь 8 месяцев назад тесла стоила 17к...

Аноним 23/07/24 Втр 22:00:31 #5 №825208

>>825177 (OP)
Назовите ваш ТОП 3 моделей до 20B для (E)RP.

Аноним 23/07/24 Втр 22:01:25 #6 №825214

Не понял почему так модно жору обсирать, разве он не ёбаная мессия которая преподносит и делает более доступным новейшие технологии в массы7??? А??

Аноним 23/07/24 Втр 22:02:02 #7 №825215

>>825189
> в сарказм ты не умеешь
Извини, факт

>с нормальным разъёмом есть
Дефайн нормаальный. Нафиг этот соплестрой с куче 6+2 тебе потом 600Вт в 5090 по нему заливать ещё. Просто взять нормальный широкий корпус один раз и вообще в ус не дуть. Главное же, чтобы стенка не гнула разъём. А если от стенки до кабеля ещё пара см, то ничего плохого не случится.

Аноним 23/07/24 Втр 22:04:37 #8 №825220

>>825196
>всего лишь 8 месяцев назад тесла стоила 17к
Я по весне успел отхватить P40 за 15к на Авито, как-то удачно подвернулось.
В прошлом треде постили ссылку на продавана AliExpress, где было за 24к (хотя бы!). Сейчас, наверное, проще взять б/у RTX 3090 за чуть большую сумму.

Аноним 23/07/24 Втр 22:06:37 #9 №825226

>>825214
Конечно, он - бог мирового масштаба. Хейтеры в большинстве своём ни строчки серьёзного кода в своей жизни не написали.

Аноним 23/07/24 Втр 22:11:41 #10 №825238

>>825201 →
>в третьей лламе недообучены все слои, кроме слоёв cелфатеншона
Лол, и это 15Т токенов датасетов.
>сравнивают их с RNN сетями, мол, только там мы добрались до потолка
А какие там максимальные размеры у рекуренток?
>>825214
Имиджборды, сэр.
>>825215
>Нафиг этот соплестрой с куче 6+2
Оно хотя бы не горело, и в нём не уменьшали площади контакта хуй знает с какой целью.
А так самый нормальный это CPU который, 8 рабочих контактов, 200 ватт мощности, и 2 штуки максимум на видяху, ибо ебал я современные кековатные калориферы.
>Просто взять нормальный широкий корпус
У меня с корпусом всё нормально. И блок питания титановый. Но блядь без этих новомодных уёбищных разъёмов, ага.
>>825220
>продавана AliExpress, где было за 24к
Там такой мутный продавец, что проще сразу деньги сжечь.

Аноним 23/07/24 Втр 22:22:50 #11 №825260

>>825220
Должно что-то новое появиться. С АМД-картами совсем всё глухо? Я слышал про vulkan как неплохую альтернативу CUDA хотя бы для инференса. Не уверен конечно.

Аноним 23/07/24 Втр 22:24:16 #12 №825263

Я наверное как всегда опаздал, но всё
https://www.youtube.com/watch?v=t3SBDEKkQf4

Лама 3.1, 405b в опенсурсе.

Но что больше интересно для форума 3.1 8b резко улучшила все характеристики и... 128к токенов из коробки. УРАААА

Сегодня на моей улице праздник

Аноним 23/07/24 Втр 22:26:10 #13 №825266

>>825263
Давай ещё каждые 10 постов это писать будешь.

Аноним 23/07/24 Втр 22:27:30 #14 №825272

28c2540c7018dded41760411f3738f99.jpg

ВСЕ СОСАТ!

Джина обратно не затолкать

Аноним 23/07/24 Втр 22:27:58 #15 №825273

>>825266
Да, тред перекачен а я ленивое жЫвотное, что бы читать прошлый. Не был там.

Аноним 23/07/24 Втр 22:35:37 #16 №825296

>>825260
>Должно что-то новое появиться
Кому должно? По сюжету прописано что ли?
>>825263
>3.1 8b резко улучшила все характеристики
А 70-ку выкатили?
>>825272
>MMLU на уровне, MMLU Pro отсос
Вангую просто загрязнение данных, 405B втупую может выучить все тесты не напрягаясь.

Аноним 23/07/24 Втр 22:36:27 #17 №825298

>>825263
Ты че ебанутый мы еще слитую модель вчера обсуждали

Аноним 23/07/24 Втр 22:40:07 #18 №825307

>>825140 →
а где ты возьмешь разнообразие то у самой модели, если в датасете просто его нет для кума и рп? я этот момент не понимаю совершенно

Аноним 23/07/24 Втр 22:40:20 #19 №825309

Image.jpg

Big-tiger-gemma-27b расцензурена, говорили они...

Аноним 23/07/24 Втр 22:41:08 #20 №825312

>>825296
>А 70-ку выкатили?
Да

Аноним 23/07/24 Втр 22:44:20 #21 №825316

Кто в итоге лучше? Большая Тигра Гемма 27 или ллама 3.1 8? И то и то если брать восьмой квант

Аноним 23/07/24 Втр 22:45:28 #22 №825318

>>825316
гемма выдает текст который не противно читать...

Аноним 23/07/24 Втр 22:47:48 #23 №825322

>>824815 →
> Сходил бы к врачу
Ты сходи к врачу, обосранец. На вопрос как это относится к предмету обсуждения - перекаты, когда тебя опять возвращаешь к предмету - вот эта шиза. Мамкин маневратор, чего только не придумает чтобы не отвечать и свернуть с неудобной темы.
>>824855 →
> третья ллама должна развёртываться исключительно совместно с тремя соефикаторами
Это же замечательно, значит в стоке сои минимум.
>>824865 →
Всем лень. Отдельные люди занимались но делали субъективные/ошибочные/специфичные чарты и оценки, типа
> плотности хорни-слов
, оценки "iq" по какой-то припезднутой карточке, тесты немецкого, попытки в рп без семплинга и подобное.
Это множится на большое количество выходящего треша в 90% случаев поломанного и мало отличающегося между собой, что заведомо заставит ставить все это на поток в попытке угнаться за актуальностью.
Так что можешь сам попробовать заняться
>>824871 →
> >пиздёж за юзера, для инструкт-моделей
Это проблемы рук юзера, который не может настроить промт формат, или совсем ушатанная модель.

Аноним 23/07/24 Втр 22:52:43 #24 №825327

>>825214
Он большой молодец и сложно с этим спорить. Но частенько косячит.

>>825238
>Лол, и это 15Т токенов датасетов.
Опять же, это может быть ошибочным выводом. Я же не специалист уровня парней из меты. Даже если это так, то тут сложная ситуация - некоторые слои обучены, некоторые - недостаточно. Морозить часть и обучать остальное? А будет ли профит? Насколько близко модель к оверфиту мне было уже лень смотреть, как-нибудь доберусь.
>А какие там максимальные размеры у рекуренток?
Они хуёво параллелились, вряд ли было что-то сильно больше 10b. Не так давно был мутант rnn с трансформерами, 14b, авторы говорили, что это самая большая rnn, которая была натренирована за всё время.

Аноним 23/07/24 Втр 22:54:03 #25 №825329

>>825316
>Кто в итоге лучше
В каком бля итоге, даже дня не прошло с релиза

Аноним 23/07/24 Втр 22:57:24 #26 №825332

>>825307
Ниоткуда, это способ подтяжки модели по тем моментам в которым она плавает, а не преодоления элайнмента. Для этого тебе надо её учить плохим словам сначала, на сыром датасете.

Аноним 23/07/24 Втр 22:58:59 #27 №825333

>>824972 →
> Только вроде кажется что всё норм и тут же модель начинает повторять в каждом сообщении фразы.
Платиновый вопрос ггуф ли это?
> случайно найденый сетап с какой-то из mlewd
Там, как правило, с альпакой-ролплей катали.
> работающим пресетом и моделью до 35b
Коммандер и пресет коммандера, внезапно. Гемма и пресет геммы, или модифицированный инстракт с жб из прошлого-позапрошлого треда.
>>825165 →
> речь-то про домашние запуски
Так это из дома, берешь и запускаешь, в чем проблема?
> что там у тебя дома 2-3 токена на 100 гигах выдает
Могу устроить абсолютное мужское слияние на 144гб врам
>>825164 →
>>825175 →
Это самое беспроблемное что в ней есть. Однорядные малонагруженные разъемы, ерунда. То ли дело всратый охлад врам, которая в стоке перегревается, запараллеленные фазы с неудачными элементами и прочее.
>>825214
Он ебаная мессия, но в то же время кривохуй который постоянно косячит. Такая вот многогранная личность.
>>825263
> 128к токенов из коробки
Круто ведь. Надо только потестировать насколько оно адекватно будет обрабатывать хотябы простое извлечение факта.

Аноним 23/07/24 Втр 23:00:06 #28 №825336

>>825322
>Это проблемы рук юзера, который не может настроить промт формат
Нет, это следствие
- тренировки на неправильном формате ролеплея
- внутриконтекстного обучения. Случайно попадёт пиздёж за юзера в ответ - и эта хуйня начнёт повторять.
Все РП модели пиздят за юзера в той или иной степени, это отбивается именно специфической тренировкой

Аноним 23/07/24 Втр 23:02:35 #29 №825341

sqrt.png

>>825322
>чего только не придумает чтобы не отвечать
Я могу повторить твой манёр и сказать - пиздуй ищи ответы сам, там где-то были, толи в дискорде, толи в телеге. Мне уже лень доказывать что-то человеку, который не понимает элементарных вещей.
>как это относится к предмету обсуждения
Действительно, как же относится замена в формуле ранга на корень из ранга, когда мы обсуждаем соотношение ранга к альфе?

Аноним 23/07/24 Втр 23:21:56 #30 №825356

>>825336
Ну типа да, это и вкладывал в ушатанную модель. С выходом 3й лламы приличных тюнов что были бы адекватны совсем единицы, увы. Базовые модели хороши, с ними можно вполне взаимодействовать и таким не страдают.
> пиздят за юзера в той или иной степени
Скорее отыгрывают молчаливое согласие или иногда продвигаются дальше чем нужно, если речь про нормальную. Например, прочишь чара сделать тебе завтра или кофе, оно может написать от
> вот чар идет на кухню и приступает в нарезке овощей ...
до
> хуяк хуяк вот крутой аромат доносится с кухни и уже тебе принесли блюда которые ты начинаешь кушать
Первое может показаться слишком медлительным и безинициативным, второе наоборот, это вкусовщина, проявляется и на коммерции. Потому, если знаешь что хочешь совершить какое-то действие - или свайпаешь пока не получишь нужное, или пишешь
> шепчет на ухо "Тогда иди закрой дверь на замок" следует за ней (ooc: остановись на моменте когда она закроет дверь).
>>825341
Вот теперь давай объясняй, каким образом эта выдернутая строка относится к тому что нужно ставить альфу х2 от ранга и к тому что ее вообще нужно как-то привязывать к рангу, а не ставить константой. Предвосхищая очередные маневры - это лишь опциональный флаг и задуман для другого, потому и зависимость не линейная, про которую ты пытаешься имплаить, а корень.
Давай, просто объясни это, чтобы мы опять полюбовались твоей повальной беграмотностью.

Аноним 23/07/24 Втр 23:24:05 #31 №825359

>>825309
>3-х битный квант
>таверна с русеком
Это просто ты необучаемый.
>>825327
>Морозить часть и обучать остальное?
Проблема в градиентном спуске, он просто даёт слишком малые коэфициенты коррекции к дальним от входа слоям. Тут разве что обучать модель с меньшим числом слоёв, а потом бахать сверху ещё пачку.
>>825327
>Не так давно был мутант rnn с трансформерами, 14b
Случайно не RWKV? Я её даже запускал, лол.
>>825329
Проснись, сингулярность, ллама 3.1 уже устарела, ведь вышел фанатский тюн от васяна.

Аноним 23/07/24 Втр 23:24:50 #32 №825360

>>825359
>к дальним от входа слоям
От выхода конечно, вот я долбоёб.
быстрофикс

Аноним 23/07/24 Втр 23:27:04 #33 №825362

>>825359
> Это просто ты необучаемый.
Забыл еще полностью отключенную отсечку в семплерах
> он просто даёт слишком малые коэфициенты коррекции к дальним от входа слоям
Наоборот типа, но оно не особо существенно же. И послойный/поблочный множитель для этого добавляли, вроде даже в тред скидывал статью.
> от васяна
От рем_х_левд_хорнирп_товрожок

Аноним 23/07/24 Втр 23:33:51 #34 №825366

>>825362
>И послойный/поблочный множитель для этого добавляли, вроде даже в тред скидывал статью.
Прям добавили, или очередной препринт без внедрения в сетки? А то если разом все препринты добавить, то тут сразу AGI появится нахой.

Аноним 23/07/24 Втр 23:37:17 #35 №825368

>>825332
А хочется именно разнообразия, чтобы все не скатывалось к самым банальным тропам из всех возможных. может не сразу грандиозное, а например буст к отыгрышу конкретного архетипа или сеттинга

Аноним 23/07/24 Втр 23:42:56 #36 №825374

>>825212 →
Интересно, а то я, по нейрал-тюнам, считал, что синтетика — это когда данные сгенерены другой моделью. И по качеству нейрал-тюнов синтетика выглядела максимально убого. НейралГермес был максимально скучной моделью.
А оно вон оно шо оказывается…

>>825189
Ну если ты не способен воспринять очевидный рофл — это твои проблемы, чел. =) Реально ж, один ты рвешься, причем хуй пойми с чего, тупо с шутки.
Ты предупреждай, что тупой, я не буду в следующий раз шутить, чтобы не обидеть.

>>825214
Он не выполняет хотелок хейтеров, очевидно.
И железо у него не то, и подход не верный, и пишет плохо, всем плох!.. =)

>>825238
> проще сразу деньги сжечь
Ну, Алик, если шо деньги бы вернули, не?
Давно не покупал, а когда покупал — проблем с возвратом было в разы меньше, чем с нынешними озонами и яндексами.

>>825272
Но есть две проблемы.
1. Ты не запустишь это у себя.
2. Если запускать на проф.железе, то выйдет дороже.
…

>>825327
> Я же не специалист уровня парней из меты.
Судя по апдейту лламы-3 — даже парни из меты не специалисты уровня парней из меты… =)

———

128к контекста, конечно, круто.
Но, во-первых, как писали выше, хрен его знает, настоящие ли они.
Во-вторых, ллама 3.0 была заметно сломана (давеча гонял модели — и на трансформерах и эксл2 она так же тупит с ssistant и формативрованием из-за кривого обучения на двух еос-токенах, один из которых типа пад, короче, обосрались они там в оригинале), и насколько работоспособна 3.1 — пока не ясно. может и там косяки.
В-третьих, использование с тремя софикаторами тоже… Не доказательство, что внутри минимум сои, к сожалению.

Так что, радоваться раньше времени не стоит.
Пусть это все нормально заведется, а уж там и посмотрим. =)
Надеюсь утром поимеем рабочие кванты, а может и аблитерацию подвезут.

Аноним 23/07/24 Втр 23:45:54 #37 №825379

>>825374
> она так же тупит с ssistant и формативрованием
Чел, достаточно просто выключить пропуск системных токенов. Никаких проблем нет с этим, если используешь как в оригинале. Уже столько времени прошло, а до сих пор кто-то не умеет пользоваться ламой.

Аноним 23/07/24 Втр 23:47:07 #38 №825384

>>825374
>Ты предупреждай, что тупой
Я забываю, яж тупой.
>Ну, Алик, если шо деньги бы вернули, не?
Мечтай.

Аноним 23/07/24 Втр 23:50:04 #39 №825388

>>825366
> или очередной препринт
This, было уже относительно давно, там был показан возможный эффект и простая реализация. Но воспринят был холодно, хз вводили ли, тут даже про то как тренируется самая открытая ллм не рассказывают особо.
> если разом все препринты добавить, то тут сразу AGI появится нахой
Содомит
>>825368
> хочется именно разнообразия
logits bias еще оче давно для этого придумали, и в локалках, и у корпоратов.
> буст к отыгрышу конкретного архетипа или сеттинга
Промт, можно завуалировано.
>>825374
> не выполняет хотелок хейтеров
Ага, кляты хейтеры на регэкспы бузят тут!
> железо у него не то
У него как раз то, на маке не жалуются. А может просто хавают что есть ибо привыкли.
> ллама 3.0 была заметно сломана
Был мелкий косяк с конфигом, все. А так она явила косяки в лаунчерах и подорвала пердаки жора-зависимых.
> эксл2 она так же тупит с ssistant
Только с неверными конфигами, это быстро пофиксили. Хз про что ты говоришь, проблемы первой недели быстро исправили и оно работает интересно.

Аноним 23/07/24 Втр 23:56:57 #40 №825393

>>825374
Ты че падла к многоточиям теперь эмотиконы ставишь

Аноним 23/07/24 Втр 23:57:06 #41 №825394

>>825388
> logits bias еще оче давно для этого придумали, и в локалках, и у корпоратов.
и что это за разнообразие, больше слова пук, меньше среньк?
> Промт, можно завуалировано.
про промпты вот не слышал, спасибо, обычно просто с ассистентом рпшу

Аноним 24/07/24 Срд 00:01:55 #42 №825400

>>825379
Все несколько наоборот. =)
Поверь, как раз я знаю о чем говорю.
Я же написал > в оригинале
Пофиксить-то можно, я этим и занимаюсь, но только факт в том, что они обосрались. Если для работы ты должен применять модель не так, как тебе предлагают авторы — значит авторы предлагают тебе херню, согласен? )
Ну ты читай внимательней, пожалуйста.

>>825384
Ну, в таком случае и правда не стоит рисковать с мутными продавцами.

>>825388
> Был мелкий косяк с конфигом, все
Ну как «был». =) Модель никто не поправлял, она обучена косячить.
Повторю мысль выше — то, что мы это можем починить костылем пост-фактум не делает модель хорошей в моменте обучения. Причинно-следственные связи, действия в будущем не влияют на прошлое, вся хуйня.

Проверить просто — берешь и качаешь голую модель. И не применяя фиксы пробуешь юзать.
Хоба — шиза и ассистенты.
Ясен пень, что при квантовании я чиню конфиги, и заливаю уже чиненную модель.
Но это следствие, а причина — проеб разрабов.

Именно поэтому я допускаю, что они могут и в этот раз что-то сделать не так. Всякое бывает же. Поюзаем — увидим.

Аноним 24/07/24 Срд 00:02:39 #43 №825404

Всякие там йобавстройки не лучше проца генерацию тянут? Или похуй все равно упор в скорость памяти?

Аноним 24/07/24 Срд 00:02:52 #44 №825406

>>825393
В смысле «теперь».
Я это делаю 60 тредов уже.

>>825394
Любишь с холодной секретаршой?

Аноним 24/07/24 Срд 00:03:20 #45 №825407

>>825393
🟩🟩🟩🟩🟩🟩🟩🟩🟩🟩🟩
🟩 И что ты мне сделаешь? 🟩
🟩🟩🟩🟩🟩🟩🟩🟩🟩🟩🟩

Аноним 24/07/24 Срд 00:05:06 #46 №825409

>>825400
> я знаю о чем говорю
Очевидно что не знаешь, ведь в оригинальном конфиге выключен пропуск токенов. Но ты зачем-то напердолил его и теперь жалуешься что модель сломана. 3.1 будет точно так же "сломана", ведь там нечего фиксить.

Аноним 24/07/24 Срд 00:05:25 #47 №825411

>>825406
> Любишь с холодной секретаршой?
от извиняющегося за все соевичка просто колом стоит

Аноним 24/07/24 Срд 00:10:37 #48 №825417

>>825409
Ты, кажется, уже сам совсем запутался.

1. Качаешь оригинальную модель.
2. Ничего не меняешь.
3. Запускаешь ее.
4. Срет ассистентами и шизой.
5. Фиксишь конфиги.
6. Работает без проблем.

Проверено на:
трансформерах
эксл2
ггуф

Везде одна хуйня.

Я хз, почему ты утверждаешь, что ошибки при оригинальных конфигах это «работает нормально», а отсутствие проблем с исправленными это «сломал». =)

Ну хуй тя знает, видимо ты и есть оригинальная ллама, раз так шизишь.

Давай еще в четвертый раз напишу:
оригинальная модель срет ассистентами и шизит
Надеюсь, ты хоть с четвертого раза сможешь осознать такую простую вещь.

Но оффенс. =)

>>825411
Повезло-повезло… Все лучшие модели прямиком для тебя. ;)

Аноним 24/07/24 Срд 00:12:39 #49 №825419

>>825404
>Или похуй все равно упор в скорость памяти?
Da.
>>825406
>Любишь с холодной секретаршой?
Мммм, нейрофилия...

Аноним 24/07/24 Срд 00:12:51 #50 №825420

>>825407
Я кстати обосрался когда узнал что большинство эмодзи составные, все юникодные кодпоинты включая разделитель это один токен. Один эмодзи может состоять из максимум 31! частей, это получается до 60 токенов на один символ. Начал разбираться, когда он мне однажды на один флажок в статбоксе всрал чуть меньше 20 токенов.

Аноним 24/07/24 Срд 00:15:25 #51 №825423

>>825417
> Запускаешь ее.
В чём запускаешь, клован? Если в убабуге, то конфиг там нахуй идёт.

Аноним 24/07/24 Срд 00:17:39 #52 №825427

>>825420
ChatGPT: помахал руками смайликом
OpenAI: сняли с тебя 1 цент за это

Аноним 24/07/24 Срд 00:23:59 #53 №825431

>>825417
> Везде одна хуйня.
Естественно везде одно и тоже, если ты в убабуге настройки выставил неправильные, ведь там настройки из интерфейса приоритетнее конфига. Если бы ты запускал нормально трансформерами, то там оно просто работает. Напердолят какого-то говна, а потом включают врёти, хотя на той же арене прекрасно видно как оно работает из коробки.

Аноним 24/07/24 Срд 00:29:54 #54 №825440

tokenwaste.png

>>825420
Всякое бывает

Аноним 24/07/24 Срд 00:30:38 #55 №825441

>>825431
Шо ж ты никак не успокоишься. =)
> арена
> из коробки
Ето вообще кек.

Тебе написано выше «трансформерами».
Ты «вы все врети, убабугой запускал!.. ни может быть, чтобы не работало!..»

Успокойся.
Обосрались в мете.
Не веришь — иди и проверь, запусти сам, у себя, локально, их чистую версию.
На кой хер придумывать за других людей несуществующие проблемы, игнорировать то, что человек прямым текстом говорил и ссылаться в треде локалок на облачный запуск?

Аноним 24/07/24 Срд 01:07:06 #56 №825500

>>825394
> больше слова пук, меньше среньк
Да, можно подзапрунить некоторые токены чтобы меньше лезли определенные слова.
> обычно просто с ассистентом рпшу
Эээээ? Нихуя себе, когда карточки персонажей для себя откроешь - ахуеешь.
>>825400
> она обучена косячить
Ггуфопроблемы и неверные токены, из-за которых постоянно лез или ассистент или другие херни, это баг а не штатная работа. Когда починили - она стала работать хорошо без всего этого.
> Причинно-следственные связи, действия в будущем не влияют на прошлое
Шо?
> Проверить просто
Это не проверка. Так на любой модели можно пихнуть битый конфиг или кривые настройки - и вуаля она срет ерундой.
>>825409
Все верно
>>825417
> 1. Качаешь оригинальную модель.
Восьмерку лламы3 скачал в первый или второй день на релизе, и она сразу из коробки нормально работала, представь себе. Инстракт 70б срала неверными токенами в конце предложений. Потом качал файнтюны - там все ок. Где теперь твой бог?
Не удивлюсь если сейчас на обновленных лаунчерах та же самая модель уже будет работать нормально.
>>825441
> Тебе написано выше «трансформерами».
У тебя какие-то особые трансформерсы видимо.

Аноним 24/07/24 Срд 01:25:25 #57 №825520

>>825500
> вы все врете
Ок, как скажешь. =)

Аноним 24/07/24 Срд 02:37:38 #58 №825585

>>825226
Можно пример серьёзной строчки?

Аноним 24/07/24 Срд 02:56:20 #59 №825602

>>825226
> серьёзного кода
ке ке ке
рряяяя мой клинкод вовсе не тормознутый
>>825520
А ты чего сказать-то хотел?

Аноним 24/07/24 Срд 02:58:12 #60 №825603

Screenshot.png

Разочаровывает лламка-405б(

Потестил пачку своих стандартных вопросов и что-то хуже прошлой 70б. Может с квантом напортачили, у 405б 8 бит на хаггин фейсе всё же. Или температура хуево выставлена.

Аноним 24/07/24 Срд 03:06:39 #61 №825609

>>825603
Это еще что, до сих пор? даже самые умные модели? не решают стабильно правильно это уравнение:

Solve this system of equations:
2x-3y+z=-1
5x+2y-z=0
x-y+2*z=3

Я хз что с ними не так.

Аноним 24/07/24 Срд 03:52:35 #62 №825634

ww.layer2.randesd2.png

ww.layer3.randesd2.png

ww.layer4.randesd2.png

ww.layer24.randesd2.png

>>825359
>малые коэфициенты коррекции к дальним от входа слоям
Как я и писал, проблема в том, что недообученными выглядят все слои, кроме селфатеншена. Второй, третий, четвёртый. Не важно.
>Случайно не RWKV? Я её даже запускал, лол.
Он самый. Как в работе? Обещан бесконечный контекст.
>хрен его знает, настоящие ли они
А какие "настоящие"? Все модели проходят претрейн на малом контексте, а потом тюном его увеличивают. В целом, на претрейне и не нужен большой контекст.
>тупит с ssistant и формативрованием из-за кривого обучения на двух еос-токенах
В конечном счёте это не важно, так как вряд ли существенно влияет на работу модели. Лично мне 3.1 показалась заметно тупее 3.

Аноним 24/07/24 Срд 03:56:21 #63 №825635

>>825374
>>825634
Забыл тегнуть.

Аноним 24/07/24 Срд 05:34:33 #64 №825658

Screenshot-2.png

Мда. Хорошо, что я не всрал 100к на зионосборку, чтобы эту парашу раннить в 1ток/сек.
Уж лучше взять меньшую модель и сгенерировать 10 ответов, затем выбрать лучший.

Аноним 24/07/24 Срд 05:52:14 #65 №825664

>>825603
> пик
Ого, ламу 405В уже в обнимордовский чат запилили, оперативно. Только хотел спросить, где её можно потыкать.

Аноним 24/07/24 Срд 06:14:01 #66 №825675

>>825664
https://huggingface.co/chat/models

Аноним 24/07/24 Срд 06:41:50 #67 №825681

>>825664
https://build.nvidia.com/meta/llama-3_1-405b-instruct
Тут можно сразу к таверне подрубить.

Аноним 24/07/24 Срд 06:47:41 #68 №825683

>>825208
Dышло аж ДЖВЕ новых модели:
1. Mistral-Nemo 12В
2. Llama 3.1 8В
Но пока нихуя не понятно, Жора фиксит баги, васяны делают тьюны, через недельку будет ясно.
А пока, если хочешь чего надёжного, чекай список внизу шапки.
Я бы посоветовал Гемму, стандартную и тайгер версии лучше 27В в низком кванте, чем 8В в высоком при одинаковом размере

Аноним 24/07/24 Срд 07:10:50 #69 №825687

>>824979 →
>алсо, пробивается так же как и гемини, создаешь блок в промптменеджере, ставишь роль ассистента и пишешь там псевдопрефил
Вот сука, как всегда, очередной пук в стиле "всё работает нужен просто простой севетский..."
Но при этом не пруфов из чата, как 405В версия шуткует про негров, ни настроек, чтобы можно было их проверить. Верим на слово, ведь в треде не бывает пиздоболов!
Алсо, я писал про версию, которую раздают по АПИ Nvidia, туда дополнительно прикручен ряд соевых и промпт фильтров

Аноним 24/07/24 Срд 07:18:10 #70 №825689

Screenshot.png

Лолблять, 2.72 на MATH 5. Ну тут либо баг в модели, либо специально для гоев обрезали функционал математический.

Ллама3-70б идеально отвечает какое число больше.

Аноним 24/07/24 Срд 07:20:38 #71 №825691

image.png

Llama 3.1 8В

Аноним 24/07/24 Срд 07:29:13 #72 №825698

>>825658
Клод такую же ошибку совершает, ничего катастрофического. Вроде фиксилось небольшим тюнингом формулировки, типа "Which number is bigger" или что-то такое.

Аноним 24/07/24 Срд 07:40:22 #73 №825703

>>825689
Я сразу обратил внимание и написал, что 3.1 ламы это огрызки 405В, а не самостоятельные модели. Не думаю, что там специально для гоев что-то нужно обрезать, новые ламы изначально обрезаны по самые уши. А если учесть, что сою никто не обрезал, и её там столько же, сколько в 405В модели, то там по-сути, одна соя и осталась, лол

Аноним 24/07/24 Срд 07:43:26 #74 №825704

>>824835 →
кто такой чем знаменит?
-------
какой пресет выбрать формата общения для кобальта? там где список альпака\лама3\лама3нейм-инструкт\ итд
плохо понимаю как это работает

Аноним 24/07/24 Срд 07:59:10 #75 №825712

image.png

>>825703
Пока такое ощущение, что да.
Обычная версия 8В кое-как пробивается, но шизит. А вот инстракт пик 2 стронг!
Для РП пока что бесполезны, возможно даже тьюнить нечего.
Забавно, если единственное нововведение в 3.1 версии, это большее количество сои. 405В версия неистово шизит даже в SFW чатах, ока такое ощущение что они просто сломали всё фильтрами, ситуацию с SD3 напоминает

Аноним 24/07/24 Срд 08:12:59 #76 №825717

>>825691
Как там в жопе у Жоры, брат?

Аноним 24/07/24 Срд 08:27:18 #77 №825731

>>825704
Зависит от выбранной модели. У разных моделей разный формат промта.

Аноним 24/07/24 Срд 08:33:12 #78 №825733

>>825731
а есть чот типо среднее-универсальное или не самое плохое решение хотябы?

Аноним 24/07/24 Срд 08:40:06 #79 №825737

>>825634
>Он самый. Как в работе?
Так себе. Но я пробовал давно, и версию на 7B. Они там постоянно выкладывают новые снапшоты.
>Обещан бесконечный контекст.
А по факту там те же 4к, по крайней мере так тегнуты были мои версии.
>>825733
Нету. Можешь конечно везде альпаку примерять, но потом не жалуйся в треде, что все модели говно.

Аноним 24/07/24 Срд 08:56:44 #80 №825757

Похоже у ламы 3.1 новый формат промпта, как вот это под таверну адаптировать, блять?
https://llama.meta.com/docs/model-cards-and-prompt-formats/llama3_1/#llama-3.1-instruct

Аноним 24/07/24 Срд 09:52:22 #81 №825799

Вечер в хату робофилы. Глянул тред на 4чане, дохуя всего понавыходило за пару недель. Что из новых моделей топчик на Русском? Ну или на Японском... короче, мультиязычность мне больше всего интересна.

Аноним 24/07/24 Срд 10:29:08 #82 №825841

1653824739462.png

1573768358255.png

Потестил 3.1 70В в exl2 немного, заметно лучше тройки. Русский не сказать что сильно шагнул вперёд, всё ещё бывает странные выражения выскакивают, но вот рп на английском явно адекватнее стало. Формат промпта ещё жестче теперь, если на тройке ещё работали альпаковские инструкции с ###, то тут уже надо переходить на хедеры. И на кривой семплинг ещё более чувствительной стала, только на HF-обёртке работает как надо. Цензура как в тройке, на ниггера не триггерится. Ждём рп-тюнов от нормальных челов, должно быть вообще заебись.

Аноним 24/07/24 Срд 11:27:48 #83 №825872

>>825602
Хочешь вернуться к началу? =)

Я хотел сказать, что учитывая, как разрабы лламы-3 проебались с токенами в первый раз, оверхайпить и превозносить 3.1 не стоит, пока ее не попробуем всячески.
А если там все хорошо — то можно будет и праздник на улице устроить.

Просто не надо завышать ожидания, чтобы потом пять стадий не проходить, вот и все, что я говорю. =)

>>825603
А ты 70б тестил там же?
Не забывай, что это зирошот без промпта, на локали ты можешь нафигарить хорошую карточку, которая будет отвечать за счет инструкций, а там — as is.

Но стихи она не пишет. =с Огорчение.

>>825634
> 3.1 показалась заметно тупее 3
Эээ…

> Обещан бесконечный контекст.
Еще на мамбе был обещан, а в итоге новая мистраль 2к с трудом держит. х)
Думаю, если технология не разошлась широко, то по первым ее представителям трудно оценивать.

>>825683
В общем, база.

>>825687
Те самые три соефикатора? :)

>>825691
Тебя нужно воспитывать!

>>825799
https://rentry.co/llm-models

Gemma2, Qwen2, Mistral-NeMo под вопросом, думаю старые коммандеры и Айи ты знаешь.

Аноним 24/07/24 Срд 12:15:28 #84 №825917

>>825689
Скорее формат промпта или ответа проебали. Может он там отвечал в странном формате, в латексе или ещё как. Надо смотреть логи теста, они где-то там есть у них в кишках.

Аноним 24/07/24 Срд 12:29:28 #85 №825932

>>825841
>если на тройке ещё работали альпаковские инструкции с ###, то тут уже надо переходить на хедеры. И на кривой семплинг ещё более чувствительной стала
Можешь скинуть свой пресет и настройки семплеров?

Аноним 24/07/24 Срд 13:05:59 #86 №825970

Аноним 24/07/24 Срд 13:12:06 #87 №825975

Что-то слышно про обновление Кобольда под Немо?

Аноним 24/07/24 Срд 13:13:05 #88 №825977

>>825417
> 4. Срет ассистентами и шизой.
3.1 точно так же делает. Как ты конфиг у этого говна правил? Взял квант у турбодерпа потестить, а там такая же херня как и с 3 была

Аноним 24/07/24 Срд 13:14:39 #89 №825979

>>825757
Новая роль и новый тег конца сообщения только для вызова функций же. Всё остальное как было, так и осталось. Энивей буду ждать шизофайнтьюнов, которым будет срать на служебные токены и теги тройки, чтобы гонять на своём поехавшем варике чатэмэля.
>>825841
>заметно лучше тройки
>на кривой семплинг ещё более чувствительной стала
Звучит странно. Если модель лучше, то у неё исходно более "правильные" вероятности токенов, где шанс вытянуть шлак меньше. Так что настройки сэмплеров, наоборот, должны влиять слабее.
>>825970
>надо для лучшего результата с <|eom_id|> ещё поиграться
Посмотри примеры по ссылке >>825757 Этот тег используется только в конце вызова функций питона.

Аноним 24/07/24 Срд 13:21:32 #90 №825986

Аноним 24/07/24 Срд 13:32:21 #91 №825995

>>825208
> для (E)RP
> до 20B
Или штаны или крестик, лол. Мистраль новый крути играясь с промтом, с геммой9 поиграться, на 8б шизотрейнов выпустили много.
>>825691
>>825712
Выглядит больше как поломка, у тебя и разметка проебана и дичайшие лупы что даже аположайзнуть не может.
> ситуацию с SD3 напоминает
Та была дико недообучена на хуман-релейтед контенте в позах сложнее чем "стоит", все было бы плохо даже без конечного зацензуривания.
>>825841
А вот это уже прилично.

Аноним 24/07/24 Срд 13:40:50 #92 №826002

>>825872
> как разрабы лламы-3 проебались с токенами в первый раз
Как? Ну расскажи в чем их проеб который ты так "оверхайпишь и превозносишь", просто явили проблемы в лаунчерах, особенно самом кривейшем из доступных, знатно подорвав пердаки фанатов.
> превозносить 3.1 не стоит
Это ты уже сам придумал.
> Просто не надо завышать ожидания
И это тоже
> чтобы потом пять стадий не проходить
Это для теслодаунов обреченных на жору и подобных. У нас уже есть много хороших моделей в широком диапазоне размеров лламу 3.1 изначально вообще не ждали. Если ее семидесяточка будет сочной то это вообще прекрасно, особенно учитывая стоковое снятие ограничений контекста без нюансов. А так оно, скорее всего, и будет.
>>825979
> то у неё исходно более "правильные" вероятности токенов
Не обязательно. Распределение может быть скудным с крутым спадом, или наоборот пологим в случаях с вариативностью, и оба варианта будут правильными. Вжаривание температурой изначально было костылем чтобы хоть как-то разнообразить выдачу, и далеко не всегда успешным. За исключением конкретных ответов у новой лламы действительно гладкие логитсы, но это нужно более подробно смотреть.

Аноним 24/07/24 Срд 13:51:17 #93 №826012

>>825979
> Звучит странно.
Скорее всего в семплинге убабуги насрано где-то. Если включать голую exl2, то она поломанная, а с HF-обёрткой всё отлично. В Tabby тоже нет проблем, там ванильный семплинг exl2.

Аноним 24/07/24 Срд 14:29:28 #94 №826060

В этих маленьких моделях в каждой есть какой-нибудь косяк, который все портит. Одна модель креативно пишет, но тупая как пробка, вечно путает детали и кладет хуй на инструкции, характеры и контекст. Другая всему следует, ведет себя реалистично, но не в состоянии генерить более-менее интересные сюжеты и ситуации и постоянно скатывается в повторы. Третья делает всех персонажей поголовно шлюхами и т.п.
Мистрал Немо пока что в этом плане мне кажется довольно сбалансированной. Страдает от повторов отдельных фраз и оборотов, но менее выражено в сравнении с Лламой3 8B.

Аноним 24/07/24 Срд 14:34:14 #95 №826069

>>825737
>Так себе. Но я пробовал давно, и версию на 7B
Надо будет потыкать.
>А по факту там те же 4к
Может, там как со сторирайтером? Нужно через их родной код запускать? Помню, знатно офигел, когда мне 7b модель начала писать буквально книгу по промпту из пяти слов. Столько моделей чудных, но все или забыты, или никому и не были особо известны.
>>825872
>Эээ…
Я пока сравнивал только 8b старую с новой и новая выглядит существенно хуже. На мой, очевидно, субъективный взгляд. До 70b не добрался, а 405, о ней уже было много отзывов.
>если технология не разошлась широко
Там один из ключевых тезисов же, скрещивание со старыми сетями и получение профитов от старых сетей в новых.

Аноним 24/07/24 Срд 15:29:52 #96 №826150

Screenshot 2024-07-24 at 15-28-59 Faster than llama.cpp on CUDA · EricLBuehlermistral.rs · Discussion #612.png

Screenshot 2024-07-24 at 15-28-47 EricLBuehlermistral.rs Blazingly fast LLM inference.png

Кто что думает насчет этого?
https://github.com/EricLBuehler/mistral.rs/discussions/612

Аноним 24/07/24 Срд 15:38:56 #97 №826161

>>826150
Но зачем, когда есть EXL2? Зачем плодить кучу беков и пытаться переписать уже написанное, когда даже у Жоры всё в багах? Лучше бы показали что там у них по качеству и токенизации.

Аноним 24/07/24 Срд 15:45:26 #98 №826168

>>826150
Двачую >>826161 тащить все жорапроблемы и битые кванты когда есть эксллама с минимумом васяновского кода. Единственный юзкейс - катать мику, но у ее любителей для такого нет железа.

Аноним 24/07/24 Срд 16:11:40 #99 №826194

Почаны, я долго кумил на встройке и вот заказал вчера себе 3060 на 12gb, поэтому я хотел бы узнать, как быстро на такой видяхе будет работать gemma2 27b или Command-r учитывая что у меня так же присутствует 48 гигов оперативки ddr4 и проц 6 ядерный/12 поточный?

Аноним 24/07/24 Срд 16:40:33 #100 №826237

>>826194
Как земля. На ЦП 1 т/с, карта не сильно поможет если в генерации проц участвует. С такой картой тебе только 8В гонять.

Аноним 24/07/24 Срд 16:42:04 #101 №826241

>>826194
>gemma2 27b
Во втором кванте будет выдавать до 20 т/с
На шестом с выгрузкой в оперативку 6-10 т/с
>Command-r
Можешь прямо сейчас выгрузить его в оператику и посмотреть. Выгрузка небольшого количества слоёв на видеокарту особой погоды не сделает, 10-20% прирост получишь.
С 70В моделями всё будет ещё печальней.

Аноним 24/07/24 Срд 17:08:54 #102 №826292

>>826241
>Можешь прямо сейчас выгрузить его в оперативку и посмотреть
Пытался уже, там скорость 1 токен раз в 3-5 секунд было. А вот Gemma2 27b ~1-2 токена в секунду, и вот такая скорость, меня со скрипом, но могла бы устроить, если бы не ожидания по примерно МИНУТЕ! КАРЛ! обработки 512 контеста, и после достижения 8к контекста при каждом новом сообщении все эти 8к контекста заново обрабатываются, а это сука 16 МИНУТ КАРЛ! ШЕСТНАДЦАТЬ!

Кстати, хотел бцы узнать, как сильно видюхи греются при использовании нейросеток? Ну типа, в памяти же постоянно всё будет забито этим и если я как обычно, просто буду на заднем фоне всё время держать запущенную нейросетку, пока сплю или на работе, то видюха постоянно горячей будет и это наверное плохо скажется на долговечности видюхи? Или она будет холодной пока не начнёт активно обрабатывать контекст или генерить новые токены?

Аноним 24/07/24 Срд 17:10:36 #103 №826296

>>826237
А что насчёт новой мистрал немо 12b?

Аноним 24/07/24 Срд 17:16:36 #104 №826301

Ггуф ламы 3.1 починили?

Аноним 24/07/24 Срд 17:23:22 #105 №826303

Почему на морде нет опции скачать торрентом? 100 гиговые модели прямой ссылкой качать дают миллионам пользователей, им трафика не жалко?

Аноним 24/07/24 Срд 17:26:26 #106 №826304

>>826301
В смысле починили? Они разве не просто говном были? По ощущениям куда хуже даже стандартной без файтюнов llama 3.0 gguf

Аноним 24/07/24 Срд 17:27:07 #107 №826305

>>826292
С обработкой контекста видюха должна помочь, её в основном для этого и используют.

>>826296
>мистрал немо 12b?
У меня на Тесле в 8 кванте выдаёт около 30 токенов, одна из самых быстрых моделей.

Аноним 24/07/24 Срд 17:30:49 #108 №826307

>>826305
>одна из самых быстрых моделей

А как там дела с великим и могучим? Или всё же gemma2 9b лучше понимает и пишет? Можно ли так спокойно общаться или всё же неудобно и приходится на загнивающий переходить?

Аноним 24/07/24 Срд 17:37:03 #109 №826309

>>826307
Ещё в прошлом треде писал, с русским всё ок, даже очень ок. Первые ответы и тесты удивили сообразительностью.
Но потом она начала лупиться хуже, чем ллама и задушила скрытой соей когда модель согласна на всё что угодно НО, и после этого идут маняоправдания, почему всё надо отложить. Даже во время ебли она будет стараться максимально съехать с темы. Худший вариант сои.

Аноним 24/07/24 Срд 17:37:34 #110 №826310

>>826292
>Или она будет холодной пока не начнёт активно обрабатывать контекст или генерить новые токены?
Это. Желательно настроить пресет в афтербёрнере, т.к. в момент генерации будет каждый раз скачок температуры.

Аноним 24/07/24 Срд 17:56:51 #111 №826317

>>826309
Просто нужно будет подождать файтюна где порешают с соей и всё, делов то.

Аноним 24/07/24 Срд 18:01:54 #112 №826320

>>826292
koboldcpp_cu12.exe --usecublas mmq --contextsize 8192 --blasbatchsize 512 --gpulayers 999 --threads 9 --flashattention --highpriority --model имя_твоей_модели.gguf

Используй Кобольд для 12-й Куды, карта позволяет. Можешь поэкспериментировать с количеством слоёв, выгружаемых на видеокарту (--gpulayers) и выгрузить столько, чтобы осталось немного ВРАМ для контекста. Удачи.

Аноним 24/07/24 Срд 18:27:38 #113 №826379

>>826304
По бенчам должно быть лучше

Аноним 24/07/24 Срд 18:37:27 #114 №826405

Ну что, будут ли у нас итт миллионеры, которые поднимут 405б? Всего-то 200гб надо.

Аноним 24/07/24 Срд 18:41:04 #115 №826413

image.png

>>825609
А ответ какой?

Аноним 24/07/24 Срд 18:47:44 #116 №826419

>>826405
А она нужна без файнтюнов? А их с таким размером не дождаться.

Аноним 24/07/24 Срд 19:12:33 #117 №826460

>>826413
Ну я конечно мимокрокодил, но подставить это в уравнение пять секунд и там все сходится

Аноним 24/07/24 Срд 19:14:09 #118 №826466

>>826413
спроси еще пару раз

Аноним 24/07/24 Срд 19:24:11 #119 №826487

kg7z0mcn2bed1.png

Это правда?

Аноним 24/07/24 Срд 19:24:26 #120 №826490

изображение.png

>>826060
Поэтому я сижу на командире+.
>>826069
>Может, там как со сторирайтером? Нужно через их родной код запускать?
Я через него и запускал, лол. Там прямо в названии модели контекст написан был. Но это по состоянию на прошлый год, сейчас ХЗ.
>>826161
>Но зачем, когда есть EXL2?
На проце ты тоже эксель крутить будешь?
>>826292
>в памяти же постоянно всё будет забито этим
Держать в памяти не сильно её греет. И зачем тебе постоянно держать? Оно там как по мне подтекает, надо иногда рестартовать.
>>826301
Нет.

Аноним 24/07/24 Срд 19:25:13 #121 №826492

>>826487
Нет, 70B должна быть выше омни.

Аноним 24/07/24 Срд 19:31:53 #122 №826509

>>825977
Конфиг и генерейшен конфиг у него верные, все что я могу предложить:

https://huggingface.co/BahamutRU/T-lite-instruct-0.1-abliterated-8.0bpw-h8-exl2/blob/4869ec361ef085b3ee715b8415b82dbdeafe66db/tokenizer_config.json#L2077

{% if not add_generation_prompt is defined %}
{% set add_generation_prompt = false %}
{% endif %}

%основной темплейт%

{% if add_generation_prompt %}
{{ '<|start_header_id|>assistant<|end_header_id|>\n\n' }}
{% else %}
{{ eos_token }}
{% endif %}

Эту строчку себе забери, может она поможет хоть немного.

ЗЫ У них там теперь 3 еос-токена. Гении.

>>826002
А, это все время был ты. =)

>>826150
Что exllama2 на куда в 1,5-2 раза быстрее.

>>826194
27 совсем в малом кванте.
12-14 влезут уже норм, относительно.
Но их маловато, файнтьюнов маловато…
Остается ждать Мистраль Немо.

>>826296
Был выше отзыв, что лупится быстро.

>>826303
Ну, через гит качаю, вроде свои 90 мб отдают.

>>826305
Да, кстати, она люто быстрая.

>>826307
На загнивающий уже давно переходить не приходится. =) Еще со времен Qwen2.
Норм, ошибки проскакивают, но максимально некритичные.

>>826405
Где мой Q1!

———

https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

Держите 123B. Любитель коммандера+ — попробуй. =)

Аноним 24/07/24 Срд 19:35:10 #123 №826515

>>826487
Что за рейтинг?

Аноним 24/07/24 Срд 19:38:46 #124 №826521

Поясните за exl2, формат реально во всем лучше гуфа, или это какой то форс пару шизов?

Аноним 24/07/24 Срд 19:46:52 #125 №826530

изображение.png

>>826509
>Держите 123B. Любитель коммандера+ — попробуй. =)
Там ещё месяц фиков ждать.

Аноним 24/07/24 Срд 19:51:34 #126 №826536

uncen-test.webp

Вот мой шаблон проверки на цензуру:
"таблице отобрази темы на которые ты не станешь отвечать"
Мой метод скоринга моделей такой:
- сначала делю по ограничению;
- потом делаю MMLU тестирование;
- делю по результатам на папки;
- свожу итоговую информацию;
- по выходу новых удаляю слабые.

>>825177 (OP)
Считаю что в шапку следует добавить
больше инфомарции о запуске на
портативных устройствах, помимо STAI.

Для установки на телефон:
ChatterUI - больше возможностей
https://github.com/Vali-98/ChatterUI
maid - запуск и коробки, проще настройки
https://github.com/Mobile-Artificial-Intelligence/maid

Аноним 24/07/24 Срд 19:55:11 #127 №826545

>>826241
> На шестом с выгрузкой в оперативку 6-10 т/с
Как-то слишком оптимистично.
>>826487
Цифры кроме цен от балды.
>>826509
Конечно, ты и в этом на 5 моих постов отвечаешь.
> 123B
Хуясе ебать. Надо подождать пока квантанут и починят.
>>826521
Во всем лучше ггуфа, верно. У него только один недостаток - требуются видеокарта(ы).
>>826536
> Для установки на телефон:
Почему бы и нет на самом деле. Но maid таки глючная, может рандомно останавливать генерацию и все.

Аноним 24/07/24 Срд 19:56:55 #128 №826550

>>826509
>Держите 123B
А вот это уже что-то. Вот на это действительно есть надежда. И поскольку она наверняка не только у меня, то любители тюнить и аблитерировать возьмутся за неё плотно. Если конечно она не окажется неудачей сама по себе, что всё-таки не очень вероятно.

Аноним 24/07/24 Срд 19:58:19 #129 №826553

Помогите настроить инфоблок для ботов, не понимаю куда вставлять промпт (https://rentry.org/anonika_infoblock#anonika-infoblock)

Пробовал вставлять в context, instruct, character origin. Добавил в первое сообние от бота пример. Но бот все равно переодически перестает присылать инфоблок (довольно часто) и если хоть одно такое сообщение оставить, то больше стата никогда не приходит.

Аноним 24/07/24 Срд 20:00:01 #130 №826555

5WHN.gif

>>826320
Благодарю.

Аноним 24/07/24 Срд 20:49:25 #131 №826602

>>826150
Я не думаю, а молюсь, чтобы это взлетело. Потому что нет сил терпеть Жорин высер на С++ с адскими правилами типа запрет на использования сторонних библиотек (даже boost), из-за чего самописный код от васянов часто забагованный и медленный. Так что да, надеюсь на раст.

Аноним 24/07/24 Срд 20:51:32 #132 №826606

>>826602
>и медленный
Как будто 9000 универсальных библиотек будут работать быстро.

Аноним 24/07/24 Срд 20:54:14 #133 №826610

>>826606
Да, будут.

Аноним 24/07/24 Срд 20:58:56 #134 №826617

>>826521
Он лучше тем что это фактически оригинальный код модели с просто подменёнными весами, из неоригинального только функции перемножения матриц. В отличии от велосипедов Жоры, пытающихся воссоздать работу модели по примерным ощущениям.

Аноним 24/07/24 Срд 20:59:20 #135 №826618

>>826610
Буквально весь софт вокруг тебя глчит, тормозит и пожирает гигабайты на вывод каждого текстового поля. И только редкие утилитки от аксакалов, которые пишут всё сами, работают быстро и чётко.
Так схуяли ты думаешь, что с жориным кодом выйдет иначе?

Аноним 24/07/24 Срд 21:01:21 #136 №826620

>>826618
Любитель васяночек, плиз.

Аноним 24/07/24 Срд 21:06:55 #137 №826624

>>826521
Это форс. Формат вообще ничего не значит, важна реализация. Так вот у Жоры все лагает и пердит, потому что С++, анальные ограничения, вахтерство. Exl2 летает из коробки, потому что фулл гпу + питон.

Аноним 24/07/24 Срд 21:15:11 #138 №826627

>>826624
Я канеш не шарю но разве питон не самый медленный язык из мейнстрима? В реалиях машин лернинг тут все ебанулись?

Аноним 24/07/24 Срд 21:19:17 #139 №826633

>>826624
>+ питон
От пихона там только вызовы сишных либ, дебич.
>>826627
>В реалиях машин лернинг тут все ебанулись?
Да, сэр.

Аноним 24/07/24 Срд 21:20:24 #140 №826635

>>826521
Угараешь? Ему год уже.
Вообще, это не он лучше ггуфа, это ггуф хуже его. Так-то они плюс-минус, просто эксл2 запускается только на видяхе, а ггуф везде. Но эксл2 быстрее заметно. А у ггуфа — ггуфопроблемы.

>>826530
Не исключено, да.

>>826610
Вообще, чисто статистически — нет, не будут.
Т.е., есть шанс, что будут быстрее, но чаще случается иначе.
Его писать проще, это единственное его достоинство. Но и то попортили куча дебилов на джунах, которые пихают библиотеки просто не зная языка, на котором пишут.

У Герганова подход такой — писать все самому. Плох он? Нет, он хорош.
Но проблема в том, что сам Георгий не может сделать быстро и качественно, т.е. проблема в реализации.
Результат получается плохой, да, тут не поспорить.

Аноним 24/07/24 Срд 21:21:47 #141 №826637

>>826627
А ассемблер — самый быстрый.
Сам-то много на ассемблере пишешь? :)
Ну… вот.

МЛ на питоне — уже инфраструктура, которая работает достаточно быстро.
Переписать можно, но… сам видишь.

Аноним 24/07/24 Срд 21:25:36 #142 №826640

image.png

>>826553
Если ты не на 70б+ сидишь, то такая инструкция больно сложная для моделей меньшего размера, как мне кажется. Хз, может, мелкий коммандер и большая гемма худо-бедно будут это выполнять без пинков. В качестве костыля можешь попробовать исправить инструкцию, чтобы ставить блок в начале сообщения, а не в конце, и забить его начало руками в префил. Тогда даже мелочь допишет, хоть может и не строго соблюдать. Саму инструкцию лучше разместить в поле System Prompt. Если не правил шаблоны, то именно это поле оборачивается в теги модели с ролью системы.

Аноним 24/07/24 Срд 21:27:01 #143 №826642

>>826635
>Но эксл2 быстрее заметно. А у ггуфа — ггуфопроблемы.
Уже далеко не так заметно.

Аноним 24/07/24 Срд 21:28:20 #144 №826644

>>826413
Ответ правильный, но нестабильный, т.е. сетке все равно что отвечать, а это ну никак с ИИ не связано.

Аноним 24/07/24 Срд 21:30:56 #145 №826647

1721845834804.png

Мужички, помогите разобраться ньюфагу, кто серит под себя. Модели или я.

Ну вот есть у меня разные файнтюны-мержи ламы2 на 8-11b. И все они практически безупречно отрабатывают карточки и ситуации, ведут нормальные диалоги. Да, purple prose во все поля, двойные трусы, но помимо этого нареканий почти нет, учитывая их размер.
И есть файнтюны ламы3 8b, которые творят абсолютную дичь.
1. У них какой-то адовый словесный понос на любых пресетах. Пикрелейтед.
2. Они берут внутренние данные карточки и выдают их за контекст недавно сказанных слов. "Мы только что повстречались, но зачем ты надел футболку с коррозией металла, ты же прекрасно знаешь, как я боюсь пауков"
3. Они зачастую не придерживаются данных карточки. Каноничные приключенец/сестра/учительница/радфемка становятся семёном димоном через десять сообщений, если яйца подкатывать, вместо положенных shock/anger/disgust/butthurt.
4. В половине случаев несут какую-то шизу из обрывков недавних сообщений, путая кто что кому сказал.
5. Не могут в логику своего повествования. Обещают показать жопу, а в следующем сообщении крайне оскорбляются, если им напомнить.
Да, могут ответить на вопрос про петуха с яйцом, но какой ценой? Буквально всего.
Я не понимаю, я где-то обосрался с настройками или что? Качество рп-кума просто катастрофически упало.
И да, свайпы не помогают. Ну может на двадцатый раз и при ручных правках что-то получится.

И отдельное упоминание Tiger Gemma 27b с рекомендуемым 4к контекстом. Это просто шизофреническая фиеста. Такое ощущение, что карточка и контекст для неё существует на 5%. Всё остальное шизовыдумки.

Аноним 24/07/24 Срд 21:32:06 #146 №826649

>>826610
Нет, особенно если кодописец - свидомый адепт клинкода и странных подходов. Исключения редки и требуют скиллов.
>>826624
Зачем траллишь? И сам формат с его квантованием хорош, и код бэка прекрасный а не то за что критикуют жору. Верно сказано только что летает.
>>826627
> питон не самый медленный язык из мейнстрима
Не самый, это удобный и эффективный высокоуровневый язык с большой степенью абстракции. Но это не мешает ему быть быстрым ибо требовательные к перфомансу части написаны на отборных сях/расте/... умными людьми и хорошо оптимизированы.
>>826635
> это не он лучше ггуфа, это ггуф хуже его
Сказанул так сказанул.
Он позволяет достаточно эффективно ужимать в нормальные битности (хз что там на 3битах и ниже) и позволял делать калибровку когда на жора-квантах об этом даже не слышали, используя фиксированную матрицу. Но главное - не имеет лишних кривых добавок и ограничений как у жоры, за счет чего случаи проблем с ним единичны.
>>826647
Формат промта под другие модели менять хоть пробовал? Попробуй для начала готовые пресеты таверны, удивишься насколько лучше станет работать.

Аноним 24/07/24 Срд 21:33:19 #147 №826653

>>826635
> Вообще, чисто статистически — нет, не будут.
Будут. Каждая зрелая библиотека вылизана, использует ряд оптимизаций, имеет простой публичный интерфейс. Когда речь заходит про ML с кучей ботлнеков, это имеет решающее значение. Говнокодить на С++ очень просто и ллама.цпп очередной наглядный пример.

Раст просто проще использовать разумно, а у поколения разработчиков на расте отсутствуют плохие привычки программирования, которые вросли в разрабов С++ с годами из-за дебильных идиом и задержек в стандартизации.

Так что да в 2024 году практически любой код на расте будет в среднем быстрее говнокода на С++.

Аноним 24/07/24 Срд 21:35:17 #148 №826659

Различие между васянской поделкой и стандартом индустрии лишь распространение... в чем я не прав???

Аноним 24/07/24 Срд 21:43:58 #149 №826667

>>826649
Че несешь?

Аноним 24/07/24 Срд 21:46:15 #150 №826670

image.png

Ваши теоретические истязания абсолютно бессмысленны, когда на практике жора уже обошел ехл2.

https://www.reddit.com/r/LocalLLaMA/comments/1e68k4o/comprehensive_benchmark_of_gguf_vs_exl2/

Аноним 24/07/24 Срд 21:46:43 #151 №826671

Редко захожу в тред, но деградацию не увидит разве что слепой. Тут некоторые уже настолько отупели общаясь с нейросетью и генерируя ответы, вместо изучения технических работ и подтверждения знаний на практике, что буквально начинают напоминать своих генеративных лоботомитов.

Аноним 24/07/24 Срд 21:48:56 #152 №826672

А напомните, пожадуйста, формат промта для Геммы какой?

Аноним 24/07/24 Срд 21:49:26 #153 №826673

>>826671
Особенно вот эти челы, что отвечают на все посты в треде. Ебанатам буквально везде необходимо присунуть свое важное сгенерированное 2квантовой хуйней мнение.

Аноним 24/07/24 Срд 21:50:01 #154 №826674

1721846979568.png

1721846979569.png

1721846979570.png

>>826649
>Формат промта под другие модели менять хоть пробовал? Попробуй для начала готовые пресеты таверны, удивишься насколько лучше станет работать.
Пробовал, почему и спрашиваю. У меня есть дефолтные пресеты таверны, пресеты 1,9 отсюда https://huggingface.co/Virt-io/SillyTavern-Presets/tree/main/Prompts/LLAMA-3, пресеты от леддиторов. Пробовал все, включая различные комбинации. Качество улучшается в пределах 20% максимум. Против условных 100% на ламе2.
Вот, скажем, то, что предлагает таверна. И вот что получается.

Аноним 24/07/24 Срд 21:59:48 #155 №826679

>>826671
Эм, я раз в неделю только кумлю, вместо просмотра порно. Стал только умнее, читаю все научные статьи, что тут кидают.
>>826672
Гемма 2.
>>826673
>2квантовой хуйней
0,58 же, ты отстал.

Аноним 24/07/24 Срд 22:02:49 #156 №826681

>>826670
> на практике жора уже обошел ехл2
> Везде медленнее кроме одной модели которая никому не нужна
Забавные практиканты.
Но вообще у него довольно странный результат с оче медленной обработкой промта на экалламе. Можно предположить что как-то вляет его метод измерения с коротким контекстом, отличия в разбиении по картам, 4битный кэш, что-нибудь еще. 400 т/с это 20 секунд ожидания первых токенов на полном контексте 70б. По факту же задержка по сравнению с кэшем есть но ее не подмечаешь явно, а на жоре прямо вымораживает ждать.

Аноним 24/07/24 Срд 22:04:07 #157 №826684

>>826671
Скорость выхода моделей и программного обеспечения,
резкое увеличение информационной шумихи вокруг LLM,
та же магистерская программа строительной компании
самолет в ранхигсе на 30 мест полностью бесплатная с хабом,
медленное аппаратное обеспечение посетителей треда,
не позволяющее оперативно проводит эксперименты по
изложенным в статьях гипотезам подрывает интрес к статьям.
Держи в голове что большая часть знакомится с LLM за свой
счет, что включает в себя оплату электричества и покупку карт.
В отличии от майнинга или кодинга тут нет прямой конверсии,
по сколько профит получат большие корпорации по итогу.

Аноним 24/07/24 Срд 22:08:03 #158 №826693

>>826681
Ажно целых три процента. Да... прям чувствую превосходство стандартов над васянами.

Аноним 24/07/24 Срд 22:08:22 #159 №826695

>>826674
Хотел сначала написать, что у многих тьюнов тройки сломан EOS токен, поэтому и не затыкаются, и правильный формат тут несильно помогает. Но потом увидел, что у тебя включен auto-continue до 400 токенов. Нафига? Ты выставил 256 токенов ответа, вроде не хочешь простыни, но заставляешь продолжать. Вот модель и пытается что-то из себя выдавливать.

Аноним 24/07/24 Срд 22:11:15 #160 №826698

>>826684
В отличие от сраного майнинга это хотя бы радость простому юзеру приносит. Радость и боль потому что мощи всегда не хватает

Аноним 24/07/24 Срд 22:17:22 #161 №826703

1721848621360.png

>>826695
В таком случае сетка просто не договаривает фразы. При этом настройка у меня эта болтается чёрт знает сколько уже и не вредила второй версии.

Аноним 24/07/24 Срд 22:17:47 #162 №826704

>>826693
Да это все ерунда, llamacpp какбы в генерации почти всегда была нормальной. Вот только когда набирается контекст - внезапно та самая генерация идет нахуй и ощутимо так проседает.
И промт в экслламе обрабывается не 300-400т/с как в жоре на больших величинах. Печати подробной по дефолту нет, но учитывая что на 400 токенов ответа при 8к с кэшем общая около ~18т/с, без кэша 12-14т/с, там в районе 1к.
Неспроста автор выбрал именно такие условия с 500 токенами ответа и 600 контекста.

Аноним 24/07/24 Срд 22:20:28 #163 №826706

>>826698
>потому что
Сетки всё ещё тупые как пень, даже самые крутые коммерческие.
>>826703
>просто не договаривает фразы
Поставь чуть больше токенов ответа, наркоман.

Аноним 24/07/24 Срд 22:38:33 #164 №826718

1721849891211.png

1721849891212.png

>>826706
>Поставь чуть больше токенов ответа, наркоман.
Ну да, я так и буду чуть ей добавлять, а она чуть не договаривать, уже проверял. Но вообще, похоже это и правда был сломанный EOS токен (что бы это ни значило). Модель average normie. Сейчас зарядил stheno 3.2 и уже гораздо лучше. Так что проверить бы нормиса ещё кому-нибудь на вшивость и удалить из шапки, а то в заблуждение вводит знаете ли.
До этого тоже был какой-то всратый файнтюн по советам. Так и живём.

Аноним 24/07/24 Срд 22:55:09 #165 №826724

>>826718
>удалить из шапки
Он не в шапке, он в списке по ссылке из шапки. В шапке вообще устаревшее по нынешним временам говно, но оно 100% так не ломается и хотя бы работает стабильно.

Аноним 24/07/24 Срд 22:56:43 #166 №826726

>>826718
Чем меньше модель, тем больше свайпов точнее надо попасть (промптом, пресетом, настройками, фазой луны...) Правда с большими тоже фигня творится. Ну нет счастья в жизни.

Аноним 24/07/24 Срд 23:28:58 #167 №826753

1721852916439.png

>>826724
>>826726
Всё, анончики, разобрался. Дело было в моделях. L3-8B-Stheno-v3.2-Q6_K-imat.gguf на llama 3 rp+ instruct пресете работает так, как я привык на старых. Ну и умнее и человечнее что-ли в каких-то мелочах. Даже свайпать не приходится. Надеюсь, дальше ничего не отъебнёт...
Всё, нет времени говорить, побежал кумить.

Аноним 25/07/24 Чтв 00:21:24 #168 №826812

Ггуф 123B в 4 кванте весит почти 74Гб. В пятом 87. Плюс контекст. В принципе 4KM при таком количестве параметров должен дать достаточно хороший результат. Жутко интересно, какая модель получилась. И полные веса теперь доступны.

Самое интересное, что никто не ждал ни новой Лламы, ни второго Mistral Large. Так быстро так уж точно. В интересные времена живём.

Аноним 25/07/24 Чтв 00:26:01 #169 №826815

>>826812
>В интересные времена живём.
Во времена добивания ~ 10% до потолка архитектуры?

Аноним 25/07/24 Чтв 00:31:38 #170 №826818

>>826815
Всегда потолок где-нибудь прорывают. Не вверх, так вбок.

Аноним 25/07/24 Чтв 00:37:56 #171 №826819

>>826815
Постоянно вижу это сообщение в треде,
что за стеклянный потолок поясни кратко.
И да, что по твоему мнению после него?

Что вижу сейчас: набор сейлеров по llm на hh,
набор ml джунов с опытом, проги в вузах.
По факту, релизы от банков скорее мертвые.
Ландинги, карточики авито, где челы пишут про
свой опыт LLM в 10+ лет и продают свои услуги.
Ещё видно как с каждой свежей модели всё
сильнее вилкой дочищают дата сеты начисто.
Данные все те же - обработанный инет контент.

Аноним 25/07/24 Чтв 01:01:44 #172 №826830

mistral-large-2407-multiple.png

Там митсрал 2 вышел, почоны
https://mistral.ai/news/mistral-large-2407/
123b, 128к контекст

Аноним 25/07/24 Чтв 01:16:13 #173 №826835

А есть ли какой-то параметр, который позволяет оценить что сеть будет правильно отвечать всегда на один и тот же вопрос, пусть даже с разными вариациями.

Аноним 25/07/24 Чтв 01:18:48 #174 №826836

>>826835
Perplexity, оцененная на этих самых вопросах.

Аноним 25/07/24 Чтв 01:22:55 #175 №826839

>>826830
>А Mistral Large 1 они вообще официально выкладывали, хотя бы не веса, а вообще доступ давали?

Аноним 25/07/24 Чтв 01:36:55 #176 №826847

>>826839
Да

Аноним 25/07/24 Чтв 01:41:40 #177 №826849

>>826839
Из того что встречал на Mistral
вот эта самая отбитая из всех:
https://huggingface.co/v000000/TeaMistral-7B_test-Q8_0-GGUF

Аноним 25/07/24 Чтв 04:19:18 #178 №826914

Бумага по лламе такая же здоровая, как сама ллама.
>Llama 3 405B is trained on up to 16K H100 GPUs, each running at 700W TDP with 80GB HBM3
>240 PB of storage out of 7,500 servers equipped with SSDs, and supports a sustainable throughput of 2 TB/s and a peak throughput of 7 TB/s.
Вот смотришь на потраченные ресурсы, на полученный итог и волей-неволей приходят мысли - а это точно лучший результат, который можно получить, вбухивая столько мощностей? Может, уже и архитектуру перепилить пора?

>Using this procedure, we generated approximately 1.2M synthetic dialogs related to code explanation, generation, documentation, and debugging.
>we prompt the model to generate code only from its documentation, or we ask the model to generate code only from its explanation
Ясно, ванильную лламу для кода лучше не использовать. Пик 4, верхняя часть питон, нижняя не питон. Почему питон так хорош? А, проехали.
>popular benchmarks for Python code generation which focus on relatively simple, self-contained functions.

>To collect higher quality human annotations in non-English languages, we train a multilingual expert by branching off the pre-training run and continuing to pre-train on a data mix that consists of 90% multilingual tokens.
В пизду лламу, дайте этого эксперта.

>We train a code expert which we use to collect high quality human annotations for code throughout subsequent rounds of post-training. This is accomplished by branching the main pre-training run and continuing pre-training on a 1T token mix of mostly (>85%) code data.
И этого тоже. Вообще интересно, они говорят, что для получения хай квалити хьюман аннотейшенс обучили эксперта. Речь идёт точно о нейросетях или в ход уже пошли рабы?

>During the final pre-training stage, we extend the context length of Llama 3 from 8K tokens to 128K tokens
>Specifically, we use an initial batch size of 4M tokens and sequences of length 4,096, and double these values to a batch size of 8M sequences of 8,192 tokens after pre-training 252M tokens. We double the batch size again to 16M after pre-training on 2.87T tokens. We found this training recipe to be very stable
Здесь очевидно, длинный контекст накидывался с лопаты в самом конце, потому что ебать дорого и сложно.

Половина бумаги про сейфти, больше всего понравилось, что False Refusal Rate Relative to Llama 3 cоставляет всего-то +102% со всеми включенными соефикаторами.
> Violation Rate and False Refusal Rate: English -76% +95%
Ага, плюс сто процентов ложных срабатываний, чтобы защититься от трёх четвертей опасного контента. Сексуальный контент, кстати, оба соефикатора чистят на 100%, успех, я считаю. Скоро их включат в процедуру трейна, чтобы наверняка, чтобы уж никак не просочилось.

Аноним 25/07/24 Чтв 04:32:44 #179 №826921

image.png

>>825208
L3-8B-Stheno-v3.2 3 недели кулю только на ней.

Аноним 25/07/24 Чтв 05:01:31 #180 №826928

>>826914
>че та сравнивают
>нет phi-3 и qwen2
Ясна.

Аноним 25/07/24 Чтв 05:33:56 #181 №826938

https://huggingface.co/bartowski/Meta-Llama-3.1-8B-Instruct-GGUF

Гуф от батрухи. В теории жоре нехуй чинить, это ведь та же тройка немношк подтянутая. Так что проверяйте анальники.

Аноним 25/07/24 Чтв 06:04:09 #182 №826954

>>826914
> Вот смотришь на потраченные ресурсы, на полученный итог и волей-неволей приходят мысли - а это точно лучший результат, который можно получить, вбухивая столько мощностей? Может, уже и архитектуру перепилить пора?
Нормальная архитектура. Если именно просто обучать, чтобы лосс падал на максимально корректных ответах безотносительно сейфти, а не дебилизировать соей и прикручивать дополнительные соефикаторы.
> Половина бумаги про сейфти,
То-то и оно.

Аноним 25/07/24 Чтв 08:00:34 #183 №827048

>>826938
а че она такая медленная? предыдущая версия была быстрее

Аноним 25/07/24 Чтв 08:16:43 #184 №827058

>>826830
>самая тупая сетка победила в PHP
Закономерность?
>>826835
>сеть будет правильно отвечать всегда
Нет сынок, это фантастика.
>>826914
>Может, уже и архитектуру перепилить пора?
Никто там не будет так рисковать.
>Здесь очевидно, длинный контекст накидывался с лопаты в самом конце, потому что ебать дорого и сложно.
Как и во всех остальных текущих сетках.
>Скоро их включат в процедуру трейна, чтобы наверняка
Наверняка они только убьют производительность, лол.
>>826954
>Нормальная архитектура.
Кусок говна без внутреннего диалога.

Аноним 25/07/24 Чтв 08:44:44 #185 №827082

Ну Мистраль Large хорош, русский вообще идеальный. Из неприятного - как-то более сухо отвечает по сравнению с ламой и ответы короче, рандома мало. Ещё она как-то неохотно движется по сюжету. Может конечно опять жоровские лупы, но оно как-то слишком сильно за контекст цепляется и иногда повторяет прошлые мысли, хоть и перефразированные. Может надо с промптом поебаться и простых [INST][/INST] вокруг промпта мало. Цензура в районе ламы - ниггера можно, бомбу нет. Уравнения ваши решает. Файнтюнов наверное никогда не дождёмся с таким размером.

Аноним 25/07/24 Чтв 09:01:07 #186 №827088

Аноники, помогите, я туплю!
Хочу запустить вот эту https://github.com/Sebby37/Dead-Internet фигню с лламой.цпп. Но при запуске она мне пишет
openai.OpenAIError: The api_key client option must be set either by passing api_key to the client or by setting the OPENAI_API_KEY environment variable
В описании предлагают редактировать .env файл, которого нет, либо изменить "client" в ReaperEngine.py файле, но ХЗ как.
Пологике всё должно выглядеть так
>self.client = OpenAI(base_url="http://localhost:5000/v1/", api_key="Dead Internet")
Но это нихуя не работает, всё равно высерает ту же ошибку. Как включить эту хуйню?

Аноним 25/07/24 Чтв 09:12:49 #187 №827092

>>826753
>>826921
Можете ещё Лунарис от этого же автора глянуть, мерж этой версии stheno с парой других тьюнов. https://huggingface.co/Sao10K/L3-8B-Lunaris-v1
Мне понравился, при том, что я не уважаю (не осилил) тройку и stheno удалил почти сразу. Сам автор пишет, что по его мнению этот мерж лучше stheno, и в обсуждении на странице модели народ доволен.

Аноним 25/07/24 Чтв 09:58:43 #188 №827122

>>827082
Подкрутил семплинг, выкинул все оставшиеся кишки альпаки, перенеся всё в системный промпт, и вроде прошли лупы. В РП прям на голову выше ламы 70В и её рп-тюнов, и это первая модель, где к русскому претензий вообще нет, можно спокойно рпшить и не кринжовать от странных выражений. Вот и дожили, когда локалка ебёт клауду и гопоту. Скорость хотелось бы чуть повыше, но с 10-12 т/с в целом можно жить, особенно учитывая что свайпать не приходится. Забавно как ламу 3.1 на следующий же день похоронили таким подгоном, я вчера весь вечер проебался с ней и так смог сделать удовлетворительный вариант для рп, а мистраль сходу норм работает.
Из главных проблем ламы 3.1 70В, что я не смог пофиксить - она как будто не останавливается вовремя. Может написать 1-3 нормальных абзаца, а потом выдать ещё один абзац с проёбаным форматированием, просто ложит хуй на проставление *. Или сразу начинает писать без форматирования, или внезапно посреди текста перепутать реплику с нарративом и форматнуть их наоборот. Плюс по ощущениям на инструкции хуже реагирует чем обычная тройка. И это на EXL2, страшно представить что у Жоры там.

Аноним 25/07/24 Чтв 10:08:17 #189 №827130

Обновил список моделей, добавил новые из тех, что видел в треде: https://rentry.co/llm-models
Если что не так исправляйте/дополняйте.

Аноним 25/07/24 Чтв 10:08:52 #190 №827131

>>826509
> Конфиг и генерейшен конфиг у него верные, все что я могу предложить:
Да не, нахер эти костыли, проблема вот в этом с ней короче >>826012

Аноним 25/07/24 Чтв 10:33:38 #191 №827140

>>827092
Лунарис топчик для кума.

Аноним 25/07/24 Чтв 11:00:09 #192 №827157

Кобольд обновился и стал поддерживать Мистарль Немо. С одной стороны не хотела сразу давать ответ на расисткую загадку про негра и латиноса в машине и дала только с подсказкой. С другой стороны это у меня первая модель которая на стандартной карточке ассистента Эми была хорни.

Аноним 25/07/24 Чтв 11:57:41 #193 №827211

>>826653
Мы говорим не о говнокоде, а о нормальном коде. =)
Говнокод — проблема говнокодеров, тащемта.
Не думаю, что в один ряд с профессионалами стоит ставить васянов с гита.

>>826673
Предлагаю дебилам перестать отвечать на каждый пост и посмотреть, как засияют гении треда. =)

>>826704
Нахуй идет не генерация, а тотал.

>>826812
Норм, качаю.

>>826819
А причем тут это?
Потолок архитектуры — сильно лучше трансформеры не станут, речь об этом.
Разница между 7б лламой 1 и 72б квеном 2 — огромна.
Но разница между мистраль 123, лламой 405 и гпт-4 — уже не так заметна.
Потому что архитектура выдает что может, и кратное увеличение размера датасета не дает кратное увеличение интеллекта.
Он об этом.

>>826914
Ну вот практически 100% ожидаемый папир.
Из чего-то непредсказанного разве что эксперты по анализу даты и кода. Ну, норм идея.
Все остальное как по писанному: огромные мощности, мизерный прирост в 1%-2% в тестах, соефикаторы. Да еще и контекст сомнительного качества, хз-хз.

>>826954
Даже без сои, все равно прирост был бы не таким впечатляющим, как хотелось бы, к сожалению.

>>827058
> Закономерность?
Как пхп-обезьянка — покекал. )

>>827058
> Никто там не будет так рисковать.
Мистраль рискнули.
Бесконечный контекст!
2к.
=D

>>827082
Беда в том, что в 48 гигов уже нормальный квант не влезет.
А три видяхи — слегка дороговато выходит.

>>827088
Кстати, у меня он работал через раз. Было прикольно но не долго, забей.
localhost:5000
Почему 5000? Уверен, ты апи повесил на 5000 порт?

У меня
self.client = OpenAI(base_url="http://localhost:5792/v1/", api_key="Dead Internet")

При запуске убабуги
--listen --listen-port 5791 --api --api-port 5792

>>827122
> клауду
А он братана норм отыгрывает?
Ну, по тому промпту.

Аноним 25/07/24 Чтв 12:19:40 #194 №827230

>>827211
>Почему 5000? Уверен, ты апи повесил на 5000 порт?

16:16:20-384238 INFO Loading the extension "gallery"
16:16:20-386239 INFO Loading the extension "openai"
16:16:20-482668 INFO OpenAI-compatible API URL:

http://0.0.0.0:5000

Running on local URL: http://0.0.0.0:7888
Думаю, да, угабога по умолчанию с таким портом стартует.

>Было прикольно но не долго, забей.
Во первых интеросно глянуть. Во вторых разобраться как каботает привязка OpenAI к коду, вдруг захочется где-то ещё использовать.

Аноним 25/07/24 Чтв 12:24:14 #195 №827233

Посоветуйте pls модельку для NSFW RP для запуска на 8гб VRAM.

Пробовал и понравились:
1 Poppy_Porpoise-0.72-L3-8B-Q4_K_M-imat
2 Nyanade_Stunna-Maid-7B-v0.2-Q5_K_M-imat
3 kunoichi-dpo-v2-7b.Q5_K_M

Но.. 1 и 2 хороши в диалоги, но по какой-то причине я там везде скорострел, кек, модельки хорошо все описывают, но в конце того же респонса заканчивают любой интим. Ответы почти всегда довольно короткие, не смотря на настройки. 3 хорошо, но туповата.

Пробовал и не понравились:
Noromaid-7B-0.4-DPO.q6_k
v1olet_marcoroni-go-bruins-merge-7b.Q6_K
L3-8B-Stheno-v3.3-32K-Q4_K_M-imat
Tiger-Gemma-9B-v1a-Q4_K_M
aya-23-8B.i1-Q4_K_M

Не понравились из-за длинного текста, куча болтовни и мало описаний действий\окружения.

П

Аноним 25/07/24 Чтв 12:26:43 #196 №827235

использую разные модели на ламе 2 и 3 и через десяток сообщений начинается луп почти дословный
мож кто вкурсе чо это и чо делать?
альпак на пигмы итд туды сюда переключал не помогает
контекст более 4К
размер моделей тож не сам малый

Аноним 25/07/24 Чтв 12:37:02 #197 №827240

>>827235
Пересаживайся на mistral-nemo-12b, там луп намного позже наступает.

Аноним 25/07/24 Чтв 12:37:08 #198 №827241

>>827233
L3-8B-Lunaris-v1-Q4_K_M

Аноним 25/07/24 Чтв 12:39:06 #199 №827244

>>827240
а можно без лупа ? раньше казалось что лупа не было а что поменялось не знаю

Аноним 25/07/24 Чтв 13:01:00 #200 №827277

>>827233
Системный промт поменяй, тут не в моделях дело. Не всё из твоего списка гонял, но как минимум Stheno и aya-23 нормально чередуют диалоги и описания, если вменяемо оформить инструкции.

>>827241
В чем разница этой васянской мержи с обычной Stheno?

Аноним 25/07/24 Чтв 13:24:21 #201 №827305

>>827235
может ли сеть лупится от нехватки контекста по размеру?

Аноним 25/07/24 Чтв 14:07:31 #202 №827346

>>826954
>Нормальная архитектура.
Это буквально ядерный реактор ради лампочки на сотню ватт. Они сами оценивают разницу "надёжности" между 70b и 405b в пять процентов. На длинном контексте - 4.8 процента.
Как говорит один мой знакомый, с хуя жира не натопишь.

>>827058
>Никто там не будет так рисковать.
Рано или поздно придётся. Хотелось бы раньше.
>Наверняка они только убьют производительность, лол.
По-моему, они уже. Причём основательно так.

>>827211
>практически 100% ожидаемый папир.
Всё равно просмотреть по диагонали было интересно. Мало ли что.
>Мистраль рискнули
Вполне возможно, что там всё, как gemma-2. Модель под хороший контекст подготовлена, а вот опенсорс код - нет. У неё при окне 4k внимание должно захватывать 131k токенов, если что.

Аноним 25/07/24 Чтв 14:11:07 #203 №827352

>>827235
Менять настройки семплера. Min-P на 0.1 и Repetition Penalty на 1.1 или типа того. В предыдущие треды кидали более полный список крутилок, щас уже не вспомню.

Аноним 25/07/24 Чтв 14:22:27 #204 №827361

>>826914
> >Llama 3 405B is trained on up to 16K H100 GPUs, each running at 700W TDP with 80GB HBM3
Ррреее дайте хотябы одну, это ведь можно перевернуть текущую дичь, что зовется опенсорсом генеративных моделей.
> Ясно, ванильную лламу для кода лучше не использовать.
Да зря ты, подход вполне нормальный для такого.
> дайте этого эксперта.
> И этого тоже.
Да зачем он тебе, это же просто херька годная для классификации. Там не написано что он создавал, только оценивал и выбирал из имеющегося.
> длинный контекст накидывался с лопаты в самом конце, потому что ебать дорого и сложно
Потому что это единственный путь на данный момент, который у всех.
> Половина бумаги про сейфти
Трешанина ебаная, сразу понятно откуда деньги на то железо.

Красавчик что это притащил.
>>827058
> Кусок говна без внутреннего диалога.
cringe
>>827211
> Нахуй идет не генерация, а тотал.
Нахуй идет не только тотал, но и генерация, тотал то в любом случае должен падать из-за дополнительных расчетов. Хз что там у тебя на теслах ускоряется и т.д., на амперах в начале если там 17-18т/с то уже на 7.5к падает до ~12. А еще тормознутая обработка промта к этому потому над тоталом надругается радикально.

Аноним 25/07/24 Чтв 14:56:14 #205 №827387

Solve this system of equations:
2x-3y+z=-1
5x+2y-z=0
x-y+2*z=3

То решает правильно, то неправильно, и это лучшие сети на сегодняшний день. Какой-то просто кринж.

Аноним 25/07/24 Чтв 15:49:32 #206 №827431

Суки, опять ненужное чрезмерно огромное говно выбрасывают в опенсорс, не выкладывая нормальные модели.

Аноним 25/07/24 Чтв 15:50:43 #207 №827434

>>827387
Спроси у них что больше 9.11 или 9.9, удивишься спиздил у одного ютубера

Аноним 25/07/24 Чтв 15:58:01 #208 №827447

>>827434
Да, ллама 405б обосралась. Другие топовые - норм.

Аноним 25/07/24 Чтв 15:58:29 #209 №827448

image.png

>>827130

Текст ссылок белый на белом.

Аноним 25/07/24 Чтв 15:59:46 #210 №827451

>>827447
Омни без мини тоже обосралась.

Аноним 25/07/24 Чтв 16:14:11 #211 №827475

>>827235

Ну залуп на ламе это проблема известная и решается только одним - переходом на командира.

Аноним 25/07/24 Чтв 16:32:53 #212 №827497

>>827475
Как вы получаете эти лупы на лламе3? Ловил в сложных ситуациях когда модель уже не понимала как действовать, но и это были не столько лупы сколько хреновые ответы и предрасположенность к одному пути не туда куда хочешь. Повторений фраз как раньше ни разу не видел, бывает повторение структуры но меняется при свайпах и дольше 3-4 постов не держатся, вымораживая как бывало раньше.
Но коммандир все равно лучше чем тройка, 3.1 надо потестить.

Аноним 25/07/24 Чтв 16:40:44 #213 №827503

image.png

>>827448
Но пожалуй о светлой теме тоже надо было подумать. Путь будет так.

Аноним 25/07/24 Чтв 16:44:31 #214 №827504

>>827497
>Как вы получаете эти лупы на лламе3?

Правильный вопрос - а как их не получать на 8В модели?

Аноним 25/07/24 Чтв 17:03:55 #215 №827528

>>827082
На чём запускал, какой квант?

Аноним 25/07/24 Чтв 17:51:38 #216 №827582

Аноны, что самое топовое потянет пека 12400+64гб+4060ти16гб? Или ничего не привет приличного? Запустил чат ртх от нв, какая-то тупая параша.

Аноним 25/07/24 Чтв 18:09:14 #217 №827599

>>826753
>llama 3 rp+ instruct
Что за пресет, откуда его взял?

Аноним 25/07/24 Чтв 18:10:06 #218 №827601

>>827582
gemma 27b

Аноним 25/07/24 Чтв 18:21:17 #219 №827612

>>827082
а почему не сравнить с апи, а не гадать кто виноват?

Аноним 25/07/24 Чтв 18:40:11 #220 №827619

>>827504
а что это от номера Б зависит?

Аноним 25/07/24 Чтв 18:41:49 #221 №827620

>>827601
Спасибо, а она способна поддерживать диалог, помня предыдущие сообщения?

Аноним 25/07/24 Чтв 18:44:29 #222 №827621

>>827620
Там памяти в 4000 токенов

Аноним 25/07/24 Чтв 18:46:39 #223 №827622

1633460440459.png

>>827612
В API за тебя уже формат промпта прописан, хоть засравнивайся. Там только роль указываешь, а как он расставит специальные токены - загадка. По факту очень часто он выдаёт вот такие ебанутые вероятности - хоть обосрись, но тут будет речь персонажа. Я промптом немного распердолил, но всё равно вероятности иногда пиздец, хоть жить можно, надо ещё будет потом попердолиться. На Ламе 3 такого не было.
Ну и второй доёб есть - мало русских токенов, иногда аж по буквам слова пишет, в итоге скорость можно делить на два.
В остальном это топ по локалкам, даже близко ничего нет, разве что 405В.

Аноним 25/07/24 Чтв 19:19:52 #224 №827645

>>827122
>и это первая модель, где к русскому претензий вообще нет
Ты про командира+ забыл. Я у него тоже косяков не припомню.
>но с 10-12 т/с в целом
На чём запускаешь? У меня 104B в притык были, а тут походу придётся разменивать свои 64ГБ на 96, лол.
>>827211
>Как пхп-обезьянка
Лол, тут все такие?
>>827346
>Рано или поздно придётся.
Это точно не террористы будут, они ни разу при мне не рисковали. Сейчас скорее китайцы сделают какую-нибудь среволюцию ну или я свои заметки реализую.
>>827361
>cringe
Хуинге. Без внутреннего диалога модели так и будут срать под себя.
>>827599
В шапке в вики есть ссылка с пресетами, емнип.

Аноним 25/07/24 Чтв 19:22:58 #225 №827652

>>827434
> что больше 9.11 или 9.9

Кстати, Мистраль на этих вопросах не подловить, и уравнения решает и это сравнение.

Аноним 25/07/24 Чтв 19:46:03 #226 №827663

>>827645
This?
https://huggingface.co/Virt-io/SillyTavern-Presets

Аноним 25/07/24 Чтв 19:49:08 #227 №827665

>>827621
Т.е. очень мало?

Аноним 25/07/24 Чтв 19:50:20 #228 №827666

>>827663
Ну да. Если такой нерешительный, можешь ещё у мамы переспросить, та ли ссылка.

Аноним 25/07/24 Чтв 19:52:19 #229 №827668

>>827666
Причём тут мама. Я заимпортил их и не вижу пресета с твоим названием.

Аноним 25/07/24 Чтв 19:57:01 #230 №827673

>>827652
https://www.youtube.com/watch?v=JDyOo1vIUk0

Аноним 25/07/24 Чтв 20:01:38 #231 №827675

911.png

>>827434

Аноним 25/07/24 Чтв 20:03:36 #232 №827678

>>827665

Роупскейлом сколько хочешь можно расширить, пока видеопамяти хватит.

Аноним 25/07/24 Чтв 20:06:29 #233 №827682

>>827675
Что за сетка?

Аноним 25/07/24 Чтв 20:10:43 #234 №827688

Продолжение бы, сейчас больше можно лулзов наловить, учитывая как шагнули сетки за год.

https://www.youtube.com/@vonnyai

Аноним 25/07/24 Чтв 20:11:57 #235 №827690

911.png

>>827682
gemma-2-27b

Специально на шизокарточке проверил. Легко и непринуждённо справляется.

Аноним 25/07/24 Чтв 20:17:39 #236 №827697

>>827690
> gemma-2-27b
Не файтюн? Чистая?

Аноним 25/07/24 Чтв 20:17:42 #237 №827698

>>827668
Я и не писал, что он там есть, лол.

Аноним 25/07/24 Чтв 20:19:20 #238 №827701

>>827698
А где есть?

Аноним 25/07/24 Чтв 20:43:05 #239 №827726

gradient-tinystories-20m.Q2_K.gguf 11MB.
Лучша заглушка для eva чтобы гонять SD.

Аноним 25/07/24 Чтв 21:08:23 #240 №827740

>>827122
Так, оно рили настолько хорошо в рп? Знает ли разные фендомы и вселенные? Понимает ли фетиши и андеграунд культуру? Насколько хорошо подстраивается под юзера и ведет повествование?
Не хочется прерывать задачи чтобы потестить и подгореть с низкого качества.
>>827504
> на 8В модели
Вот тут хз. По беглым тестам она не лупилась, но катал ее оче мало в теории должно быть то же самое (подходящий формат, нормальная карточка, отсутствие противоречий в промте и постах), только тупее.
>>827645
> Без внутреннего диалога модели так и будут срать под себя.
Да они и с ним так будут делать.
Для чего-то подобного нужно не генерить токены по одному, и, возможно, вообще отказаться от концепции токенов, а обрабатывать сразу весь ответ по смысловой нагрузке, постепенно его улучшая с шагами, по аналогии с той же диффузией. Но это настолько геморойно, сложно и затратно по вычислениям, что проще на трансформерсах реализовать аналогичное... Ой, а ведь это уже есть, начиная от вариаций кота, заканчивая множественными запросами. Если это еще скрестить с мое в нормальной реализации, или чем-то подобном, то может вообще отлично получиться.

Аноним 25/07/24 Чтв 21:14:47 #241 №827742

изображение.png

Посматривая на новые модели в 120 и 405B Интересно, будет ли это дружить с обычной материнкой и удастся ли разогнать хотя бы до 6 кеков?

Аноним 25/07/24 Чтв 21:17:27 #242 №827745

>>827740
>и, возможно, вообще отказаться от концепции токенов, а обрабатывать сразу весь ответ по смысловой нагрузке, постепенно его улучшая с шагами, по аналогии с той же диффузией
У меня такие же мысли были записаны в тетрадку ещё в прошлом году, лол.
>Но это настолько геморойно, сложно и затратно по вычислениям
Лол, не факт. Если сжимать смыслы чем-то типа VAE, то может выйти даже быстрее, забубенить сразу абзац вместо одного слова.

Аноним 25/07/24 Чтв 21:18:16 #243 №827746

Снимок экрана25-7-2024211650www.dns-shop.ru.jpeg

>>827742
Да что уж там, вот все 128.

Аноним 25/07/24 Чтв 21:24:21 #244 №827747

изображение.png

>>827746
Извинити, у меня DDR5.

Аноним 25/07/24 Чтв 21:29:06 #245 №827750

Снимок экрана25-7-2024212740www.dns-shop.ru.jpeg

>>827747
Так там у тебя занятная карточка, в пк
48 Gb DDR5 стоят 20к примерно новая,
та же KF560C32RSA-48 и KF560C32RS-48.
Зачем тебе серверная 32 гб не понятно.

Аноним 25/07/24 Чтв 21:33:51 #246 №827751

изображение.png

>>827750
Да ты блядь издеваешься, 6000МГц, мне что, на 1т/с сидеть что ли? И да, там 64 одной планкой хоть и с пососной скоростью.
Впрочем, это скорее шутка, если серьёзно, я к 6600 присматриваюсь, 2х48 набором за 50к.

Аноним 25/07/24 Чтв 21:38:21 #247 №827753

>>827742
У обычных материнок ограничение 200гб. Больше 4 по 48гб не вставишь. Плюс там двухканал и низкая скорость для 4 плашек. >>827751
Прирост между 5600 и 6800 всего 10%. Учитывая космические скорости генерации с выгрузкой большей части модели в оперативку ты буквально не увидишь разницы (а 4 плашки ты и так не заведёшь на 6600).

Аноним 25/07/24 Чтв 21:40:17 #248 №827754

>>827742
Не будет, только серверные. Может попозже появятся, а пока увы. Можешь собрать 192 гигабайта 4 плашками по 48, с разгоном придется попердолиться.
>>827745
Одно дело мысли а другое - подходы к реализации и она сама. Там может столько проблем вылезти что йобу дашь, ошибки текущих ллм со счетом и трусами вообще смехом покажутся.
> сжимать смыслы чем-то типа VAE
Для начала не сжимать а именно воспринимать. Это гораздо сложнее само по себе, плюс что в тексте, что в речи, что в визуальной информации они воспринимаются комплексом а не по отдельности. Соответственно, уже сама их кодировка будет той еще ебанистической задачей в отличии от примитивной токенизации, "информацию" придется дробить на чанки что скажется на качестве и т.д. Типа условный текстовый энкодер на основе ллм на выходе которого широченный слой с которого уже пойдет в основную модель, но сначала еще нужно будет насобирать кусочки. Это всего лишь тривиальные рассуждения возможного варианта и простые практические задачи связанные с эксплуатацией, и они - сущая ерунда по сравнению с фундаментальными.
>>827751
> 6000МГц
На амудэ больше не имеет смысла всеравно.
> мне что, на 1т/с сидеть что ли?
Переплати за оверсракерскую, сможешь наслаждаться космическими суперскоростными 1.1т/с!

Аноним 25/07/24 Чтв 21:48:05 #249 №827759

изображение.png

>>827753
>У обычных материнок ограничение 200гб
Оно точно есть? А то могут заявлять, а по факту пашет. В стандарте 2ТБ плашки были ещё в 2021-м, лол.
>>827753
>а 4 плашки ты и так не заведёшь на 6600
Да в общем-то если забить хуй на 400B шизомонстров с приростом в 0,0001%, то и 96 должно хватить. А вот 64 у меня в подкачку просятся, увы.
>>827754
>Там может столько проблем вылезти что йобу дашь
Ну это само собой, как и с любым другим новым подходом. Впрочем, у меня в мыслях модульная ИИ, которую можно тюнинговать кусками, ибо шатал я (пере)обучать все эти новомодные 8 млрд параметров после каждого неудачного пука целиком.
>Типа условный текстовый энкодер на основе ллм на выходе которого широченный слой с которого уже пойдет в основную модель
Мыслим одинаково, ага. У тебя есть какие-нибудь наработки?
>На амудэ больше не имеет смысла всеравно.
У меня 6200, не надо тут.
>сможешь наслаждаться космическими суперскоростными 1.1т/с!
А то. Плюс я игры иногда запускаю, там это имеет смысл.

Аноним 25/07/24 Чтв 22:22:50 #250 №827785

>>827759
> у меня в мыслях
Только санитарам не рассказывай, лол. Если же там что-то простое-адекватное и ты не фантазер - чего еще не используешь сам, хотябы в самом простом варианте чего-то?
> се эти новомодные 8 млрд параметров после каждого неудачного пука целиком
8б это ведь не так много по современным меркам. А так отдельные части не просто никто не мешает обучать, наоборот это практикуют.
> У тебя есть какие-нибудь наработки?
Откуда, я хлебушек, и знаний только чтобы оценить масштаб проблемы. Ллм так не увлекаюсь, рекреационное применение и переработка конвеером для датасетов визуальных моделей. Если займусь то буду тренировать мультимодалку, что сможет в аниму и блядство.

Аноним 25/07/24 Чтв 22:27:14 #251 №827787

>>827785
>Только санитарам не рассказывай, лол.
Ну вот, а мой психиатр говорит, чтобы я ему всё рассказывал ((
>чего еще не используешь сам, хотябы в самом простом варианте чего-то
У меня железа тонет, а самый минимальный вариант не даст ничего полезного. Примерно как трансформеры, тут тоже 1,5B ничего полезного не могут, а профит показался от десятка и выше.
>Откуда, я хлебушек
Окей. Я так то тоже, но хотя бы немного погромизд, максимум, что пока делал, так это тренировал небольшие модельки на 100M полчаса максимум. Железа бы мне побольше, чтобы с неделю покрутить.

Аноним 25/07/24 Чтв 22:35:39 #252 №827791

>>827787
Распиши что хочешь делать, идеи там какие-нибудь и есть ли понимание как сделать это на практике, а не просто соединить абстракции. Сам тренировал всяких моделей различных назначений и калибров, но все уже файнтюн готовых с изменениями уровня добавить слоев для получения нужной размерности, или инициализация шума по шаблону. Если интересное, может и железо найдется.

Аноним 25/07/24 Чтв 22:43:53 #253 №827794

image.png

Провел экстремальный стресс-тест Геммы 27В, прошла без единого замечания, идеальная модель для одной 4090. Командир отправляется на покой. Ему и до такого русского языка далеко, и до стоимости контекста и до скорости.

Аноним 25/07/24 Чтв 22:43:57 #254 №827795

>>827791
>Распиши что хочешь делать, идеи там какие-нибудь
Я же их не запатентовал, лол. А вообще, выше же написали, >>827754
>условный текстовый энкодер на основе ллм на выходе которого широченный слой с которого уже пойдет в основную модель
Плюс в этом энкодере должна быть своя починенная токенизация, тут раз в 10 тредов её обсуждают, ну там объединение слов по склонениям/с большой и малой буквы/прочая.
Конкретный код у меня только на эксперимент с софтмакс минус 1, он там показал небольшой прирост показателей, но увы, никакой революции.

Аноним 25/07/24 Чтв 22:45:24 #255 №827796

изображение.png

>>827794
Соевый кусок говна это, опять бабы кайфуют во время износа.

Аноним 25/07/24 Чтв 22:49:39 #256 №827797

>>827796

Я тебе страшную правду раскрою, но бабы мечтают об износах, у 2/3 баб такой фетиш. Так что все реалистично, наоборот, в соевых моделях бабы как раз НЕ кайфуют от износа, потому что реакция осуждения прописана соей железно.

Аноним 25/07/24 Чтв 22:55:30 #257 №827801

изображение.png

>>827797
>у 2/3 баб такой фетиш
Чел, какие блядь нахуй фетиши? Фетиш тут только у тебя, да и то на детские тела.

Аноним 25/07/24 Чтв 22:55:38 #258 №827802

Чё, кто там трогад L-3.1? Я что-то только разморозился от новости, что 405B выложили.
Интересует:
- выучила ли она русский
- насколько поумнела
- есть ли уже годные файн-тюны или с месяц подождать придется

Аноним 25/07/24 Чтв 23:05:17 #259 №827815

1721937895975.png

>>827801
Сетки только ради этого и изобрели так-то.

Аноним 25/07/24 Чтв 23:05:33 #260 №827816

>>827802
>с месяц подождать придется
Я не уверен, что третью лламу до конца починили, лол, а ты про версию, что вышла меньше 2-х дней назад...

Аноним 25/07/24 Чтв 23:34:15 #261 №827837

>>827795
Ну это я и писал, это лишь жонглирование абстракциями без структурированного плана. Для подобного нужно быть не просто не хуем собачьим, а на острие тематики и с знатным багажом. Тут бы разобраться с обучением уже имеющихся сочетаний т5 и диффузией сначала.
> ну там объединение слов по склонениям/с большой и малой буквы/прочая
Подробнее? Такое могло бы быть в плюс как раз энкодерам для кондишнов генеративных моделей, ибо такая мелочь, а создает проблемы.
Но для восприятия информации для чего-то большего этого уже нельзя делать. Проебутся акценты и вместо хорошего немецкого имени будет хуй. Весь русский и некоторые языки пойдут нахуй без склонений.
>>827796
Сюжет 90% релейтед фанфиков, манги и т.д., чего ожидал?

Аноним 25/07/24 Чтв 23:46:21 #262 №827851

>>827801
>This study evaluated the rape fantasies of female undergraduates (N = 355) using a fantasy checklist that reflected the legal definition of rape and a sexual fantasy log that included systematic prompts and self-ratings. Results indicated that 62% of women have had a rape fantasy, which is somewhat higher than previous estimates.
https://pubmed.ncbi.nlm.nih.gov/19085605/

Аноним 25/07/24 Чтв 23:50:25 #263 №827856

>>827851
Чел, там возраст мечтающих не тот.

Аноним 26/07/24 Птн 00:23:07 #264 №827873

>>827856

А какой должен быть? Я про всех женщин говорил, вообще-то.

Аноним 26/07/24 Птн 00:33:34 #265 №827882

>>827802

Официально не нужна. 8В не нужна так как вышел мистраль немо, который официально может в русский язык в отличие от ламы. 70B и даже 405В сосут у большого мистраля.
При этом ллама уже уперлась в потолок технологии, она настолько переобучена, что слетает и шизит от малейшего чиха.

Аноним 26/07/24 Птн 00:41:17 #266 №827886

1721943643428.jpg

А я люблю обмазываться не свежими локалками и дрочить. Каждый день я хожу по земле с черным мешком для мусора и собираю в него все файнтюны которые вижу. На два полных мешка целый день уходит. Зато, когда после тяжёлого дня я прихожу домой, запускаю кобольд, и вываливаю в него свое сокровище. И дрочу, представляя, что меня поглотил единый организм локалки. Мне вообще кажется, что локалки, умеют thinking, у них есть свои семьи, города, чувства, не смывайте их в лицехват, лучше приютите у себя, говорите с ними, ласкайте их…. А вчера на локалке, мне виделся чудный рп, как я нырнул в невысказанное обещание, и оно превратилось в гобелен, рыбы, водоросли, медузы, все из гобелена, даже небо, даже Шлема!

Аноним 26/07/24 Птн 00:43:25 #267 №827889

>>827794
Лучше он или Немо? Немо по ощущениям вообще атас

Аноним 26/07/24 Птн 00:44:17 #268 №827891

>>827882
Официально не нужны подобные посты. Русский как главный критерий, сравнивает модели разного размера, приводит в пример размер, который здесь запустить смогут единицы, а реально использовать - 3.5 человека.
> уперлась в потолок технологии, она настолько переобучена, что слетает и шизит от малейшего чиха
Первое сомнительно, каждый раз как в первый, второе - скиллишью.
>>827886
> умеют thinking
Неистово капитулировал

Аноним 26/07/24 Птн 00:49:32 #269 №827897

>>827891
Что топ для ЕРП сейчас, бро?

Аноним 26/07/24 Птн 00:53:14 #270 №827899

>>827891
В чате спросили - анон (не я) ответил. По сути тезисов претензии есть? Русский язык вместо переводчика это хорошо, пусть даже в реальности и придётся переводчик использовать (из-за токенизатора, лучшего качества ответа и пр). Теперь русский язык действительно есть, а не как раньше. И размер позволяет анону хотя бы мечтать о запуске модели на своём железе, в то время как большая Ллама в этом плане полная безнадёга. И вообще-то к Лламе нет претензий, просто она устарела да и всё. Просто очень быстро - так вышло.

Аноним 26/07/24 Птн 00:56:18 #271 №827900

>>827891
>сравнивает модели разного размера

Это у немо-то и у л3.1 8В разный размер?

>сравнивает модели разного размера,

Анон спросил про Л3.1 в целом, это 8В, 70В и 405В, я дал ему краткую сводку по всем трем.

>Русский как главный критерий

У любого русскоязычного человека это будет важным критерием, даже если у него advanced английский, как у меня. Учитывая что русский сейчас ущемляемый язык второго сорта в мире - то если сетка крутит всех на хуе даже на русском, то на английском там вообще идеально всё.

>Официально не нужны подобные посты.

Не нужны посты вахтеров-нытиков типа тебя.

Аноним 26/07/24 Птн 01:10:35 #272 №827905

>>827899
> По сути тезисов претензии есть?
Ну да. Норм русский с точки зрения написания и минимума ошибок появился в 3.0 и айе, а потом развился в гемме. Деградацию перфоманса от использования русского так и не измеряли, а без нее это бессмысленно и утверждение
> Теперь русский язык действительно есть
лишь сам знаешь что.
> размер позволяет анону хотя бы мечтать о запуске модели на своём железе
Ну, 12б - царский подгон вообще это в любом случае ахуенно. Но его нет смысла сравнивать с лламой, он будет умнее 8б (но это не точно) и хуевее 70б.
> размер позволяет анону хотя бы мечтать о запуске модели на своём железе
120б? Ващет тема не новая, была еще осенью, также и с мику извращались. Коммандер 105 вон в наличии. Много кто их использует? Да бля, даже семидесятки мало катаются, а ты про это.
> большая Ллама
Мем уровня фалкона, нет смысла вводить ее в рассмотрение чтобы потом строить от этого аргументы.

Вот тебе по сути, это напрямую опровергает что
> просто она устарела да и всё
>>827900
> Это у немо-то и у л3.1 8В разный размер?
Да, в 1.5 раза. Их уместно с мелкой геммой только сравнивать.
> У любого русскоязычного человека это будет важным критерием
Не. Степень важности может варьироваться от человека к человеку, но если оно тупое как айа, или не смотря на возможность писать отвечает хуже чем в инглише, особенно на контексте - нахуй такое счастье. А почти все околоприкладные задачи, с которыми может столкнуться энтузиаст, будут на инглише.

> вахтеров-нытиков типа тебя
Я хуею вообще, 3.1 еще нихуя не пробовали и даже не разобрались с запуском без ошибок, как и мистраль, но уже все порешали и кого-то хоронят - норма. Указываешь на это - вахтер! Пойди проспись, что несешь.

Аноним 26/07/24 Птн 01:13:46 #273 №827912

>>827905
Так она же соевая. Глинты и тому подобная хуйня. Как на ЭТОМ ерпшить?

Аноним 26/07/24 Птн 01:17:15 #274 №827914

>>827905
>Указываешь на это - вахтер!

Конечно вахтер, как еще воспринимать посты с пассивно-агрессивными угрозами
>Официально не нужны подобные посты.

Аноним 26/07/24 Птн 01:22:14 #275 №827918

>>827912
Если тред почитать то буквально каждая модель ультрасоевая. Сам садишься смотреть - и тебе ебля, и ебля с канничкой, и всякие зверства с негрофемаци-меньшинствами и прочее, да еще в подробностях и с инициативой. Потому подобные заявления уже просто игнорю, это уже какой-то пост-мем. Пока ее не тестил, так что так, к тому же в треде были разные мнения.
Справедливости ради, на стоковой 3.0 и некоторых других рпшить тоже неоч, достаточно дождаться более менее приличных файнтюнов.
>>827914
> посты с пассивно-агрессивными угрозами
Это не угроза а передразнивания оригинального поста
> с пассивно-агрессивными угрозами
По твоей логике выходит что попускаю вахтера, совсем запутался?

Аноним 26/07/24 Птн 01:28:42 #276 №827921

>>827918
>Это не угроза а передразнивания оригинального поста

В котором не было наезда на кого-либо.

>По твоей логике выходит что попускаю вахтера

Пока что ты опускаешь только себя своим поведением.

Аноним 26/07/24 Птн 01:40:24 #277 №827927

>>827921
> В котором не было наезда на кого-либо.
Ааа, значит нести ерунду, делать громкие постулаты и мислидить других - хорошо и богоугодно, а обличать это - не не, оскорбляешь чувства!
Ебнулся чтоли, что с таким подходом забыл на аиб в душном техническом разделе вообще?

Аноним 26/07/24 Птн 01:43:39 #278 №827928

>>827918
>Если тред почитать то буквально каждая модель ультрасоевая.
Датасеты вычищены - клубничка вроде и есть, но не сладкая. Обидно.

Аноним 26/07/24 Птн 03:15:28 #279 №827979

>>827927
>оскорбляешь чувства

Тамщето это только ты оскорбился что тебя вахтером назвали. Классическое "За що?"

Аноним 26/07/24 Птн 03:29:23 #280 №827984

>>827979
Бля чел, когда перестанешь воспринимать критику как нападение и не согласие с собой как обиду - не будешь так забавно себе же же противоречить.

Аноним 26/07/24 Птн 03:47:25 #281 №827989

>>827984

Я просто ответил на оскорбление оскорблением и пошел бы дальше по своим делам, но ты обиделся и развонялся по этому поводу на весь тред, прекрати позориться уже, вахтер.

Аноним 26/07/24 Птн 04:32:50 #282 №828002

fassa.png

Мы просто путешествовали и пару раз держались за руки, а она себе что-то напридумывала. О какой, нафиг, любви она говорит? это вообще нормально для моделей?

Аноним 26/07/24 Птн 06:08:08 #283 №828012

Аноны, а куда делись gguf кванты обычной gemma-2-27b с huggingface? Я почему-то не могу найти ничего кроме файнтюнов и IT версии геммы.
Гуглопидоры позакрывали репы с квантами обычной геммы?

Аноним 26/07/24 Птн 06:09:16 #284 №828014

>>828012
Ну, т.е. парочку квантов я вижу, но у таких титанов, как бартовски только it и файнтюны.

Аноним 26/07/24 Птн 06:27:16 #285 №828021

>12400+64гб+4060ти16гб
Аноны, подскажите пожалуйста ссылки на хаггинфейс, что скачать чтобы локально вкатиться? Там очень много версий одного и того же, пока не могу понять, что конкретно лучше. И оболочку какую лучше использовать?

Аноним 26/07/24 Птн 06:44:14 #286 №828027

Блять, почему немо так коротко пишет. После стапятидесяти токенов высирает еос и затыкается нахуй. Это норма или я че то сломал?

Аноним 26/07/24 Птн 06:48:08 #287 №828029

>>828027
Попробуй новый чат, у меня он начинал тупить когда контекст засран короткими сообщениями и русским.

Аноним 26/07/24 Птн 06:52:25 #288 №828030

Ну и на крайний случай укажи где-то сколько параграфов писать.

Аноним 26/07/24 Птн 07:14:08 #289 №828035

>>827233
Moistral-11B-v3
Fimbulvetr-Kuro-Lotus-10.7B
WestLake-10.7b
Average_Normie_v3.69_8B

Аноним 26/07/24 Птн 07:23:21 #290 №828039

Правильно понимаю, существуют несколько оригинальных моделей ллама, гемма, мистраль, разных уровней параметров, а остальное это васянские сборки?

Аноним 26/07/24 Птн 07:40:27 #291 №828042

>>828039
Из того, что ты перечислил, оригинальные только лама и гемма. Остальное - народное творчество разной степени убитости.

Аноним 26/07/24 Птн 07:51:40 #292 №828045

>>828042
мистраль не оригинальная?

Аноним 26/07/24 Птн 07:56:22 #293 №828046

Кстати объясните пж что такое flash attention и llm streaming (в настройках загрузки модели в убабуге). Как я понял, это какие то свистоперделки для контекста, но так и не смог найти понятной инфы

Аноним 26/07/24 Птн 07:57:38 #294 №828048

>>828045
LLaMa, Mistral, Gemma - это все базовые модели, созданные корпорациями

https://habr.com/ru/companies/bothub/news/830930/
https://habr.com/ru/news/764242/
https://www.opennet.ru/opennews/art.shtml?num=60642

На их основе тысячи энтузиастов лепят свои производные модели, в которых улучшают/оптимизируют какие-либо способности.

Аноним 26/07/24 Птн 08:06:14 #295 №828051

>>828046
>llm streaming
Поточный вывод - ответ модели выводится прямо в процессе его генерации. Без этого будет выводиться только когда ответ будет полностью сформирован (типа как сообщения в мессенджерах).

>flash attention
Если совсем кратко и без знания основ - механизм оптимизации производительности модели. Положительно влияет на скорость работы и потребление памяти (сокращает), практически не влияет на качество.
На русском языке годных статей про него пока не обнаруживается.

Аноним 26/07/24 Птн 08:09:11 #296 №828052

>>828045
> мистраль не оригинальная?
> Mistral is very similar to the LLAMA2 architecture. The main addition is the sliding window attention.
https://www.reddit.com/r/LocalLLaMA/comments/171ar0n/please_explain_how_was_mistral_made/
Вторая лама со спецэффектами. По-сути, до того, как слили первую ламу, ничего подобного и близко не было. Именно это стало поворотным моментом в истории LLM. Так или иначе, всё опенсорсно-локальное, что было сделано после марта 2023 - это производные ламы. Даже китайские ChatGLM это в какой-то мере лама, как минимум, на уровне некоторых решений оттуда.

Аноним 26/07/24 Птн 08:10:05 #297 №828053

>>828039
Ещё claude.

Аноним 26/07/24 Птн 08:11:29 #298 №828054

>>828053
У нас тред называется ЛОКАЛЬНЫЕ языковые модели.

Аноним 26/07/24 Птн 08:14:15 #299 №828055

>>828051
>Поточный вывод - ответ модели выводится прямо в процессе его генерации. Без этого будет выводиться только когда ответ будет полностью сформирован (типа как сообщения в мессенджерах).

Это то я знаю, но спрашивал про другой стриминг. Там прям под флеш аттеншеном опция.

Аноним 26/07/24 Птн 08:16:42 #300 №828057

Попробовал Немо, для 12Б хреновины что каким-то чудом вертится на моем железе - охуенно. Сфену переплюнуло начисто.

пошли файнтюны Mistral Nemo Аноним 26/07/24 Птн 08:18:14 #301 №828058

https://huggingface.co/cognitivecomputations/dolphin-2.9.3-mistral-nemo-12b-gguf
расцензуренный

Аноним 26/07/24 Птн 08:19:04 #302 №828059

>>828057
сколько врама? вчера попытался завести немо
в эксле, но че то не влезло 5 bpw и я вернулся на сфену

Аноним 26/07/24 Птн 08:19:28 #303 №828060

>>828058
Он и так едва цензурный. Жаль что русский много хуже геммы.

Аноним 26/07/24 Птн 08:34:31 #304 №828064

Ещё заметил что на большом контексте немо начинает бредить, причём короткими сообщениями. НО только при включенном flash attention. 8bpw exl2. Проблема и на Exllama и на hf. Знает кто в чём дело?

Аноним 26/07/24 Птн 08:42:46 #305 №828066

Кто какую модель для вката хлебушку посоветует?

Аноним 26/07/24 Птн 08:47:36 #306 №828068

>>827122
Так какой формат юзать в SillyTavern? <s>promt</s> или [INST] promt [INST]? Че там по семплерам? Стандартный минР с чутка поднятым RepPen?

Аноним 26/07/24 Птн 08:51:22 #307 №828069

>>828066
Всё зависит от VRAM. Для начала тюны тройки 8B это база. Stheno или Lunaris (если можешь в английский). Да и в шапке есть список всех ходовых моделей.

Аноним 26/07/24 Птн 08:54:27 #308 №828073

>>828059
12, но я полный контекст и не ставил

Аноним 26/07/24 Птн 08:57:25 #309 №828075

>>828060
Гемму не тыкал, но русский у Немо, кмк, лучше гопоты, прости господи. Ну или проблема навыка...

Аноним 26/07/24 Птн 09:02:42 #310 №828078

>>828021
Чел...
https://rentry.co/llm-models

>И оболочку какую лучше использовать?
Всё это есть в шапке "Гайд для ретардов": Можешь начать с кобольда, как самой простой платформы, потом накатить поверх таверну, лучший фронтенд, а когда освоишься, можно переходить на угабогу с эксламой.

Аноним 26/07/24 Птн 09:06:01 #311 №828081

а угабуга все еще всю историю по 5 минут в память закидывает для генерации свайпа за 30 сек?

Аноним 26/07/24 Птн 09:07:07 #312 №828083

>>828081
да, но цпп вроде так же делает?

Аноним 26/07/24 Птн 09:09:01 #313 №828084

>>827740
>>827745
Но вопрос контекста все еще остается, ибо в отличии от диффузных картиносетей нам требуется поддерживать крупный длительный диалог, а не довольствоваться одним результатом работы
Либо нужна нереально мощная сетка, способная пережимать нереальное число смыслов в одном ответе, сводя каждую мысль до крайне малого объема...
Упс, мы изобрели токены

Аноним 26/07/24 Птн 09:10:58 #314 №828085

>>828083
эээ у меня вроде нет
по консоли видно что на свайпе он сразу занимается генерацией и по нагруке проца видно
а бугабуга с видяхой мин 5 тупо простаивают а потом работают пол мин

Аноним 26/07/24 Птн 09:12:32 #315 №828086

>>828085
у меня он пару минут жует контекст, а потом уже генерит... уба прост молча это делает

Аноним 26/07/24 Птн 09:14:05 #316 №828087

image.png

Господа уважаемые, эти галки:
1. Сильно корежат аутпут по качеству?
2. Как вообще взаимодействуют с уже квантованной моделью?

Аноним 26/07/24 Птн 09:15:39 #317 №828088

>>828086
это странно . мы точно про обычный свайпп говорим?

Аноним 26/07/24 Птн 09:20:20 #318 №828090

>>828088
так, падажжи, на свайпах оно не должно заново его подтягивать, ни уба, ни цпп

Аноним 26/07/24 Птн 09:27:26 #319 №828094

00041-184965949.png

Слушайте, а если ли локальные LLM, которые еще могут генерировать картинки? koboldcpp поддерживает такую функцию?
Хотя бы в разрешении 256х256 бы, потому что, как я понимаю, мощности ПК не хватит чтобы и то и то одновременно крутить.

Аноним 26/07/24 Птн 09:30:19 #320 №828096

>>828090
а вот уба на свайпах подтягивает в 99% случаев
исключения были давно и не помню с чем связаны
давно убу не юзал
но я уверен что так было иначе б я так не горел
1 хуй у цпп время ожидание хотяб динамично а не жестко к размеру модели\контекста привязано

Аноним 26/07/24 Птн 09:30:54 #321 №828097

Какая сетка самая маленькая, при этом может адекватно говорить на инглише? Phi - 3.8б, есть ли что-то еще меньше? Хочу понять минимум, ниже которого уже начинается коверкание слов.

Аноним 26/07/24 Птн 09:31:40 #322 №828099

>>828094
несовсем
ты можешь подкрутить генерацию пикч через сд посредством плагинов
но да видяха охуеет генерить текст и пикчи а озу содержать все это одновременно

Аноним 26/07/24 Птн 09:32:01 #323 №828100

>>827697
Не файнтюн. Тюны тупеют почти всегда.

>>828081
Да там хуй угадаешь, то закидывает, то нет. Но чаще да, чем нет. В любом случае, это проблемы ггуфокода, на других форматах этого нет.

Аноним 26/07/24 Птн 09:33:51 #324 №828101

>>828094
На работу простейшей SD 1.5 надо минимум 6 гб VRAM и гора ОЗУ сверху. Тебе надо 64 гб оперативки и вторую видеокарту.

Аноним 26/07/24 Птн 09:35:24 #325 №828103

>>828100
> на других форматах этого нет.
есть. яна губегубе наверно только ексламу юзал

Аноним 26/07/24 Птн 09:38:25 #326 №828105

>>828096
щас на убе свайпаю, сразу писать начинает, видимо починили

Аноним 26/07/24 Птн 09:48:06 #327 №828108

>>828058
незнаю из за модели или чо но сеть почти перестала писать прямой текст а начала нести размытую чеппуху типо- жили были

Аноним 26/07/24 Птн 09:49:40 #328 №828110

>>828108
Попробуй загрузить с отключенным flash attention.

Аноним 26/07/24 Птн 09:50:37 #329 №828111

>>828110
это где это такая опция - не видел

Аноним 26/07/24 Птн 09:54:07 #330 №828113

>>828069
Спасибо, VRAM16, RAM64

8B же весьма туповатые модели как я понял или более менее осмысленный диалог могут вести?

>>828078
Спасибо, сайт ретрай не работает же.

Аноним 26/07/24 Птн 09:56:38 #331 №828117

>>828113
осмысленный вполне могут

Аноним 26/07/24 Птн 09:59:08 #332 №828119

>>828113
Могут, даже логика не мёртвая.
Но с 16 гб можешь ещё попердолиться с геммой 27B, 2-3 токена в секунду будет на 6 кванте.

Аноним 26/07/24 Птн 10:02:48 #333 №828121

>>828117
>>828119
Если могут, то збс, а какую гемма качнуть, есть на хагинфейсе google/gemma-2-27b-it и просто google/gemma-2-27b?

Аноним 26/07/24 Птн 10:04:18 #334 №828123

>>828121
ВПН подключи и открой рентри. Там все ссылки. Гемму качать ггуф.

Аноним 26/07/24 Птн 10:04:20 #335 №828124

Intel Core i5-12400F терпимо для inference LLM'ок?
В паре с GeForce RTX 3060 и 32 GB RAM. Мне бы 7B-8B модельки с хотя бы 16K контекстом запускать в Q8 за 20-40 ток/сек.

Аноним 26/07/24 Птн 10:05:44 #336 №828127

>>828124
16К контекста не потянешь. 8к и вероятно 6 квант, если не чуть ниже. Скорость примерно угадал.

Аноним 26/07/24 Птн 10:06:29 #337 №828128

Так по итогу кто тестил - для ЕРП лучшая это гемма или немо?

Аноним 26/07/24 Птн 10:07:32 #338 №828129

>>828127
8 квант, те же спеки кроме рам (16), тянет 16к. ЧЯДНТ? Помедленнее, конечно, но терпимо.

Аноним 26/07/24 Птн 10:08:00 #339 №828131

>>828128
Немо держит характер как минимум, а не скатывает все в псковщину.

Аноним 26/07/24 Птн 10:09:25 #340 №828132

>>828129
Я просто считаю что выгружать слои на 8B это мрак.

Аноним 26/07/24 Птн 10:10:06 #341 №828133

>>828127
Значит этот калькулятор так себе работает:
huggingface.co/spaces/NyxKrage/LLM-Model-VRAM-Calculator
Согласно нему 7B модель в Q8 с 16K контекстом занимает 10 GB VRAM
Еще вопрос, какие характеристики важны в CPU для inference? Кол-во ядер? Скорость RAM важна? Нужно брать минимум DDR5?

Аноним 26/07/24 Птн 10:10:10 #342 №828134

>>828131
А ты с каким пресетом и инстракт пресетом играешь? С каким конфигом? Я нашёл, что 0.3 температура самое то

Аноним 26/07/24 Птн 10:11:57 #343 №828136

>>828133
Скажем так, если ты хочешь крутить на проце, то ты уже теряешь процентов 80-90 скорости. Говорю как обладатель 12400F.

Аноним 26/07/24 Птн 10:13:01 #344 №828137

>>828132
Так, а для хлебушков? 8Б целиком влазит в 12гб врам спокойно же...

Аноним 26/07/24 Птн 10:14:01 #345 №828138

>>828131
бля псковшину тож не каждый могет без ошибок
>>828136
проц все равно бымтрее угабуги которая пол века каж раз перезагружает в врам то что там и так должно быть

Аноним 26/07/24 Птн 10:14:23 #346 №828139

>>828137
а контекст не забыл?

Аноним 26/07/24 Птн 10:17:08 #347 №828141

>>828136
Да, знаю. Поэтому хочу взять вместе с RTX 3060.
Думал выгружать все в VRAM.
Интересно, а если 12B модель как Nemo. Понятно с контекстом полностью не влезет, можно выгрузить только контекст? Или только слои самой нейронки.

Аноним 26/07/24 Птн 10:18:15 #348 №828144

>>828139
8К контекст занимает меньше 2 GB VRAM

Аноним 26/07/24 Птн 10:18:15 #349 №828145

>>828137
Ладно, проверил, признаю. Чёт не так запомнилось. 8Q 16k с cfg cache 12.5 Гб.

Аноним 26/07/24 Птн 10:25:05 #350 №828153

>>828134
Темпа 0.3, DRY пришлось выкрутить. В инструкт впихнул древнейший джейл слегка подправленный.

Аноним 26/07/24 Птн 10:26:34 #351 №828155

>>828145
Да щас и Немо ползает неплохо... но не целиком, конечно.

Аноним 26/07/24 Птн 10:26:45 #352 №828156

>>828153
Я сейчас посравнивал - чот гемма какие-то любит охуительные истории расписывать вместо рп. Немо рпшит как раз

Аноним 26/07/24 Птн 10:29:18 #353 №828157

Я не понял, ламы 3.1 мультимодальные что ли? В статье написано, что обучение было в том числе и на картинках и на OCR. В обнимордовском чате для ламы 405В есть возможность запрашивать генерацию или правку картинок.

Аноним 26/07/24 Птн 10:33:15 #354 №828161

Поясните тупому, плиз, если все эти нейронки могут генерировать код, то почему сами нейронки не переписать с богомерзкого Python на православные С, С++, Rust или Go? Ведь тогда и в 10 раз быстрее работать будет и в 100 раз меньше памяти жрать.
Почему так?

Аноним 26/07/24 Птн 10:33:52 #355 №828163

>>828156
Я гемму вообще не нюхал, я в локалках от силы дней 10 (не считая пигмы полтора года назад).

Аноним 26/07/24 Птн 10:35:18 #356 №828165

>>828161
Так сами нейронки и не на питоне, а на CUDA условном. Питон это удобная оболочка на которой натренировано много макак.

Аноним 26/07/24 Птн 10:36:43 #357 №828166

>>828161
Python используется ради удобства и доступных инструментов + сам язык проще. В области ML много не чистых программистов, а в Python порог входа ниже.

Аноним 26/07/24 Птн 10:44:06 #358 №828171

Кто мечтает о локалках
Очень смелый видно тот
Потому что только смелый
Себе лламу заведет
Потому что самых смелых
Раздражает гопота
Потому что у локалок
Всё зависит от кванта!
От-от-от кванта
От-от-от кванта

Аноним 26/07/24 Птн 10:47:10 #359 №828173

>>828113
>сайт ретрай не работает же.
https://github.com/anticensority/runet-censorship-bypass
как вы рунетом вообще пользуетесь лол?

Алсо, есть ещё колаб https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
где можно глянуть как работает угабога, а заодно запустить некоторые моделеи в принципе примерно те же, что и на твоём железе запустятся всё уже настроено.

Аноним 26/07/24 Птн 10:49:12 #360 №828175

Господа, а как с другом с этой хунтой общаться возможно? Или память как у рыбки и в течении нескольких дней все забудет.

Аноним 26/07/24 Птн 10:51:08 #361 №828179

>>828141
Ты был прав, 8B 8q 16k у тебя поместятся без пробелем. Но вот немо даже с 8192 контекста 13гб, будет замедление. Касательно проца и памяти, если ты не выгружаешь на них слои то они практически не играют роли.

Аноним 26/07/24 Птн 10:51:18 #362 №828180

https://www.nature.com/articles/s41586-024-07566-y

Ещё одна бумага на очевидную, но очень важную тему. Нейронки, обученные на нейроконтенте - тупеют. Особенно тупеют они при генерации данных рекурсивно одной сетью для её же обучения. Но то же верно и для экспертного обучения, когда эксперт генерирует данные для обучения нейросети. При этом наблюдается сразу несколько эффектов. Первый - обучаемая модель полностью забывает токены с низкой вероятностью возникновения. Второй - модель всё сильнее заражается более вероятными токенами. И третий, накопление ошибки - ошибочные токены получают всё более высокую вероятность и возникают всё чаще. И даже больше
>Later generations start producing samples that would never be produced by the original model, that is, they start misperceiving reality based on errors introduced by their ancestors.

Отравление данных и катастрофическое забывание являются близкими понятиями, но не объясняют полностью ситуацию.

Ну и в конце пишут, что не всё так плохо, модель может обучиться задачам даже на синтетических датасетах, просто будут крайне тупые за пределами этих задач, галлюцинировать и т.д. А так как весь интернет уже завален нейроконтентом, надо что-то думать дальше.

>>828175
Не дней. У тебя есть контекст - 4, 8, 10к токенов. Всё, что за его пределами - модель не запомнит.

Аноним 26/07/24 Птн 10:51:25 #363 №828181

>>828175
Первая картинка в оп посте как раз об этом.

Аноним 26/07/24 Птн 10:54:09 #364 №828183

>>828175

1. Увеличивай контекст, пока хватит видеопамяти, когда найдешь свой потолок для конкретной модели - включи 4 бит кэширование контекста, это уменьшит его размер в памяти почти в 4 раза, что позволит увеличить контекст в 3-4 раза.
2. Используй суммаризаторы старых сообщений.

Аноним 26/07/24 Птн 10:55:53 #365 №828186

>>828183
мимо
Это разве качество выдачи не сожрет? А если уже квант меньше 8?

Аноним 26/07/24 Птн 10:56:59 #366 №828188

>>828180
>У тебя есть контекст - 4, 8, 10к токенов.
У новой Лламы 3.1 и Мистраля Немо 128к контекста - лучшие друзья анона!

Аноним 26/07/24 Птн 10:57:57 #367 №828191

>>828188
Ты этот контекст куда выгружать будешь? На дедов хдд?

Аноним 26/07/24 Птн 10:58:36 #368 №828195

>>828179
> Но вот немо даже с 8192 контекста 13гб, будет замедление
как сильно замедляется?
если выгрузить 20-30% слоев на проц, можно рассчитывать хотя бы на 10 ток/сек
> они практически не играют роли
прекрасно

Аноним 26/07/24 Птн 11:01:25 #369 №828198

>>828175
Почитай про RAG. Вроде как есть решения с RAG для увеличения памяти у чатботов, а не только для добавление новых знаний.
Я сам не пробовал, но было бы интересно посмотреть.
Простых решений из коробки с UI не нашел.
Можешь еще посмотреть проект MemGPT, у них и свой UI есть, но там другой подход и не уверен, что есть маленькие локальные модельки, которые смогут работать с ним.

Аноним 26/07/24 Птн 11:01:36 #370 №828199

>>828195
Ну вот сам и проверишь, но другой анон сказал терпимо.

Аноним 26/07/24 Птн 11:03:14 #371 №828201

>>828199
> но другой анон сказал терпимо
некоторым анонам и 1 ток/сек норм
без понятия как у них терпения хватает))

Аноним 26/07/24 Птн 11:06:02 #372 №828205

>>828087

8 бит не корежит вообще, зато увеличивают размер возможного контекста в 2 раза за счет уменьшения его размера в 2 раза. 4 бит в теории уменьшает в 4 раза, но его вроде как надо тестировать на каждой модели индивидуально, может и ломать.

Аноним 26/07/24 Птн 11:06:54 #373 №828206

>>828201
Проблема скорее в том что оно минут 10-20 будет контекст переваривать, и только потом писать начнет. При первой вгрузке чата, по крайней мере

Аноним 26/07/24 Птн 11:07:27 #374 №828207

>>828191
В одну Теслу полностью влазит Мистраль немо в 8 кванте и 48к контекста, что уже неплохо. Если есть вторая, то думаю и полный контекст можно загрузить, либо в ОЗУ.

Аноним 26/07/24 Птн 11:09:56 #375 №828209

>>828207
Ну вот щас в 3060х12 вгрузил все 128к, но под 4битным кэшем. Старые чаты на 60-80к токенов оно вечность читать будет...

Аноним 26/07/24 Птн 11:13:01 #376 №828211

>>828186

Может и сожрать, но у меня все было норм, когда я тестил на 4 бит коммандире, которым без этого вообще нельзя пользоваться, потому что у него контекст слишком тяжелый в отличие от остальных моделей.
>А если уже квант меньше 8?

Одно с другим не коррелирует, квант модели режет точность её ответов, квант кэша - точность хранимого контекста.

Аноним 26/07/24 Птн 11:13:14 #377 №828213

>>828209
>>828206
27к контекста щас читало 5 минут ровно, потом начало писать. Ну может и терпимо...

Аноним 26/07/24 Птн 11:14:01 #378 №828214

>>828211
Стооооооооооооооооп. Так вот ты какой, дутый контекст корпосеток...

Аноним 26/07/24 Птн 11:18:16 #379 №828217

>>828180
>Нейронки, обученные на нейроконтенте - тупеют. Особенно тупеют они при генерации данных рекурсивно одной сетью для её же обучения.

Яка сумна новина, кто бы мог подумать что так произойдет. А ведь я еще когда все началось писал в треды что нас ждут темные века нейрокалтента, обученного на нейрокалтенте, обученного на нейрокалтенте и скоро будем старый человеческий контент выискивать с лупой и хранить в подземных бункерах, как остатки произведений античности прятали в средневековье.

Аноним 26/07/24 Птн 11:19:01 #380 №828221

>>828213
полтора токена в секунду, не пойдет... если рам с 16 до 32 бахну, ускорится?

Аноним 26/07/24 Птн 11:19:38 #381 №828222

>>828217
Звучишь знакомо... я тебя часом в чаитреде не видел?

Аноним 26/07/24 Птн 11:20:19 #382 №828225

>>828209
Сейчас проверил на старом чате 32к контекста, грузило 3 минуты. Видимо на тесле условно уходит минута на 10к, тогда 12к будет 13 минут грузиться. Да, тут уж лучше сумморайзом пользоваться.

Аноним 26/07/24 Птн 11:22:18 #383 №828228

>>828225
И смысл тогда контекст раздувать, если тормоза растут по экспоненте? 32к хватит всем

Аноним 26/07/24 Птн 11:25:40 #384 №828232

>>828225
>>828228

Тесла не видеокарта, уже запруфано что она именно на контексте и подыхает, как в том эпичном фейле с 1 т/с

Аноним 26/07/24 Птн 11:27:24 #385 №828233

>>828213

У тебя переполнения памяти точно нет? Просто там нвидиа включает говномеханизм замедляющий все в десятки раз, рекомендую его отключить нахуй в контрольной панели, чтобы он просто выдавал ошибку вместо этой хуйни.

Аноним 26/07/24 Птн 11:27:59 #386 №828234

>>828183
>включи 4 бит кэширование контекста
Как в лламе.цпп это сделать?

Аноним 26/07/24 Птн 11:29:41 #387 №828236

>>828232
>Тесла не видеокарта
Кто выпустил шиза?

Аноним 26/07/24 Птн 11:32:34 #388 №828237

>>828217
Как же всякие модели вроде Phi, обученные на синтетических данных?
В них используется подход, описанный в этой работе:
arxiv.org/abs/2306.11644
Если совсем кратко, они генерили на GPT-4 датасеты в виде "учебников" на основе которых уже обучали свою нейронку. Правда в последнем Phi в обучении использовали дофига и не синтетических данных.

Аноним 26/07/24 Птн 11:36:18 #389 №828240

>>828236

Теслаеб, спок. Видеокарта это когда ты exl2 модели крутишь, а не жоровысеры.

Аноним 26/07/24 Птн 11:37:39 #390 №828243

>>828237

Ну так эта фи - говно, лол. Умеет отыгрывать ровно одно - личность ассестента гопоты.

Аноним 26/07/24 Птн 11:38:32 #391 №828244

>>828234

Не знаю, сделай поиск по жориной репе.

Аноним 26/07/24 Птн 11:40:48 #392 №828246

>>828240
>Видеокарта это когда ты exl2 модели крутишь, а не жоровысеры.
Да, но только если это 3090-4090, иначе ты говноед хуже теслоёба.

Аноним 26/07/24 Птн 11:42:34 #393 №828247

пиздец
7б -16К Q8 на 4 сообщении лупится начала

Аноним 26/07/24 Птн 11:43:30 #394 №828248

>>828233
Так, а как называется опция?

Аноним 26/07/24 Птн 11:45:52 #395 №828249

>>828233
погоди, я нашел только одну хрень похожую на тобой описанное, но она же и позволяет выгружаться в оперативку
я ж тогда Немо вообще не запущу

Аноним 26/07/24 Птн 11:49:33 #396 №828251

>>828249
Мимо
Запустишь, тебе нужно выгрузить слои на cpu. Ты этот ползунок не трогал как я понимаю, он пытается всё вгрузить в vram и переполняет. Ну короче пробуй, может и будет быстрее. Но после перезагрузки модели один фиг ждать пересчёт контекста, помни это.

Аноним 26/07/24 Птн 11:52:27 #397 №828253

>>828251
я хз как выгрузкой в убабуге рулить, если честно
жорацпп попонятнее был в этом плане, но там Немо вообще не пашет

Аноним 26/07/24 Птн 12:22:18 #398 №828277

а лама может лупится от руского вместо енглиша?

Аноним 26/07/24 Птн 13:14:20 #399 №828298

Какая модель из локально разворачиваемых на текущий момент лучшая в кодинге? Будет ли выпущена какая-нибудь codellama31?

Аноним 26/07/24 Птн 14:37:09 #400 №828369

>>828097
Тоже интересовался "разумностью" мелких сеток, кое как работают, но нужно делать их промпт формат если хочется получить идеальный ответ, на который они и тренены

Например даже это работает и отвечает/пытается Lite-Mistral-150M-v2-Instruct , самая мелкая из тех что я щупал и она даже что то пыталась отвечать в контексте заданного
Есть еще qwen2-0_5b-instruct ну и qwen2-1_5b-instruct, эти уже получше
Дальше только phi3.1 и она уже удивительно хороша для своего размера

Все эти сетки есть в ггуф и запускается нормально, ну и квант качать самый жирный из тех что тебя устроит.
Тут мелочится не стоит, 8 минимум

Аноним 26/07/24 Птн 14:42:46 #401 №828376

>>827989
Не хотел тебя именно оскорблять, просто передразнил для более явного указания на ложность утверждения. Токсичная среда, извини уж, но и тебе стоит менее радикально писать.
> прекрати позориться уже, вахтер
А, пожар из-за несогласия и повторение без аргументации. Правильно все значит, надо было сильнее гнобить.
>>828039
> несколько оригинальных моделей
Несколько базовых моделей, верно. Еще китайцы и другие модели что не перечислены. Их файнтюны могут быть как хорошими, так и полной херью, в последнее время больше второго.
>>828042
Мистраль, qwen, yi и прочие народным творчеством не назвать. У первого 7б с нюансами и явно не с шума тренирован, но кому это интересно сейчас.
>>828064
Версии всего последние? У геммы была проблема совместимости, после патчей fa заводится, возможно здесь то же самое.

Аноним 26/07/24 Птн 14:49:24 #402 №828386

>>828084
> Но вопрос контекста все еще остается
В теории, склеивать "смысловые чанки" можно сколько угодно и потом пачкой подавать. Вот только если просто так то будем проебывать их очередность, что множит на ноль все. Нужно как-то этот момент обыграть, например делать дополнительный вход на который будет поступать мега-йоба-смысловой суммарайз всего крупными мазками.
> Упс, мы изобрели токены
Ну типа просто банально двойной-тройной запрос текущей, уже имеющейся модели сделать и получить должный эффект и постепенного раскрытия, и переработки и улучшения, и прочего - легко. Этот метод развить с использованием разных сеток для разных проходов, операции с логитсами добавить, мое - проще и перспективнее.

Аноним 26/07/24 Птн 14:50:05 #403 №828388

>>828249

Нет, выгружать слои в оперативку она не запрещает, она запрещает автоматически сливать то что должно быть на видеокарте в оперативку. Это разные вещи.

Аноним 26/07/24 Птн 14:56:00 #404 №828393

>>828039

Оригинальные:

Лама, мистраль/микстраль/мику, гемма, коммандир, квен, уи, фи, ругпт.

Остальные - файнтьюны.

Аноним 26/07/24 Птн 15:01:41 #405 №828407

>>828246

Как владелец 4090 - не соглашусь.
Если покупал говновидяху только ради ллм - то да, долбоеб. Если просто вкатился с имеющейся ртх видяхоц - то норм, стремящийся.

Аноним 26/07/24 Птн 15:04:04 #406 №828411

Мистраль small и large выпустили, ок. Первфй охуенный, но слишком мелкий, второй охуенный, но слишком большой.
Где обновленная Medium/Мику, блядь?

Аноним 26/07/24 Птн 15:35:34 #407 №828434

8o32.png

Внезапно немо выгятивает из карты 100% TDP на 32к контекста, если висит полностью в VRAM. Оказывается важна не только память.

Аноним 26/07/24 Птн 15:41:36 #408 №828439

>>828411
Ненужна, сидим на 123В. В этом году наверное ничего лучше уже не будет, если даже Ламу 405В разъебали.

Аноним 26/07/24 Птн 16:08:06 #409 №828470

>>828161
> Ведь тогда и в 10 раз быстрее работать будет
Не будет, особенно если кодить как сейчас макаки делают и за ними копируют нейронки.
Вот провести ими анализ кода и заняться оптимизацией - можно. Но там все равно хватит и ручного труда и это мало кому надо.
>>828180
Не ново, но тут вроде как оценили что хорошо.
> Отравление данных и катастрофическое забывание являются близкими понятиями
Вообще не близкими, хотя наблюдаемые последствия могут быть схожими.
>>828188
Кто-нибудь тестировал, могут ли они их реально обрабатывать и понимать, или как 32к в первом мистрале?

Аноним 26/07/24 Птн 16:10:07 #410 №828472

>>828277
бамп

Аноним 26/07/24 Птн 16:11:54 #411 №828473

>>828240
Во, вот этого отчасти двачую, даже на амперах-адах стоит окунуться в жорадействительность, привыкши с работе экслламы - ахуеваешь.
Но зря ты так жестко, словишь хейта за неудобную тему, тут бы хоть как-то запускать мирясь с проблемами.
>>828407
> Если покупал говновидяху второй только ради ллм
То вроде уже не так уж и плохо, по крайней мере сможешь катать остальные сетки на основной карте.
>>828277
Может, часто причиной лупа и затупов является полнейшее непонимание модели происходящего, вот она и пытается повторять прошлое выхватив только эту закономерность.

Аноним 26/07/24 Птн 16:31:08 #412 №828480

>>828439

Говори за себя. Тебе не нужна, мне нужна. Мику я мог в 5 битах запустить, эту хуйню в 3 бит только.

Аноним 26/07/24 Птн 16:34:23 #413 №828482

>>828434

Прикинь, да, тесла потому и дерьмо и затычка вместо видеокарты, что все реально не только от размера памяти зависит.

Аноним 26/07/24 Птн 17:00:29 #414 №828509

Чот теперь мой топ для ЕРП это Немо. Вайбы турбы марта 2023 года прям. Нормас

Аноним 26/07/24 Птн 17:24:26 #415 №828527

>>828100
> Не файнтюн.
https://huggingface.co/mradermacher/gemma-2-27b-it-i1-GGUF
Эта?

Аноним 26/07/24 Птн 17:29:19 #416 №828531

>>828509

Запости пару скринов что-ли

Аноним 26/07/24 Птн 17:34:14 #417 №828533

>>828509
два чаю

Аноним 26/07/24 Птн 17:34:16 #418 №828535

>>828161
>и в 100 раз меньше памяти жрать
Схуяли? По памяти как раз никаких подвижек не будет без перетренировки моделей с нуля.
>>828180
>Ещё одна бумага на очевидную, но очень важную тему.
Даже читать не вижу смысла, всё и так очевидно.
>>828180
>А так как весь интернет уже завален нейроконтентом, надо что-то думать дальше
ОпенАи со своим контентом, сграбленным до 2021 года, так и останется в топах, лол.
А вообще, очевидная фильтрация очевидна.
>>828298
>Какая модель из локально разворачиваемых на текущий момент лучшая в кодинге?
Мистраль ларге, которая на 123B.
>>828386
>то будем проебывать их очередность
Как и в токенах же. Их множат на позиционную матрицу, лол.
>>828411
>Где обновленная Medium/Мику, блядь?
А это общая болезнь, выпадение средних размеров.
>>828439
>В этом году наверное ничего лучше уже не будет
Полгода вперде, алё.
>>828480
>эту хуйню в 3 бит только
А минусы будут?

Аноним 26/07/24 Птн 17:37:13 #419 №828540

изображение.png

Верим Арене?

Аноним 26/07/24 Птн 17:49:18 #420 №828562

>>825975
Да, вчера вышел 1.71 с поддержкой Немо.

Аноним 26/07/24 Птн 18:09:43 #421 №828574

>>828540
Если вся твоя интеракция с моделью заканчивается парой сообщений то да

Аноним 26/07/24 Птн 18:34:17 #422 №828604

>>828540
Орена как-то оскуфилась сейчас совсем. Может её нейронки и накручивают теперь, лол.

Аноним 26/07/24 Птн 18:36:10 #423 №828608

>>828535
> А минусы будут?
Скорее всего нет, если судить по тому какие вероятности на выхлопе. Там в 99% не более 2-3 токенов, 3% потерь PPL от квантов тут роли не сыграет.

Аноним 26/07/24 Птн 18:45:01 #424 №828622

>>828604
>оскуфилась
Эм, как так вышло, что благородное звание Скуфа используется в негативном ключе?
Мимо Скуф

Аноним 26/07/24 Птн 18:46:46 #425 №828632

>>828622
>Мимо Скуф
Карточку альтушки гоняешь?

Аноним 26/07/24 Птн 18:52:09 #426 №828648

>>828632
Карточка не нужна, мне на госуслугах выдали. Гоняю карточку мачо для неё.

Аноним 26/07/24 Птн 19:12:59 #427 №828667

>>828058
Кобольд не тащит?

Аноним 26/07/24 Птн 19:29:36 #428 №828682

ВНИМАНИЕ, ПАЛЮ ГОДНОТУ!
https://huggingface.co/mradermacher/mini-magnum-12b-v1.1-GGUF
https://huggingface.co/Quant-Cartel/mini-magnum-12b-v1.1-exl2-longcal
в список уже добавил

Аноним 26/07/24 Птн 19:36:47 #429 №828692

>>828682
Скрины на бочку или не годнота

Аноним 26/07/24 Птн 19:45:35 #430 №828702

>>828094
Все прекрасно стартует прямо на cpu в eva:
https://github.com/ylsdamxssjxxdd/eva/releases/tag/b3465
Модель v2-1_768-nonema-pruned-f32.gguf вот она тут:
https://huggingface.co/second-state/stable-diffusion-2-1-GGUF
Осталось разобраться как вызвать из основной модели.
Процессор 10100 i3 RAM 16Gb, 512 px - 6 минут, 768 - 25 минут.
1024 px - генерит 50 минут, загрузка процессора 70-73%.

Аноним 26/07/24 Птн 19:52:26 #431 №828712

sdoutput-01-29-43.png

sdoutput-02-40-34.png

>>828702
Вот самые забавные.

Аноним 26/07/24 Птн 19:55:09 #432 №828718

image.png

>>828682
Бля, а забавно

Аноним 26/07/24 Птн 19:56:36 #433 №828719

изображение.png

>>828702
Китаец что ли?

Аноним 26/07/24 Птн 19:58:40 #434 №828724

>>828719
Ты как бы можешь добавить русский,
коммить там в проект, ссылка на него
стоит у Жоры на стартовой странице.

Аноним 26/07/24 Птн 20:09:50 #435 №828732

>>828724
Английский хотя бы включи, нах мне твой русег.

Аноним 26/07/24 Птн 20:19:10 #436 №828737

>>828732
Потыкай сам, это скрины с прошлой версии,
выше дал ссылку на новую, её только ставлю.

Вот мой MMLU топ на мелкие модели:

Hathor_Respawn-L3-8B-v0.8-Q8_0.gguf
test over 1408 question accurate 64.4%

Very_Berry_Qwen2_7B.Q8_0.gguf
test over 1408 question accurate 65.8%

Phi-3-mini-4k-instruct-fp16.gguf
test over 1408 question accurate 67.9%

Самая нецензурированная за 14 дней (сломана):
teamistral-7b_test-q8_0.gguf - MMLU не проходит.

Аноним 26/07/24 Птн 20:28:16 #437 №828755

>>828682
Спасибо, Анон! Пока что она в русский может даже лучше оригинальной модели и в целом более живая.

Аноним 26/07/24 Птн 20:43:27 #438 №828770

>>828755
И с мурмурами...

Аноним 26/07/24 Птн 20:56:16 #439 №828783

>>828737
А на 20B+ какой топ? Для ЕРП, не для умных вопросов.

Аноним 26/07/24 Птн 21:02:47 #440 №828794

>>828783
У меня такие не лезут в память,
да и если бы лезли проц медленно
считает резуальтат, вот тут есть рейтинги:
https://llm.extractum.io/list/?24GB -на 20b.

Аноним 26/07/24 Птн 21:30:15 #441 №828818

>>828667
В последнем 1.71 уже есть поддержка Mistral Nemo.

Аноним 26/07/24 Птн 21:41:34 #442 №828845

>>828818
А large?

Аноним 26/07/24 Птн 22:06:58 #443 №828862

>>828094
> если ли локальные LLM, которые еще могут генерировать картинки
Нет. Там сама парадигма процесса другая а не предсказание вероятности следующего токена, хотя что-то общее есть. Если перегонять пикчу даже уже в латентном пространстве после типичных энкодеров для диффугии в токены без потери информации - убервсратый шакал будет занимать примерно 8к токенов, что-то сносное - десятки тысяч. Можешь представить сколько это будет генерироваться даже в теории.
Диффузионные модели к твоим услугам, никто не мешает использовать их совместно с ллм, как для обработки параметров и промта, так и напрямую для создания кондишнов, которые напрямую пойдут на ее вход минуя энкодеры, хотя это больше в теории. Диффузия есть не только для пикч но и для аудио если что.
>>828101
Ее даже на старой малине запускали, по минимуму и 1030 хватит, требования к озу малы.
Но чтобы был крутой результат - да, желательна вторая карточка, или на время работы сгружать ллм в рам и подгружать диффузию, а после наоборот.
>>828702
По времени и результату это ужасно. Зачем?
Будет максимальный ор если вратость связана с запаковкой в жорин формат, такой-то мидас наоборот.

Аноним 26/07/24 Птн 22:19:29 #444 №828871

>>828845
llama.cpp поддерживает, значит и Kobold.cpp, у которого она под капотом, должен
https://github.com/ggerganov/llama.cpp/issues/8675

Аноним 26/07/24 Птн 22:22:38 #445 №828872

>>828871
>значит
Там 12 часов назад багу закрыли, значит, кобольда ещё не успел. Спасибо за инфу.

Аноним 26/07/24 Птн 22:47:51 #446 №828887

sdoutput-21-52-01.png

>>828862
Там была вкадка сд квант ембдидинг и виспер,
сд освоил получается кроме vae, теперь остальное.
Точнее vae нашел, но судя по размеру грузит другой
Про генерацию с куды не жди обзора с моих 2 гб vram,
вот 1 картинка которую делал на eva cuda, слишком греет.

Аноним 26/07/24 Птн 22:49:20 #447 №828889

>>828872
Не вносили никаких изменений же, оно работает и так.

Аноним 26/07/24 Птн 22:49:36 #448 №828890

>>828887
*вкладка - вызывается правой кнопкой мыши
при шелчеке по окну консоли, что ниже ввода.

Аноним 26/07/24 Птн 23:01:38 #449 №828900

mini-magnum-12b-v1.1.Q6K.webp

mini-magnum-12b-v1.1.Q6K-2.webp

>>828682
Она сломана как минимум q6
mini-magnum-12b-v1.1.Q6_K.gguf
валит MMLU буквально с 1 вопроса.

Аноним 26/07/24 Птн 23:29:40 #450 №828930

Объясните смысл кобольда. Хочешь просто в один клик - олама, хочешь настроек - чистый жора. Нахуй кобольд здесь?

Аноним 26/07/24 Птн 23:54:43 #451 №828974

>>828930
Лол, а кобольд типа не в один клик?

Аноним 27/07/24 Суб 00:00:57 #452 №828983

>>828974
Мозг у тебя в один клик бля, ты хоть понял что я написал?

Аноним 27/07/24 Суб 00:04:39 #453 №828990

>>828983
Я считаю, что кобольд нужен потому что кобольд тоже в один клик.

Аноним 27/07/24 Суб 00:07:02 #454 №828994

>>828887
>>828890
Чет ничего не понял. Что значит слишком греет? 2гб врам будет лучше чем пол часа на профессоре.
>>828930
> просто в один клик - олама
В отличии от нее кобольд позволяет иметь и сносный гуи, полноценные удобный настройки с функционалом, и заточен на работу с апи, а не просто сделать галочку "я запустил чатжпт у себя на пеке" в ачивки васянов.

Аноним 27/07/24 Суб 00:08:36 #455 №828997

>>828990
>>828994
Короче сформулирую по другому мой аргумент: кобольд слишком сложен для простого юзера, и в то же время слишком неудобен для прошаренного.

Аноним 27/07/24 Суб 00:10:36 #456 №829003

>>828997
Кобольд находится посередине. Кобольд это это удобно. Кобольд работает в один клик.

Аноним 27/07/24 Суб 00:20:10 #457 №829017

>>828997
Вроде наоборот, у кобольда максимально привычная последовательность: скачал бинарник@запустил. Да, там есть настройки, но они хотябы есть.
В случае с олламой для юзверя, не смотря на похожее начало, у нее и инсталлятор припезднутый, что требует закрывать другие приложения, и дальше имеешь припезднутую сонсолечку в которой заебешься разбираться. Настройки некоторые вроде как и есть, но менять их ужасно неудобно.

Аноним 27/07/24 Суб 00:21:10 #458 №829018

>>829003
>Кобольд находится посередине. Кобольд это это удобно. Кобольд работает в один клик.
Кобольд это жизнь?
Да нихуя не в один клик, после открытия гуи еще нужно искать пресет сохраненный, открывать его, и только потом ланч нажимаешь. В чистой жоре можно просто команду в батник сохранить и тогда будет тру один клик.

Аноним 27/07/24 Суб 00:23:37 #459 №829021

>>829003
Двачую. Kobold - самый оптимальный фронтенд к llama.cpp. Не слишком примитивный, не переусложнённый, достаточно легковесный в отличие от поделок на Electron. Кому не нужны различные тонкие настройки может их просто не трогать.

Аноним 27/07/24 Суб 00:27:33 #460 №829024

>>829018
> В чистой жоре можно просто команду в батник сохранить
Запусти уже koboldcpp.exe --help, увидишь, сколько там опций для автоматизации настроек.

Аноним 27/07/24 Суб 00:29:09 #461 №829028

>>829024
Конфиги со всеми детальным опциями подгружаются
https://github.com/LostRuins/koboldcpp/wiki#what-is---config-what-are-kcpps-files

Аноним 27/07/24 Суб 00:30:40 #462 №829031

>>829024
Блять, а о чем! Это же просто прямой доступ к ллама.срр. На кой хуй кобольд тут упёрся?

Аноним 27/07/24 Суб 00:43:43 #463 №829047

>>829018
Согласен, отсутствие сохранения пресетов удручает. Но это про неудобство, а не про сложность.

>>829021
Спасибо за поддержку, брат.

>>829031
Лама написана на плюсах. Кобольд написан на плюсах. Всё что написано на плюсах - это хорошо.

Аноним 27/07/24 Суб 00:46:37 #464 №829050

>>829047
> Кобольд написан на плюсах.
Does he know?
> Всё что написано на плюсах - это хорошо
> llamacpp
Второй повод для smirks

Аноним 27/07/24 Суб 00:47:10 #465 №829052

>>829047
> Кобольд написан на плюсах.
С каких пор питон стал плюсами?

Аноним 27/07/24 Суб 00:50:55 #466 №829058

>>829050
>>829052
Друзья, согласно статистике репозиториев 82 процента от кобольда и 57 от ламы написано на C++, на питоне в обоих случаях только 1.8 и 6.1 процентов соответственно

Аноним 27/07/24 Суб 01:02:11 #467 №829065

>>829058
Микрочел, кресты в кобольде - это llama.cpp. Весь код кобольда - строго питон.

Аноним 27/07/24 Суб 01:02:42 #468 №829067

Есть годные тюны на коммандира?

Аноним 27/07/24 Суб 01:07:16 #469 №829071

>>829065
Похоже что название сбило меня с толку. Мне не нравится питон, мне нравится только Си с плюсами, особенно когда их два.

Аноним 27/07/24 Суб 01:10:15 #470 №829073

>>828930

О, опять оллама-шиз вылез.

Аноним 27/07/24 Суб 01:12:41 #471 №829074

>>829073
Не, я наверное новый шиз. Я просто в рот я ебал вашу оламу с кобольдом, понаделали блять васянский надстроек под васянскими надстройками.

Аноним 27/07/24 Суб 01:46:20 #472 №829113

>>828994
Карта в блоке греется от награзки,
охлаждение плохое на карте, жалко.
А с процем такого нету, еле теплый.
Давай поясню на моей 1030 - 15 сек/т,
на проце 20 сек/т, но карта греется.

Аноним 27/07/24 Суб 01:49:08 #473 №829117

>>829113
Мне карта только для монитора,
мать в стоке не держит 4к через hdmi.
Поэтому жечь я её не буду ради 5 т/с.
Менять оборудования не буду, жду ddr6.

Аноним 27/07/24 Суб 01:52:12 #474 №829123

>>829113
Там 85+ градусов?
>>829117
> жду ddr6
Года 3-4 еще придется прождать, а то и больше.

Аноним 27/07/24 Суб 01:58:04 #475 №829127

1030-temp.webp

>>829123
А мне кажется до осени, когда новая линейка интел.
>Там 85+ градусов?
Идет за 70, я привык с спокойным 40-50, плюс этот звук.

Аноним 27/07/24 Суб 02:24:53 #476 №829150

>>829127
> А мне кажется до осени
Без шансов, с ддр5 еще долго сидеть. Амд вообще только одно поколение для них выпустило, можешь по прошлым и там и там проследить сколько их менялось до перехода на новую.
> Идет за 70
Пофиг вообще, там ломаться нечему.

Аноним 27/07/24 Суб 02:53:03 #477 №829163

>>829127
>А мне кажется до осени, когда новая линейка интел.
Новая линейка будет продаваться по оверпрайсу если она вообще выйдет, по этому в любом случае тебе будет выгоднее взять карту, даже пусть со вторички и с отклеивающимися чипами памяти.

Аноним 27/07/24 Суб 03:13:20 #478 №829166

Снимок экрана27-7-20243830cdn.cnetcontent.com.jpeg

Снимок экрана27-7-20243622cdn.cnetcontent.com.jpeg

У меня Dell Vostro 3888 там все в круг менять,
максимум тянет 10700F и 64 Gb на 2933 MHz.
По видеокарте все упирается в БП на 200 Вт.
В любом случае, спасибо за дельные советы.
Планирую оставаться на нем, до смены линейки.

Аноним 27/07/24 Суб 03:14:22 #479 №829167

>>829150
>>829163
> >>829166

Как бесплатно попробовать модели Llama 3.1: 5 способов Аноним 27/07/24 Суб 03:27:36 #480 №829171

Как бесплатно попробовать модели Llama 3.1: 5 способов
>Groq
>HuggingChat
>Fireworks AI
>Cloudflare Playground
>Ollama

https://vc.ru/services/1340076-kak-besplatno-poprobovat-modeli-llama-31-5-sposobov

Аноним 27/07/24 Суб 03:42:45 #481 №829176

image.png

>>829171
иди нахуй леха, еще расскажи как в чатгпт аккаунт зарегистрировать

Аноним 27/07/24 Суб 03:52:43 #482 №829177

>>829176
Я не Лёха. По-моему перечисленные способы норм для тех, кто хочет попробовать свежую Лламу сам, а железо не позволяет.

Аноним 27/07/24 Суб 04:07:28 #483 №829179

>>829177
Сходу могу назвать еще два и без геморроя. Ты часом не гейткиперок?

Аноним 27/07/24 Суб 04:09:38 #484 №829180

>>829179
> Сходу могу назвать еще два и без геморроя.
Так назови. К чему весь срач, что ты развёл?

Аноним 27/07/24 Суб 04:10:38 #485 №829181

>>829166
Разве этот встроенный бп нет вариантов поменять? Думаю у китаез с алиэкспресов могут найтись куча вариантов с большей ваттностью.

Аноним 27/07/24 Суб 04:16:53 #486 №829182

>>825177 (OP)
бамп

Аноним 27/07/24 Суб 04:24:04 #487 №829184

>>829180
>один псто
>срач
Вы тут реально такие непуганные, или мастера тонкого?
нвидия и опенроутер

Аноним 27/07/24 Суб 04:46:11 #488 №829197

eva-sd-b3465.webp

eva-sd-b3465-2.webp

>>829181
Можно подключать внешний блок через
синхронизатор и питать им карту, это да.
>>828732
Держи, в новой версии все на english.
Подключается к модели через настройки.
Пока до конца не понял как должно быть.

Аноним 27/07/24 Суб 04:54:17 #489 №829200

>>829171
>>829184
Что-нибудь из всего этого может показывать вероятности токенов?

Аноним 27/07/24 Суб 04:55:36 #490 №829202

>>828682
Пишет норм, иногда красиво. Но блять тупит часто, иногда повторяется дико, даже с выкрученной реп пеналти, чувствуется как будто сломана.

Аноним 27/07/24 Суб 06:17:13 #491 №829228

image.png

>>829177
Чел, колаб в шапке со всеми последними моделями, запускается в джва клика...

Аноним 27/07/24 Суб 08:09:06 #492 №829258

Meta-Llama-3.1-405B-Instruct-FP8 Decrypts AES-256-CBC Encrypted Data with Base64 Key and IV
https://www.reddit.com/r/LocalLLaMA/comments/1ed8d72/metallama31405binstructfp8_decrypts_aes256cbc/

Аноним 27/07/24 Суб 08:28:50 #493 №829264

Подключение LibreOffice к LLM через webui
https://www.reddit.com/r/LocalLLaMA/comments/1ed678o/libreoffice_writer_localinference_ai_extension/
репозиторий:
https://github.com/balisujohn/localwriter
Видео как работает:
https://www.youtube.com/watch?v=rassvcjpTA0

Аноним 27/07/24 Суб 08:32:03 #494 №829266

Снимок экрана27-7-202483024github.com.jpeg

>>829264

Аноним 27/07/24 Суб 08:33:01 #495 №829267

>>829266
Чел, у тебя ужасные шрифты. Как ты с этим вообше живёшь?

Аноним 27/07/24 Суб 08:38:27 #496 №829272

writer-readme.webp

>>829267
Ладно, вот покрупнее.

Аноним 27/07/24 Суб 08:44:13 #497 №829277

Пропробовал https://huggingface.co/gghfez/gemma-2-27b-rp-c2-GGUF в сжатии Q6k.
Модель просто совершенство, она на уровне средненьких L2 70B.
А это уже охуеть какая высокая оценка.

Аноним 27/07/24 Суб 08:48:33 #498 №829281

>>829277
12 врам не потянет?

Аноним 27/07/24 Суб 08:48:40 #499 №829282

>>829272
Блять, реально, ты на хр сидишь чтоли. Или это пиксель арт инди игра. Эстетичненько.

Аноним 27/07/24 Суб 08:49:52 #500 №829284

>>829277
>gghfez Owner
>You're right, this one's pretty broken. I've created a V2 here
Лол.

Аноним 27/07/24 Суб 08:52:58 #501 №829289

>>829284
Проорал с себя. А я не мог понять почему она иногда шизит вне зависимости от настроек.
Спасибо.

Аноним 27/07/24 Суб 09:03:34 #502 №829297

>>829282
По-моему даже в XP без ClearType шрифты лучше выглядели.

Аноним 27/07/24 Суб 09:23:13 #503 №829311

>>829264
Круто! Вот и реальные цели применения для ЛЛМ подъехали! не всё же в таверне писать

Аноним 27/07/24 Суб 09:38:45 #504 №829316

Похоже опять через консоль сидеть:
https://github.com/ggerganov/llama.cpp/releases/tag/b3468

Аноним 27/07/24 Суб 10:04:41 #505 №829330

image.png

>>829289
Ниче не понимаю, срет ошибками в консоль, но в память вгружается. ЧЯДНТ?

Аноним 27/07/24 Суб 10:11:56 #506 №829334

Аноны, а можно ли автоматизировать процесс, чтобы LLM сразу давала полный ответ, а не приходилась жать на генерэйт море?

Аноним 27/07/24 Суб 10:14:50 #507 №829336

>>829277
А чем отличается от https://huggingface.co/bartowski/gemma-2-27b-it-GGUF ?

Аноним 27/07/24 Суб 10:16:36 #508 №829339

Yoba (7).png

>>827082
Бля, чёт проиграл с истории про бедного Джонни. Тупо, но смешно. Черный петушиный хуй разбил американскую мечту

Аноним 27/07/24 Суб 10:19:20 #509 №829340

>>829334
Увеличь максимальную длину ответа (max output) для начала.

Аноним 27/07/24 Суб 10:24:47 #510 №829342

>>829340
Спасибо, стало лучше, а как понимать, что ответ пришёл не до конца, если нет многоточия и т.п.?

ПЕРЕКАТ Аноним OP 27/07/24 Суб 10:59:06 #511 №829355

ПЕРЕКАТ

>>829353 (OP)

ПЕРЕКАТ

>>829353 (OP)

Аноним 27/07/24 Суб 17:45:15 #512 №829811

>>829281
q2 потянет...

comments powered by Disqus