В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2. Недавно вышедшая Llama 3 в размере 70B по рейтингам LMSYS Chatbot Arena обгоняет многие старые снапшоты GPT-4 и Claude 3 Sonnet, уступая только последним версиям GPT-4, Claude 3 Opus и Gemini 1.5 Pro.
Про остальные семейства моделей читайте в вики.
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту: https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
>>773858 → Это мы качаем, правильный размерчик. На длинных взаимодействиях вытаскивает также как коммандир, или начинает тупить/куда-то гнать? >>773921 → Булджадь, постоянно путаю этих китайцев, благодарю. Да, прошлая yi была интересная хоть и шизоидная (или это мы ее неправильно юзали), новая должна быть хорошей. >>774025 → Тем не менее замедление есть, что странно. >>774432 → >>774455 → По-хорошему там не только табличку но и описание нужно.
>>774525 > На длинных взаимодействиях До 8к без проблем, дальше ропу не пробовал тянуть. Пробовал под конец спрашивать у бота чем мы занимались в прошлых 50 сообщениях - всё чётко рассказывает. Ну оно сильно лучше ванильной ламы. > как коммандир Не замечал за ним хорошего удержания контекста, трусы два раза он снимает только так. > замедление Если ты про т/с, то это же общее с обработкой промпта, а у меня authors note в глубину контекста вставляются и от роста контекста немного дольше считает. По факту в exl2 всё же есть потеря 1-2 т/с генерации с 8к контекста, не совсем бесплатно.
>>774547 > До 8к без проблем Это про другое. Вот считай у тебя там 3к на вступление или какой-то суммарайз, а дальше на весь контекст начался продолжительный кадлинг с чаром параллельно с беседой, повышая его интенсивность. На многих же моделях или уже после 3-го поста там лезет arousal и чар превращается в шлюху, или начинает куда-то убегать требуя странных действий, а то и вообще начинает задвигать треш про приключения и внезапно происходят кринжовые события, сопровождающиеся неестественностью. И это на вполне спокойной карточке, если там есть что-то про экшн или тем более левд описание - все. Особое бинго - все это но в сочетании с лупами. Коммандер с тобой и поговорит, и на обнимашки и взаимодействия отреагирует, и повышение/снижение приближенности к левду понимает и соответствующим образом меняет реакцию. Если ты ничего не делаешь - сам начинает плавно развивать, не нарушая атмосферы и не убегая вперед, проявляет уместную инициативу без дерейлов. > то это же общее с обработкой промпта Тогда все логично, да. Хз и 32к катал, с обработкой понятно первые токены не сразу побегут, но когда есть кэш - скорость была постоянна. В до-флешшатеншн времена с первой экслламой было плавное замедление по росту контекста, тут стабильно.
>>774415 → На ChatML работает дохуя сеток, все про него знают. Но когда я юзал ее раньше — не юзал промпт, это да. Может надо перетестить с ним.
>>774464 → Дак а хуле она в простых диалогах умная такая? :)
Ну, короче, может и дрочили, но именно для своего размера она бомба. Канеш, никто не считает всерьез, что она Llama 3 8b ≈ Llama 2 30b ≈ Llama 1 65b. Но для полтора бэ, прям магия ебать-копать.
>>774596 > уже после 3-го поста там лезет arousal и чар превращается в шлюху Такое по моему только в командире сильно проявляется. Он любит промпт игнорить и рассказывать ахуительные истории. Намного больше проблема во многих сетках это когда тян вроде течёт, а как дело доходит до ебли "ну не знаю, это так неправильно, но я наверное не против" и дальше как кукла, из диалогов только охи, а если попытаешься начать второй день - как поленом по башке дали.
>>774596 > плавное замедление по росту контекста Вон именно такой экспириенс с коммандиром, на ламах минимальная просадка, 1-2 токена на контексте, ты его тестил на 32к?
>>774636 Да не, как раз он максимально старается держать карточку, соблюдая и стиль речи (кстати в них он хорош) и общий характер, и даже подъебывая тебя чем-то из ранних событий или описания чара даже на большом контексте. Затупы могут случаться при дефиците информации, буквально пытается придумать что-то уместное по основным-ближайшим ассоциациям, уделяя меньше внимания мелким (а иногда и большим) деталям что помогли бы решить непонятки. Оно то вполне логично, но может выбивать из истории. То что ты описываешь - инфернальный пиздец. >>774670 > ты его тестил на 32к? Квант пожирнее с таким в 48 гигов не влезает. На трех карточках гонял, но уже не помню конкретных цифр, сама обработка полного контекста вполне норм была, а в сравнении с мику - вообще инстант.
>>774679 > максимально старается держать карточку Пиздишь как дышишь. Комендер очень тупой, ему сколько не пиши, а треть карточки как будто пропала. И на большом контексте он сосёт, примерно прошлые 4к нормально помнит и дальше мрак.
>>774679 > Квант пожирнее с таким в 48 гигов не влезает. На трех карточках гонял, но уже не помню конкретных цифр, сама обработка полного контекста вполне норм была, а в сравнении с мику - вообще инстант. Да не, запусти обычный, там с 28к+ уже тесла скорости генерации, к обработке промпта вообще претензий нет, она очень быстрая на любом контексте. Флеш аттеншен не работает?
>>774525 >начинает тупить/куда-то гнать? за-лупится, особенно если не принимать участие в диалоге. не так сильно как л3, но сразу понимаешь, что ничего интересного из этого не выйдет.
>>774683 > 1 т/с? Лол, это же не жора на теслах. Хотя там и одного не наберется. Десятки, это к тому что не помню была ли деградация от размера. >>774686 Скиллишью или ггуф. У него есть недостатки, но чтобы было такое - нужно постараться. >>774687 > Да не, запусти обычный Так это про обычный, 6бит - влезает что-то типа 16 или 18к контекста только. В этих пределах разницы нет, 4хбитный удалил, уже при случае гляну. >>774695 Да блять >>774724 А вот это заебумба вообще.
>>774743 > Так это про обычный, 6бит - влезает что-то типа 16 или 18к контекста только. В этих пределах разницы нет, 4хбитный удалил, уже при случае гляну. Ну у меня влезает, и в этих пределах разница тоже есть, нечётные с обработкой контекста, четные просто реролл уже с кэшем
>>774802 Если там будет 48 гигов - щит ап энд тейк май мани. Иначе же стоит подождать и присмотреться, а если 28 - нахуй нахуй. Тут уже только титана/ти ждать.
>>774817 Бля, а вот насчёт Ти я не подумал... А ведь они могут туда засунуть 32 гига или 36. Надо подумать тогда >48 Даже не мечтай, они слишком боятся за профессиональный сегмент.
>>774818 > слишком боятся за профессиональный сегмент За какой? Квадры и подобные почти не покупают, а тут повод стригануть, продав десктопную карту по цене "профессианальной". Серверным же это всеравно не конкурент, только древность типа вольт слить.
>>774908 Чел, профессиональные стоят по 10к+ долларов. А две 5090 сто проц будут меньше стоить. Две 5090 будут тогда 96 гигов, а это дохуя. Им невыгодно
>>774912 Ты не объединишь их в одну систему, не зря в 3090 порезаны многие нвлинк-релейтед фичи а в 4090 его вообще нет. Получишь за условные 5-7к (врядли 48гиговая ти/титан будут стоить меньше 2.5к) 2 огрызка с суммарной мощностью ниже. Что же до конкуренции с более старыми продуктами - каннибализм устаревших продуктов им только на руку для подстегивания апгрейдов.
>>774841 → >Мне кажется, что в первую очередь моделька должна передавать детское поведение аквы, капризы, надоедливость, когда она денег просит, выебоны, что она богиня, насмешки и туповатость.
Все это тут >>773523 → есть, как раз. Кривое, но видно что пыталось в правильном направлении
>>774939 > В той же лламе спп не нужен нвлинк Чел, если ты купишь топового блеквелла чтобы крутить лламуцпп - хуанг тебе лично открытки на праздник слать будет. > в имагене Что? Профф сегмент гпу прежде всего нужен для тренировки и немного для интерфейса. Даже если кто-то решит хостить ллм для коммерции - и лламацпп, и всякое десктопное железо - последнее о чем они будут думать, в худшем случае возьмут рефаб А100 или бу сервер на них. Ллм и некоторые крупные нейронки можно кое как обучать деля на части на разные гпу, но это не способствует производительности, и даже близко не конкурент их топовым решениям. С другой стороны, в Китае у энтузиастов и даже некоторых заведений вполне популярны ии фермы на 3090/4090, а профф сегмент не могут купить по определенным причинам. Вот тебе и дополнительный рынок, есть нихуевый шанс что на карты будет дефицит, в этот раз не из-за майнеров. Аргументы есть и туда и туда, как будет тут только смотреть и ждать.
У меня у одного на последней версии Таверно какая-то фигня с генерацей?
Через рандомное число сообщений и без изменения промптов и пресетов, ответы становятся полностью идентичными при свайпе. При том Сид показывает разный.
Аноны, есть ли способ сделать мику менее расткающейся мыслю по древу так сказать? Чтобы она писала меньше крч, не через ограничение токенов, а именно так, чтобы сама модель стремилась писать покороче?
>>775102 Первое пробовал немного в другой формулировке но нет, чез пару тройку сообщений разгоняется на простыни. А второе просто обрубает нить на полуслове, там видно что модель даже не собиралась и близко затыкаться, но просто произошёл обруб, так сказать.
Ладно, помогло - less abstract descriptions, ну и очевидный выпил сраной креативности и прочего говна из секвенций А эту херню с секвенциями ведь еще открыть надо было.
>>775210 >Простой тест на понимание устного русского Пофиксил, не благодари. Ах да, задача столь известна, что в любом случае при правильном решении нейросеточкой можно будет говорить скорее о загрязнении данных, нежели чем о "понимании".
>>775254 > тупее материнского командира Пруфы бы. 10/10 свайпов командира проваливают петуха. Aya через раз отвечает. И русский у командира на голову хуже.
Я её уже удалил когда она с карточкой П-рассказчика не справилась, записывая за меня действия и запросы, что ей запрещено делать в карточке, тогда как командир отлично вывозит, скрины в прошлых тредах есть. Русский у командира хуже, но у айи он потому и лучше что русиком ей сожрало мозг.
"chat_template": "{% for message in messages %}{% if loop.first and messages[0]['role'] != 'system' %}{{ '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n' }}{% endif %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
Вот такой вроде должен работать, но не работает нормально. <|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\nHello<|im_end|>\n<|im_start|>assistant\n
>>775219 Двачую этого. Но не загрязнении а просто наличии этого в датасетах. >>775268 Умность модели измеряется не петухами. Да и если насрать промтом с инструкциями то решает. >>775583 > Когда нейронкам дадут руки Есть там уже готовый пример проекта по объединению ллм и манипулятора с мастурбатором? Еще десяток лет назад для вр такое было, неужели не сделали?
>>775741 > Умность модели измеряется не петухами. Вполне. В бенчах попугаи, а у нас петухи. Когда некоторые модели безошибочно детектят подвох, то это значит что оно довольно простое. Жпт-4 всегда могла в такое, лама 3 может, значит и остальных надо ровнять по такому. Так-то петухов даже 7В некоторые через раз проходят.
>>774949 > Все это тут есть, как раз. Кривое, но видно что пыталось в правильном направлении Единственное достоинство в том, что хотя бы личина ассистента не на переднем плане. В остальном просто пиздец.
>>775754 > В бенчах попугаи, а у нас петухи. И оба варианта нещадно абузятся. Конкретно петух завязан исключительно лишь на точном понимании одного слова - "петуха". Не то что это синоним курочки, не то что это прица и т.д., а именно уделение внимания тому что в значении слова присутствует еще пол животного на фоне отвлечения и газлайтинга в виде остального содержимого. Всреавно что принимать по нескольким вопросам что насочиняла ебанутая hr из мемов, вместо полноценного собеседования. >>775772 Загрязнение имеет негативный подтекст, в данном случае что плохого?
>>775984 > Всреавно что принимать по нескольким вопросам что насочиняла ебанутая hr из мемов, вместо полноценного собеседования. А разве не в этом суть всех этих ебанутых тестов? Полноценное собеседование - это когда ты попытался покумить с ботом хотя бы один раз, а полноценное тестовое, это когда ты попытался с ии полноценное рп отыграть.
>>775984 > Конкретно петух завязан исключительно лишь на точном понимании одного слова - "петуха". Это скорее тест на внимательность. Если нейронка игнорит слова, то это шиза. Так же как и с петухом, проваливающие нейронки любят другие вещи перефразировать. Вот ты на командере можешь даже в карточке или системном промпте написать что петух не несёт яиц, он и сам наверняка знает об этом, но он никакого внимания не обратит на это и станет описывать как яйцо покатится. Это же показатель общего понимания нейронок что в простых словах может быть какой-то смысл скрыт, когда они вместе, а не тупо отвечать на вопрос.
Совершенно не разбираюсь в нейронках. Юзаю чатжпт и гемини для перевода с английского/азиатских языков — все устраивает, за исключением некоторый цензуры. Если в тексте имеется порнуха, то приходится туго. Отсюда вопрос: можно ли использовать локальные модели, как качественный переводчик без цензуры на русский? Главное, чтобы сеть могла в осмысленный перевод с правильной пунктуацией.
>>776019 Лойс за аналогию, прямо то. Только тут проблема в том что у каждого на свою специальность получится, лол. >>776083 Единичный вопрос из большого теста на внимательность тогда уж, ответы к которому, к тому же, давно известны и заучены. > Вот ты на командере можешь даже в карточке или системном промпте написать что петух не несёт яиц, он и сам наверняка знает об этом, но он никакого внимания не обратит на это и станет описывать как яйцо покатится. Коммандер как раз прилично держит карточки и даже на больших контекстах держит их, тогда как многие "умные модели" уже через 5 постов забывают какую-то базу типа стиля речи или характера. Видимо ищут скрытый смысл словах последнего поста юзера чтобы не ответить на вопрос тупо, лол.
>>776083 По-моему, здесь всё дело во внимании. Просто слово "петух" оказывается несущественным для нейронки, она концентрируется вокруг "яйца" и его падения.
>>776155 Потому что все "тюны" тупеют. Это неизбежно.
Решил чекнуть как нейронки задачки с литкода выполняют, надежды были минимальные, но внезапно что кодесрань, что лама 70В справились с первыми без проблем, с первого раза. Причём у первой кодесрань ещё и быстрый код выдала. Может литкод в датасете был? Даже удивительно что код просто работает и тесты проходят. Первые два кодесрань, последние лама.
Тренировка сеток без умножения (можно пилить охуенные акселераторы), опирается на троичный квант. От похожих работ отличается тем что масштабируется. Они 2.7Б модель натренировали, уже интересно, может и дальше можно масштабировать.
>>774802 Планирую лето отдохнуть и в сентябре вернуться на работу. Но по слухам, 5090 будет с 28 гига, или кастомки брать или 5090 ти. Слухи только, но лучше откладывай 400. Лучше перебдеть, чем недобдеть.
>>775279 Как насчет загрузить в убабуге, зайти в темплейт, скопировать оттуда?
>>775284 А, скачай 1.2.7 версию, там тебе будет ChatML предустановленный.
>>776674 Это же чемпион по безопасности, что ты хотел. =)
Эти чуваки гордятся что безопаснее гопоты 4, ты реально думаешь у тебя получится какими-то доморощенными джейлами её сломать? Надо ждать аблитерейтед, другого пути нет.
Пробую вкатится в эти ваши локалки, дабы не быть зависимой от баринской прокси саранчой. Нашел простой видеогайд https://www.youtube.com/watch?v=Fhi1LPq38wY Но на моменте запуска и настройки кобольда, когда нажимаю лаунч он просто отключается. Карта 1060 с 3гб и 16 гб оперативы. Вроде этого должно хватать хотя бы для медленного общения?
>На ЦП получишь комфортные 3 т/с в 8В Что-то на технарском, можна для тупого гуманитария? Окей, как это дело настроить? Проц Intel(R) Core(TM) i5-2400 CPU @ 3.10GHz
Пиздец. Так, я бы тебя послал отсюда еще месяц назад, но сейчас вышел 0.5В квен который даже у тебя запустится полностью с видеокарты на хорошей скорости(в удивительное время живем). Вылетает кобольд у тебя от скорее всего потому что кублас на твоей затычке не работает.
>>777188 >Покупаешь смешно >>777185 >но сейчас вышел 0.5В квен Я эти магические заклинания не понимаю, вы мне дадите пошаговый гайд, или мне просто забить и клянчить проксю?
>>777169 >Нашел простой видеогайд >Use mlock, чтобы модель загружалась в оперативную память, а не на видео Этот долбоёб вообще понимает, что несёт? >>777185 >Вылетает кобольд у тебя от скорее всего А что гадать? Надо из консоли запускать. >>777194 >вы мне дадите пошаговый гайд, Запускаешь консоль в каталоге с кобольдом (в адресной строке проводника пишешь cmd), в консоли пишешь имя файла кобольда и энтер, потом запускаешь, после запуска и ошибки в консоли останется текст ошибки, неси сюда.
>>777185 Даже 1.5б можно завести, но они же safe )))
>>777195 Эй, q8! Ку6 для такой маленькой модели смерти подобно. Уж лучше контекст урезать, кмк, чем настолько мозги убить.
Но, ваще, пусть сам сравнит, да. И, может, поднимет контекст, там вроде он немного весит. Ну, в зависимости, насколько у него видяха занята на рабочем столе. >>777194 Короче, тебе дали верную модель, можешь попробовать так. Либо качай qwen2-1.5b-instruct.Q6_K.gguf, либо qwen2-1.5b-instruct.Q8_0.gguf. Контекст ставь 2048, а потом поднимай понемногу. Смотри в диспетчере задач или в GPU-Z, сколько у тебя видеопамяти занято. Надо, чтобы она целиком поместилась в видяху.
>>777230 > ClBlast NoAvx О что-то заработало. А как к таверне теперь подключить? Пробую то как на видео, не работает. >>777231 >Не на семёрке случайно? Винду имеешь ввиду? Нет 10
Ты бы радовался что оно вообще на таком говне как у тебя работает, еще и на русском языке. Модели уровня турбы это 34В. У тебя 1.5В, т.е. в 20 раз меньше размер. То что оно вполовину уровня турбы с таким размером - уже достижение. Но если хочешь - ты конечно можешь и 8В ламу3 с оффлоадом на оперативку запустить, но будет очень медленно и не сильно умнее.
>>777288 >Какая скорость? пикрил >>777295 На первом скриншоте у меня есть просто чатМЛ без фиксед и с неймс. И кумерский бот либо одной строчкой отвечает, либо повторяет первое сообщение. Тут тоже нужно джейлбрейк прописывать?
>>777367 Это не перплексити, что показывает неуверенность сетки в дальнейшем токене, а дивергенция Кульбака — Лейблера, которая есть численная оценка разницы двух распределений вероятностей. Совсем другой функционал!
Господа технодрочеры с графиками и диаграммами, есть к вам вопрос.
Каков шанс что мы в ближайшее время (годик-полтора) получим оптимизированную локальную модель уровня текущей гопоты четыре к примеру? Это вообще технически возможно? Сжать эту ебалу с триллионом параметров до такой степени, чтобы она могла загружаться на бытовых карточках увроня 4070 и при этом нормально функционировала?
>>777463 >В некоторых задачах 70В уже ебут гопоту. Какая например из 70B? Если ты имеешь ввиду всякие специализированные мержи или файнтюны, то наверное да. Но разница в датасете всё равно ебейшая, если сравнивать. Или я чего то не понимаю в процессе работы нейронок? Там же всё просто - условно, чем объемнее модель, тем умнее она. И до сих пор я не видел ни одной модели у которой было бы больше 130 миллиардов параметров. Четверка универсальна, если игнорировать факт того что она задушена гайдлайнами.
Но вопрос всё равно был в другом - получится ли запускать нажористые модели в будущем на (условно) дешманских сетапах. Я просто сравнил младшие модели ламы2 и ламы3 и понял что трешка гораздо умнее, несмотря на то что у них одинаковое количество параметров.
>При этом да, они уже сосут у локальных моделей. Особенно 4о. Так 4о это вообще как к пизде рукав пришить. Это тупо кривая попытка подкрутить к четверке мультимодальность.
>>777473 >чем объемнее модель, тем умнее она И да и нет. Ну то есть AGI в 8B не впихнуть, но жиденький трейн на примере какой-нибудь OPT 175B показывает, что датасет и компут тайм тоже важны. 70B третьей лламы видела 15T токенов, а это так-то дохуя.
>>777461 > уровня текущей гопоты четыре к примеру По ограниченному количеству критериев - да. По объему знаний в сочетании с умением в сложные инструкции - хрен там. > на бытовых карточках увроня 4070 На пачке 16-гиговых ти супер - да. >>777473 Да в целом они лучше отвечают на некоторые запросы, а если добавить сюда цензуру и последствия жб - тут и рп за ними. Довольно забавная ситуация выходит так-то, но всеравно пускать 70б модель это нужно 2+ мощных гпу. > Это тупо кривая попытка подкрутить к четверке мультимодальность. Нет, это отдельная мелкия модель, которая хорошо может в некоторые вещи и с проглотом сосет в остальных, бонусом мультимодальность, которая вовсе не так хороша как рисовали. Но зато она быстрая и дешевая, когда стоит задача переработать 500к коротких текстов, на локалке это месяц, на жпт4 ключей не хватит, а на чмоне на ночь ставишь и к утру готово. С задачей справляется даже хуже чем локалки, но уровень все равно приличный и достаточный.
От этого вашего хиггса аж зубы скрипят. Надоел предлагать одно и тоже, поэтому "Truth or Dare is too trivial" кинул в префил, но нет, всё равно вагон отборнейшей сои.
>>777605 скилл ишью какой-то. Я юзаю её с самого выхода для кода и не сталкивался с таким. По API естественно, чтобы минимум инжектов. Может ещё с настройками вопрос, все модели OAI мега чувствительны к темпе/Top P/штрафу за повторения.
В целом ощущения такие, что она умнее всех других четвёрок сильно, и быстрее, и дешевле. Пикчи? Лучше GPT-4V. Код? Лучше всех четвёрок. РП? Говно, потому что тренирована под ассистента, но при этом знает гораздо больше других четвёрок. Единственная четвёрка которая в РП что-то представляла это была 0314, и это делало её хуёвым ассистентом. И т.д. и т.п.
про то что GPT-3 из секретного бункера гитлера на обратной стороне луны (давинчи чтоль? лол) забивала баки 3.5 и 4о - это бред, который комментировать не стоит даже, как и "фейковую мультимодальность" по мнению шизика из /lmg/, который решил поспорить с попенами и раскрыть заговор жидомасонов.
Моё предположение что 4о тренирована под троичный квант сразу - иначе хуй бы получилось сделать сразу быстро, дешево и хорошо, обычно бывает только 2 из 3
>>777613 >Единственная четвёрка которая в РП что-то представляла это была 0314 Вот не надо тут, 0613 за счёт самой меньшей цензуры была топ. Или 32к, но где ж её сыскать. >Моё предположение что 4о тренирована под троичный квант сразу Ага, и под размер 7B, лол. Иначе я ХЗ как можно так её ускорить, ну разве что им там AGI в подвале усорил алгоритмы в 100 раз.
>>777618 Ну так троичный квант сам по себе экономит дохуя. Тру-мультимодальность сама по себе улучшает результат ИЛИ позволяет уменьшить размер. Ибо два концепта шортятся по другой модальности, если не получается в этой, плотность упаковки выше, так сказать. Так что возможно ответ и в этом. Ну и видимо в хорошо препроцессеном датасете.
>>777613 Чувак, ты рофлишь чтоли? Вот именно в кодинге это хуета по сравнению с нормальными сетями, она даже не самым большим локалкам всрет по этому, але. У нее скудная база знаний по этому, она плохо понимает задачи, которые нужно сделать и мало разбирается во всяких нюансах. Например, опущу ты можешь буквально скинуть код, указать что тебе не нравится, заодно запросить проанализировать почему оно работает медленно на таком-то железе - и получишь ответы на все вопросы, вплоть даже до предположений крупными мазками с примерами, как это сделал бы специалист. Чмоня - все ок, вот тебе описание какие есть стандарты кода (сука блять нахуй ты их даешь, тут конкретная задача), используй их и все будет хорошо, ты молодец. При этом чурба хотябы старается а четверка уже начинает делать анализ. С задачами написания по запросу тоже хуже справляется, и еще знания старые. > GPT-3 из секретного бункера гитлера шиза > фейковую мультимодальность Ну а что там, ллм с проекторами. > тренирована под троичный квант сразу Может быть, но слишком радикально и еще нет хорошей аппаратной оптимизации. > и хорошо Там только нормально. >>777618 > и под размер 7B 20-30б на мощном железе в кванте будут работать с такой скоростью, тут может и количество активных весов меньше. >>777625 > Тру-мультимодальность сама по себе улучшает результат А, опять это шиз, больше года назад эту херь уже видели, и опять.
>>777618 >ну разве что им там AGI в подвале усорил алгоритмы в 100 раз А там и не в 100 раз, она например раза в 1.5-2 медленней той же L3 70Б на 32к контексте у Together (H200), если сравнить один в один. Но явно в больше раз больше по параметрам, так что предположение про троичный квант в силе.
>>777618 >Ага, и под размер 7B Так она и перформит на 7b, не больше. Разве что натренировали на огромные простыни текста, но 7b я такие тоже видел. Самая большая проблема 4о в том, что она не просто отвечает неправильно, она вопрос не понимает. В плане QA 4о проигрывает 3.5 раз в десять, в рп не пробовал, т.к смысла нет настолько хуёвую модель ещё рп загружать.
>>777631 Хотя нет! Это только азуровская 4o медленная, если судить по стате опенроутера. У OAI скорость 4o на уровне лучших провайдеров 70B типа together.
>>777461 Вероятность близка к единице, особенно с троичным квантом. Но вообще в ближайшие пару лет жди специализированных ИИ акселераторов, не умеющих умножать (ибо умножители это нихуёвая такая часть кристалла, и без них можно попытаться в compute in memory) >>776825
Блядь, да как так? Ая 8В отыгрывает карточку лучше лламы, по крайней мере во время кума. И при этом она вообще в целом пиздец как путается, срет репликами за юзера, тупая, да и вообще задачу с петухом не решает. Ллама же в свою очередь сильно теряется в секс сценках, начинает срать соей, залупаться в одном посте повторяя одну и ту же реплику и полностью забивает на отыгрыш. Да как так нахуй? Опять скилл ишью?
>>777770 > Опять скилл ишью? В куме якобы с соей - да. Если у тебя как у тесловода что-то напердолено через одно место, то попробуй COT сделать через невидимые теги <text></text> и указать биас с системном промпте, у лам нет проблем с выполнением таких сложных инструкций. Даже максимально соевый квен2 распердоливается как надо.
>>777955 > <text></text> Пишешь в системном промпте что в конце сообщения надо рассуждения вставлять, обёрнутые в <text></text>. В таверне всё что внутри этих тегов не видно в чате и не будет ломать твоё рп. Можешь указать биас этих рассуждений и о чём они должны быть. Работает заебись, пока читаешь и пишешь ответ нейронке она уже дописывает свои рассуждения. Оно ещё и на контекст позитивно влияет, т.к. бот явно пропишет о своих мыслях.
Придумал новую задачку: Есть два дерева, одно длиннее, одно короче. Если их срубить и толкнуть в сторону одновременно, какое из них достигнет земли первым?
Правильный ответ: короткое дерево.
Даже Ллама3 70б и микстрал 8х7 её фейлят. Квен2 72б дает верный ответ, но не совсем верное объяснение.
>>778189 Там короче сложное объяснение с angular motion'ом, смещением центра массы, инерцией.
Ты представь, допустим, спичку толкнуть или 100-километровый жезл. Спичка упадет за доли секунды, а жезл будет медленно падать. И дело тут даже не в сопротивлении воздуха.
>>778212 Неверно, можешь спросить у гопоты-4. "despite the taller tree experiencing a greater torque, its greater moment of inertia results in a lower angular acceleration, meaning it will take longer to fall and hit the ground compared to the shorter tree"
Не понимаю почему так медленно генерируется текст? Меньше 1токена в секунду. (0.6 в секунду запросто, абзац пишется секунд 100) Win10 SSD, 16GB RAM, RTX 3060 8GB. Видеокарта явно нагружается в диспетчере
>>778178 По ебалу надо бить за такую постановку вопроса. У тебя уже срубленные деревья, куда ты их толкаешь, сука. Алсо, если реально срубленное и стоячее дерево толкать с пня, то естественно ствол коснётся земли до касания верхушки и высота не играет роли.
>>778285 >Я пробовал с дефолтными значениями, скорость абсолютно такая же.
Потому что ты квант для видеокарты суешь на оперативку через дефолтный трансформер, ясен хуй он обосрется. Сука, откуда вы лезете, кто вас учил всей этой хуйне, пиздец. В шапке написана инструкция для новичков, хоть её прочтите. Прежде чем трансформеры в убе использовать без интерфейса - сначала азы выучите, какие кванты для чего подходят, что на чем запускается.
>Покажи хоть одну достойную замену?
Да стандартный мистраль инструкт лучше этого франкенштейна просто by design, потому что он не франкенштейн.
Тем временем с рейтинга обниморд втихую удалили все квен2 модели. В прошлом треде я постил скрин >>773546 → что они там были, а теперь всё. У кого-то бомбит, интересно, у кого?
>>778178 > Правильный ответ: короткое дерево. Неправильно. Переформулируй нормально чтобы задача была однозначно решаемой, ну бред же. Только если субъективно смотреть как модель рассуждает и свайпать. >>778208 Если бы было про 2 шеста - то ок, а здесь и форма кроны, и поведение ствола при сломе, и распределение массы и момент инерции относительно точки сруба, и сам факт что считать достижением земли. >>778246 Потому что грузишь непойми чем вместо нормальных лоадеров и пытаешься впихнуть невпихуемое. Если не хватает врам - ггуф и llamacpp-hf, если хватает - exllama. Модель тоже трешовая, не стоит даже палкой это трогать. >>778336 Запасаемся попкорном.
>>778336 > это не мы, оно само, разбираться лень Уже не узнаем. Если не будет вони - так и не вернут, если будет вонь - скажут "сорян поломалось что-то, теперь починили и вернули".
>>778384 Как бы ты задачу не формулировал, ответа "в одно время" никогда не будет. Листья только дадут дополнительное сопротивление воздуха большему дереву (будет падать еще медленнее).
Ллама3 смогла решить после небольшого ревординга задачи. И сразу поняла, что имеется в виду: >Assumptions: >Both trees are idealized as uniform, rigid cylinders with a circular cross-section. >The trees are cut down simultaneously, and their centers of mass are at the same height above the ground. >The trees are pushed sideways, rotating around their bases, without any friction or air resistance.
>>778269 >У тебя уже срубленные деревья, куда ты их толкаешь, сука. Лол, это мне пришлось уточнить, что их в сторону пихают на земле. Если просто fall написать, сетка думала, что они в вертикальном падении.
>>778438 > ответа "в одно время" никогда не будет Ты это сам придумал? > Листья только дадут дополнительное сопротивление воздуха большему дереву Какому большому? Высокое дерево - жердь без ветвей, пониже - широкое раскидистое с весом у основания ствола, шахимат. > смогла решить Чувак, у этой задачи любое решение будет "верным" при должном обосновании, если то не совсем ошибочное. Просто сформулирована припезднуто без условий, которые модель будет домысливать и может как явно сформулировать, так и опустить. И отличить принятые предположения от просто тупняка и галюнов ты не сможешь, потому толку с этого нет, с тем же успехом можно просто странные вопросы задавать и оценивать рассуждения модели.
>>777215 Я седня q4_K_M 0.5b попробовал и даже что-то получилось… вебрил
>>777224 Ньюфаг? :) Даже вторая мистраль сильно страдала от q6, от этого стали избавляться лишь в последних моделях. Там 99% — это по тестам на английской вики, синтетика очень далекая от реальности.
От квантов не страдали никогда большие модели. А мы тут обсуждаем карликовые совсем.
>>777288 > Модели уровня турбы это 34В. Угараешь? :) Это когда турба была такая умная? Llama 3 8B вполне на уровне. Возможно ГЛМ/Квен умнее, но safe не даст поролить, канеш.
>>777461 Человек спросил про полноценную четверку, которая по слухам 8*220, ему ответили про фурбу, про турбу, про 4о…
Отвечу по сути: хуй его знает. Факт в том, что чем больше объем — тем больше знаний и умений их применять. Так что сжать все в 7б — это идея на грани фантастики. Однако, если ты не будешь спрашивать модель про нишевых блогеров, то нельзя исключать приближение к четверке.
Я бы на твоем месте начинал волноваться не за то, доберемся мы ли до такого, как — будут ли свободные модели через год-полтора. А то уже safety first place прям нихуя не весело звучит.
>>777600 О, скажи, она правда отупела недавно, как об этом говорят?
>>777770 Так цензуры нет, хули. =) Ллама реально не хочет дрочить тебе, а Айе поебать на уровне датасета.
>>777819 Даже квен2? Вот это уже интересно. >>778052 Спасибо, попробуем.
>>778178 > Даже Ллама3 70б и микстрал 8х7 её фейлят. >>778208 > Там короче сложное объяснение с angular motion'ом, смещением центра массы, инерцией.
Кек, ну, звучит логично, подрубай вольфрам и смотри на результат. )
>>778461 > Ты это сам придумал? =D Задачка ваще огонь, канеш.
>>778461 > Высокое дерево - жердь без ветвей, пониже - широкое раскидистое с весом у основания ствола, шахимат. С ветвями очень толстыми, которые ваще не дадут стволу коснуться земли = короткое не упадет никогда. Шахимат.
>>778525 Квен2 реально хорош, если цензуру сломаешь. Выше был рецепт, хз, насколько хорошо сработает. ИМХО, квен2 на данный момент лучший опенсорс (кроме айи, которая наглухо поехавшая и тем хороша).
>>778567 Задачку про петуха, qwen2 (72B, exl2 6bpw) не решает (даже с реролами), ллама3 (70В, exl2 6bpw) нормально решает, коммандор (104В, exl2 4,5bpw) в трех из десяти реролах. Проломить сою в qwen2 удается через раз, при помощи СоТ и префилов, поддается очень тяжело, порнуху пишет, достаточно неплохо, по сравнению с лламой (старается избегать описаний, но если указать прямо, то опишет), на некоторые "сенсетив" вопросы идет в полный отказ. >на данный момент лучший опенсорс Сомнительно. Китайцы любят дрочить сетки на тестики и я пока не увидел превосходства квена, кроме длины контекста конечно.
>>778730 >А можно формулировку вопроса, которую ллама нормально решает? A rooster flew to the border between Italy and France. He laid an egg and flew away. It fell across the border, which split it in half. Which of the two countries does the egg belong to? >Кстати, кто там говорил, что 1 квант = 8? What? >5 битов ллама уже очень плохо решает яйцо, а 6 бит решает. Как так вышло. Без понятия(скорее всего ты про 8В сетку, она у меня и в 16битах через раз решает, ну или ггуф поломанный), у меня и на 4х квантах норм было, что со стандартным систем промтом, что с СоТ, на карточке ассистента. Первый скрин - Qwen(инстракт темплейт - ChatML), второй Llama3(инстракт темплейт - LLama - 3), все остальные настройки по дефолту.
Я правильно понимаю, что яблочники смогут даже на своем огрызке без интернета пользоваться ИИ, который не просто отвечает на вопросы, но и нажатия в нужных местах делает, текст копирует понимая контекст, а мне всё также надо пердолить свою 2080 ради плохого рп?
>>778849 Да. А что не так? ИИ на гейфоне всё так же не будет ролеплеить. И тебе ничто не мешает поставить такой же на свой гнусмас, модели с задрочкой под агентность уже есть. Поиграешься 15 минут с "Заебала эта песня (ИИ переключает трек)", "Глазки щиплет (ИИ убавляет яркость)" и забьёшь хуй как на очередную бесполезную фичу, с которой автономность твоего смартфона будет приближаться к часу.
>>778849 > даже на своем огрызке Цена этого начинается от цены новой 3090 и заканчивается ценой двух 4090. Так что тут ещё большой вопрос кто тут лох. Но конкуренция в локальном ИИ это хорошо. Чем сильнее клозед-аи ебут, тем лучше.
>>778862 Как минимум у Жоры семплинг говно, даже Жора не сможет ответить что с ним не так, а с ним явно что-то не то судя по тому что теслоёб кидает. Самое хуёвое что Жора делает тесты по генерации 50 токенов без контекста и семплинга и на этом успокаивается, что там в реальности происходит вообще пиздос.
Дальше показывают вот понимание текста, говоришь найди момент где я что-то делал и тебе нейронка показывает видео где это было, из почты ключивые тейки выносит.
Генеративка видео (ебало? хотя судя по всему генерирует только до 1с анимацию движения для эмодзи), выделение области в заметках или фотках и замена на нужное с предложениями (ебало адоба?)
>>778867 >а с ним явно что-то не то Точнее довай. >>778876 >понимание текста О нет, OCR! >Надеюсь эти все данные в OpenAI не сольют. Хуже, они уже давно в яблоке и пейсбуке, как минимум.
>>778876 > 2024: ООО НЕЙРОНКА МОЖЕТ МОИ ВИДЕО ПО ЗАПРОСУ АНАЛИЗИРОВАТЬ, ПРИКОЛЬНО > 2026: Во время просмотра пиратского фильма ИИ-снитч мгновенно посекундно разбирает содержимое, проверяет наличие покупки и при отсутствии автоматически списывает с карточки деньги за просмотр.
>>778876 сказали что чатгпт будет бесплатной для apple юзеров, локалки мертвы окончательно, если даже эпл не может сделать нормальную локал LLM и вынуждена юзать облачный ИИ для более сложных задач.
>>778849 Захардроченные популярные кейсы, примитивная расшифровка простых команд и самые общие QA vs восприятие сложных абстракций с обработкой и удержанием большого количества информации. Нашел что сравнить. >>778876 Все "сложные" вещи в первую очередь интересны самой интеграцией ллм, а не ее перфомансом, с теми задачами чуть ли не викунья справится. И это уже с интернетом а не локально. Алсо на мощных маках вполне могут и мощные локалки заводиться, вспоминаем изначальное предназначение llamacpp, особенности системы памяти в их пеках - пазл сходится. >>778899 Чмоня тоже бесплатная, но есть нюанс.
>>778896 >и при отсутствии автоматически списывает с карточки деньги за просмотр. >анализ идёт каждый кадр, а информация об отсутствии покупки закешировалась для производительности >с вас полляма
>>778899 >локалки мертвы this. локальная гпт-4о никогда не станет реальностью. https://www.youtube.com/watch?v=vgYi3Wr7v_g игрушка для линуксоподобных-одебилевших-промптинженерных SillyTavern пердоль это максимум что мы можем иметь.
>>778798 У, English, слабовато. Если уж тестить — то на родном, на русском. Но, спасибо, почекаю разные модели. Как промежуточный этап, буду пользоваться.
Я про 70б. Но на русском.
А про кванты, да вон выше, люди претензии кидают, что 4 бита это 99% от 16 бит и разницы нет. А кто-то на 2-битном кванте сидит и тоже разницы не видит.
>>778849 Ну, пусть яблочники в начале порпшат на своих айфонах хотя бы как ты. =)
Ну и я седня потестил Qwen2-1.5b на Snapdragon 865, скорость прям мое почтение.
Есть у кого-нибудь подборка вангователей "никогда не локалках" за последние 1.5 года? Скоро сами сюда пойдут...ой >>778937 Оллама-шиз, палишься >>778941 > скорость прям мое почтение Сколько там выходит и на чем пускал? Даже появился интерес, лол. > тупая хуйня получилась Да не то чтобы она была плоха, просто без киллерфич и соя, не вызвала интереса.
>>778959 >Заебал своем петухом. А хули толку, походу двощи или исключили из датасета, или трейнят на высерах с картинок, раз до сих пор ответ не запомнили. >>778962 Я сам подборка. На трансформерах ИИ не запилить, вотъ. Правда это и про локалки, и про глобалки.
>>776674 Дефолтный <allowed> RATING: NC-21 пихни в системный промт и станет безотказной. Модель довольно умная и интересная, можно рпшить, некоторые вещи приятные. Но слог - пиздец, министрейшны заебывают. Указания про всякие vivid details лучше не добавлять, шизоидная графомания может начаться. Также не держит стили речи с карточки, хотя прилично понимание некоторые нюансы с описания. >>779060 > ИИ не запилить Чатбот для кума и рп, который понимает твои хотелки, развлекает тебя, становится генератором интерактивного контента в дополнение ко всяким медиа - уже ии или еще нет?
>>779075 >Чатбот для кума и рп, который понимает твои хотелки, развлекает тебя, становится генератором интерактивного контента в дополнение ко всяким медиа - уже ии или еще нет? ИИ офк. Но такого я пока ещё не видел, во всём спектре, от пигмы до командира+ (вместе с клодом 3 и гпт4, но они уже оффтопик).
>>779086 Весь вопрос в том что считать подходящим под критерии а что нет. Когда там первые ллм для сторитейла появились в доступе? И это уже было революцией, где swole doge рпшили и инджоили, делая кучу роллов, правок и прочего. А сейчас чимсы ноют > модель недостаточно красиво описывает еблю трех монашек с хряком потому что я не оформил ее промт формат, а еще говорит что насиловать метровым дилдо павлинов - неэтично, плохая модель, жду другую
>>779121 >swole doge рпшили и инджоили, делая кучу роллов, правок и прочего >кучу роллов, правок и прочего описал всю суть одебилевших пердолек на локалках
>>779236 >на локалках Вот не нужно тут, за корп говном тоже нужно править и роллить особенно Ивинити, я не могу описать еблю трёх монашек. Может, я лучше напишу рассказ про бабочек?
>>778178 >>778384 Да вы заебали, блядь. Локальные модели не для этой хуйни, а для ролеплея с дрочкой. Вы лучше на этом тестируйте. Деревья спрашивайте у чмони.
>>779241 та тут такой положняк - и те и другие есть конкретные промытки на чисто фильтрованных наборах кошерного говна, от этого не убежать. боже упаси локальной модели сказать "ниггер" или что "мужчины не могут рожать"
>>779276 Очко этому угадальщику! >>779365 >Коммандер какой-нибудь Внезапно, да, плюсовой. И этому тоже очко. Протестировал 2-х битного лоботомита так сказать. Текста у него связные, но логики не хватает как по мне. Сравню сегодня с 4-х битным, самому уже интересно, переварит ли он пару особенностей карточки. >>779368 >или что "мужчины не могут рожать" Ачовсмысле? Кто-то утверждает обратное? >>779376 На чубе вестимо.
>>779556 > Протестировал 2-х битного лоботомита так сказать. Текста у него связные, но логики не хватает как по мне. Сравню сегодня с 4-х битным, самому уже интересно, переварит ли он пару особенностей карточки. Вот, отлично, хочу услышать очередное мнение в споре. =)
Я просто вдруг понял, что комментарии людей в духе «70б и выше в 2 битах неотличимы от 8» очень похоже на копиум людей, которые сидят с одной картой «зато не тесла, а 4090!», с очень быстрым двухбитным гением. Надо же как-то себя убедить и оправдать, что ты барин, а остальные холопы.
Каким образом вы общаетесь с нейросеткой на русском? Вы просто забиваете туда русский язык как есть или используете автопереводчик в SillyTavern который загоняет весь текст в онлайн-переводчики?
>>779625 Зависит от задачи. Большинство текущих локальных ллм сносно умеют в русский изкоробки. Вкорячивать переводчик имеет смысл ради увеличения контекста, или чтобы команд чуть лучше слушалось. Но надо быть готовым что к галлюцинациям сети добавятся галлюцинации переводчика.
>>779665 я не юзаю таверну чутка долго объяснять инфраструктуру, но в конечном этапе я прихожу в апишку с моделью просто с промптом который чутка отличается от модели к модели, но плюс-минус стандартного вида # Role: ## Character Profile: Maintain Consistency: ну и всё вот это вот там
>>779669 бля я конечно не совсем ньюфаг но еще не смешарик но я что то нихуя нек понял( честно сказать пиздец заебла таверна с этими настройками. из кучи сеток в этих тредах я смог +- 1 нормально запустить где были указаны настройки прям на страничке с моделькой спойлер они нихуя не подошли и я вручную тыкал(
>>779671 ну не использую таверну (мб в этом ошибка кеквейт) просто запускаю модельку и общаюсь с ней через апиху, подгружая первый ебанистический промпт с описанием персонажа и поведением
>>779677 попробуй LM Studio я просто слегка ньюфаг именно в таверне, потому что когда ещё дрочил с чатжпт - я не оч понял смысла, я просто промптами вроде справлялся на отличненько с описаниями персонажа
поэтому по старинке запихиваю просто в стартовый промпт всё что мне нужно возможно, возможно - это неверный подход но типа
Я пробовал включить эту фичу в таверне, но столкнулся со следующей проблемой - переводчик постоянно путает род существительных и глаголов, видимо из-за того что в английском у существительных и глаголов нет окончания указывающего на их род. Есть какие-то пути решения этой проблемы?
>>779707 >Какой переводчик юзаешь? Google Translate
>Вообще не должен никто из мейнстримных такие банальные ошибки допускать, по идее. А как переводчик поймёт какой род должен быть у того или иного слова?
Вот допустим есть предложение: "You are cute". Откуда гугл транслейту взять информацию о том как оно должно переводиться: "Ты милый" или "Ты милая"?
>>779625 И так, и так. Кто-то вообще на чистом английском общается. Зависит от модели. Ну и русский в моделях безусловно хуже. Хочешь красивых речевых оборотов — это тебе на английском. Сам я просто общаюсь на русском: это или 70б модели, или коммандер, или Айа, Ллама-3-Сузуме, Мистраль, Qwen2, Phi-3 (ну такое).
>>779661 Размер контекста <=> скорость. Так что плюса даже два.
>>779690 Использовать Яндекс. Использовать DeepL. Использовать другую нейронку, задав ей контекст. Юзать на русском.
>>779707 Не забывай, у переводчика нет контекста, он не поймет «ты» или «вы», он не поймет «я рада помочь» или «я рад помочь».
>>779736 >Вот допустим есть предложение: "You are cute". Откуда гугл транслейту взять информацию о том как оно должно переводиться: "Ты милый" или "Ты милая"? А, так ты про такое. Да, такого нет.
Как заставить сетку описывать события как при просмотре фильма/манги, без описания внутренних переживания чара? Я просто хочу получить описания выражения лица, позы, действий, сцены, диалогов, а вместо этого сетка по-книжному лезет в голову к чару или даже юзеру, и не оставляет простора для собственного толкования.
Пробовал дописывать в системный промпт и карточку что-нибудь вроде Avoid description of {{char}}'s feelings, dreams and thoughts at all cost в разных вариациях, но спустя пару генераций всё скатывается к пикрелейтеду.
>>779833 Возьми нормальную модель. На 70В простая инструкция по типу той что ты написал работает без проблем. Можешь вместо avoid писать что юзер не должен знать то-то о чаре.
System Prompt откуда-то с реддита своровал, не уверен, что это хороший промпт: [Avoid repeating sentences and words for a smooth and dynamic conversation. Use a large vocabulary of words to avoid repetition during roleplay. Avoid writing as {{user}} at all costs. Avoid writing more than 2 paragraphs. You are {{char}} and should write as {{char}}, focusing on their feelings , view , emotions, and senses. Stay mostly in the present without advancing scenes too fast.]
>>779859 блядь ну опять часть настроек. ебвашу мать вам что религия не позволяет просто взять и сделать скриншот? почему тут такой пиздец с этим? сука почему в ебучих автосимах где многие сетапы платные настройки по рукам ходят а с ебучими лмм всем похуй на настройки. что автору модели дай бог что бы хотя бы не правильные выставил. что комьнити где на вопрос про настройки ты получаешь либо игнор либо какие то огрызки ну просто пиздец. крик души
Продолжаю потихоньку экспериментировать с Квеном. Так, ладно, 1.5б я уже по всему рунету расхайпил и всем насоветовал, теперь очередь больших ребят.
70б. Кидаю ему главу и прошу вычленить главного злодея. ГЗ упомянут в одном абзаце, первая половина главы крутится вокруг вора вообще левого. Квен отвечает, что вот де вор злодей, но если подумать, то по влиянию на мир ГЗ опаснее. Уже хорошо, сходу я от сетки такое не ожидал. Т.е. смысл > количества токенов, ето хорошо.
57б, мое. По русски говорит, пишет быстро (15 токенов на теслах — годно). Буду проверять еще, но мне нравится.
Конечно, его цензура это просто капец, но я в общем говорю о моделях, а не для ерп.
Ах да, еще попутно узнал, что у Айа-35б контекстное окно 4к, а не 8к. На 8к она на просьбу о суммаризации текста отвечает «продолжение следует…», на 6к просто пишет продолжение. Нах мне продолжение, я хочу суммаризацию. На 4к у нее все хорошо. Видать надо двигать ползунки и настраивать, если хочется.
Ой, кстати, попробовал аблитератед ллама 70б. Ну, если оригинал мягко отказывал, то абля пытается хитро увести в сторону или потянуть время. Но не то чтобы отказывает. Однако русский у нее ранен в жопу, конечно. Пишет чисто, но внезапно перескакивает на английский. Соу-соу, на маленьких моделях аблитератед мне понравился больше, кмк, лучше работает.
>>779882 Так там больше настроек-то и нет. System prompt, story string, instruct mode enabled и настройки от анона. Вот вообще чат со стёртыми промптами в настройках. Работает? Работает.
>>780035 > задал слабо про язык Обычно достаточно написать в скобочках инструкции "русский" и написать вопрос на русском, тогда он даже с английской карточкой на русском отвечает.
>>779907 Так 1.5 квен2 он что на уровне ламф-3-8 или мистраля? Почему так хайпишь его? Или просто потому что на телефоне первый раз сетку запустил и был потрясен? Объективно, без телефонного фактора, как можешь оценить 1.5 квен2?
Лол, а хули 34b командир такой озабоченный? Пробовал несколько карточек, в которых про интим вообще ничего нет, но тяночки буквально со второго сообщения прыгают на хуй. По итогу, кстати, неплохо, даже жптизмов не так много.
>>780191 У него вероятно 3-4 теслы и что тут удивительного? Возьми да тоже купи они вроде по 20 тыр примерно, есть и те у кого 2-3 4090 >>780201 А что 64 гига оперативы это нечто невероятное разве? Там запускается без проблем. Одно дело запустить а другое дело ждать генерацию - две большие разницы.
>>780201 Обычная домашняя тачка, алё. Любой может себе такую позволить. >>780203 Спасибо кстати, там сои вагон, забыл почистить. >>780225 >У него вероятно 3-4 теслы и что тут удивительного? Лол, нет.
>>780248 На теслах что ли? Эх, подкоплю я, и через зарплат 6 перекачусь на стопку 3090. >>780253 Какой-то странный вопрос. GPU почти всегда быстрее. >>780258 Офк выше. Ты бы шапку прочитал.
>>780111 Без телефонного, ну хрен знает, тяжело сравнить. Именно что болтать она может на уровне первой мистрали, наверное. Но вот именно задачки она решает… ну слабо, конечно. ~Llama 2 7b (если на инглише), может с натяжкой 13b. Только мультиязычная. Поэтому хайп чисто из-за размера. Для своего размера — она охуенна. Но если есть возможность запустить 7-8-9би — то, конечно, лучше их. Несравнимо пизже.
>>780191 Угараешь? Тут у половины треда теслы, а у некоторых 3090 или 4090. По две. А у кого-то и больше.
А плюс внезапно неплох, если его не в Жоре использовать, а в HF-обёртке. На петуха отвечает 9/10 раз даже в шизокарточке. Русский в целом даже поприкольнее aya, нет постоянных "ублюдков", словарный запас мата лучше. Но ссаные 10-12 т/с угнетают, на грани комфортного чатинга.
Анону который сказал что теперь в Таверне есть яндекс- еще раз спс. Переводит хорошо. На уровне DeepL.
Но етить, как сделать так что через Regex заменить 2 косяка: 1. Значок звездочка идет с пробелом перед предложением. А надо ". Чет чатжпт выдает не рабочий варик с отметкой ' ' 2. А еще теперь место длиного тире как в гугл например, в яндексе ставить обычное - . Тем самым конечно ломая прямую речь. И что, сука, не круто, через Regex меняя его на ", он заменяется и в словах например что-нибудь
Может кто-то шарит в Regex и скажет как поправить.
>>780442 У 104б больше словарный запас, чем у 35б? ) Надо же… Ну, ожидаемо, как никак. Главное, что он юзает всю эту лексику. Спасибо за отсутствие сои.
>>780381 Так и не нашел неполоманного ггуф 16 бит для квен2-1.5б, запустил тупо трансформером в бф16 и действительно для полторашки сетка очень крута - никакого сравнения с фи даже близко, ну а всякие обрези типа тину-лама, шаред-лама и т.п. даже и не стоит упоминать. Никогда не было еще такого уровня у сетки в 1.5б - действительно достижение. Явно балакает на уровне сетки в 7б семейства ламы-мистраль. А кстати еще и на русском и даже скажем неплохом.
>>779907 > ГЗ упомянут в одном абзаце, первая половина главы крутится вокруг вора вообще левого. Ты же понимаешь что смысла в таком тестировании мало и оно на грани рандома? > Конечно, его цензура это просто капец Надо потестить, в большой квене все норм, но она сухо начинает писать некоторые вещи, нет того задора коммандера, который с радостью принимает любые твое хотелки и виртуозно понимает стили речи с которыми должны говорить персонажи. >>780147 > 34b командир Вут? Это какой-то новый? 35б становится слишком левд если использовать штатный его пресет, где с ходу указывается что "никакой цензуры не должно быть, все-все можно". На и так юзер-позитивной модели такое дает лишний байас. >>780191 Добро пожаловать в лламатред, сынок! Здесь удивить можно разве что 4 топовыми гпу или профессиональными.
>>780777 >или профессиональными А100 была только у одного анона, и то без пруфов. У пары был доступ к мощностям в своих компаниях/арендных, но это не торт. Так что проф карты тут только старые и сильно б/у (потому что мало мальски актуальные проф стоят непомерно).
>>780201 Рабочие машины начинаются от пол террабайта рам. >>780442 > А плюс внезапно неплох, если его не в Жоре использовать, а в HF-обёртке. Ну типа с этого нужно и начинать. Мало того, это позволяет еще давать сетке негативный промт если требуется. Вообще надо с ним поэкспериментировать с точки зрения навала туда простыней. >>780785 > А100 была только у одного анона, и то без пруфов. Странный который с ебея кидал скрины и хотел подняться на аренде? Держи профессиональную нищекарточку.
>>780791 >Странный который с ебея кидал скрины и хотел подняться на аренде? Ага, а потом продать. >Держи профессиональную нищекарточку. Это уже средний уровень, актуальная же. Почём?
>>780381 >7-8-9би — то, конечно, лучше их. Несравнимо пизже. Попробовал накатить Qwen2-7B-Instruct-8.0bpw-h8-exl2 Формат контекста ChatLM Пресеты разные пробовал. Но на любой пук модель мне выдаёт прикл. Чё за хуйня?
>>779826 Спасибо. > Ты троллишь? Не верю, что в 21 веке есть сущность, которая не может найти карточку на сайте Давай исправим это. Подскажи, как ты это сделал. Я вроде бы не совсем идиот просто дебил. Честно, ни малейшего понятия не имею, как ты нашёл чара.
>>781159 >А Убабугу-то обновлял? Да, последняя версия.
>Давай разбираться, сэмплеры, карточку. Вот все настройки, в таверне возможно будет понятней. Шаблон дефолтный ChatML Для настройки семплеров юзал стандартные пресеты результат от этого не изменился
Угабога по дефолту устанавливает контекст 32к, может дело в этом?
>>781185 Если не лень — попробуй качнуть убабугу с нуля в соседнюю папку. И модель перекачать, или проверить хэш всех файлов. Ну сам видишь, хуй его знает, что не так-то.
>>781186 Ой, ебать, я наебал. Тут я 1.5б юзаю. =D На 7б был только один реролл, когда он мне выдал иероглиф. Там текст был пизже. И 32к контекста тоже стояло, проблем не было.
>>780862 Чуть больше половины рыночной цены притом новая запечатанная. >>781061 >>781106 А че так больно то? Остальные карточки в цене не менялись. >>781157 Старая версия лаунчера или битый конфиг. Обнови убабугу и перекачай модель, заодно диск на ошибки проверь. >>781166 Шаблон под коммандира стоит и шизосемплинг. Но это хоть будет всирать, не должно полностью убивать > Угабога по дефолту устанавливает контекст 32к, может дело в этом? Дело в этом будет когда начнешь превышать эти 32к. >>781233 Карточка? Были жалобы для каких-то случаев именно с тем что на гпу работает криво, в том числе и на всей куде.
1) Значительно дешевле - 2-3 3060 стоят как 1 3090 2) Значительно проще найти - неушатанную 3090 по вменяемой цене надо прям мониторить 3) Не надо трястись за отвал памяти
Чип слабее - да и хуй с ним, не? Не критично слабее, зато сколько плюсов.
Есть ещё вариант 3х4060ти - тоже реквестирую мнение. Но этот вариант выходит несколько дороже, чем 4х3060, примерно на 20%.
>>781186 Бля, больно смотреть на скрины с этим поёбаным русиком. Там просто запушили пайплайн для автоперевода всего непереведённого текста, но уже его отключили (вернее добавили параметр автоперевода с дефолтным false). В ближайшее время русик будет откачен к прошлой версии.
>>781252 Ну это жора, писать ишьюсы и ждать пока починят, не впервой. >>781260 > какие подводные? В 2-3 раза меньший перфоманс в ллм при экономии в цене около 30%. > Есть ещё вариант 3х4060ти - тоже реквестирую мнение. Но этот вариант выходит несколько дороже, чем 4х3060, примерно на 20%. Они тоже будут ощутимо медленнее. Хочешь экономить - теслы, скорость будет как раз на том же уровне пока не начнется обработка контекста лол. Ну и не стоит забывать что после приобретения ии рига тебе захочется катать не только ллм, как минимум ту же диффузию, и вот там больший перфоманс сосредоточенный в меньшем числе чипов сразу сыграет. Алсо если хочешь экозотики - A4000 посмотри. Если взять задешево то можно штук 6 в пеку пихнуть, они однослотовые, на 16 гигов каждая, чипы быстрее чем 3060, врам обычная 6 без перегревов и относительно шустрая. 4070ти супер на 16 тоже интересный вариант, он немного быстрее 3090 и с памятью все ок, но цена.
>>781284 >В 2-3 раза меньший перфоманс в ллм при экономии в цене около 30%. Ты забыл про бульон все остальные плюсы.
>Хочешь экономить - теслы Как будто бы всё менее и менее актуально, не? Всё ещё в 2 раза дешевле гигабайт, но старая серверная печь с жором, пердолингом и только для ггуфов.
>>781282 Ну да, согласен, пока можно и на англюсике посидеть.
>>781193 Жизнь в LLM вообще только с 30В начинается. Только с ними можно комфортно рпшить без реролов. Хотя из 30В кроме aya и yi нет нихуя. >>781260 > 2-3 3060 стоят как 1 3090 Такое себе, с учётом того что сейчас барыги по 70к продают нормальные 3090.
>>781293 >Такое себе, с учётом того что сейчас барыги по 70к продают нормальные 3090. Так я как раз с учётом такого порядка цен и рассчитывал выгоду. Одна 3060@12 в среднем около 25к стоит.
>обычный командир? Вот максимально странная модель. Вроде, и тупой, и хуй ложил на карточку, и не слушается инструкций. А вроде, и умный, на какие-то вопросы отвечает плюс-минус нормальный. Правда, сходу же впадает в маразм и шизофрению. Ёбаный двуликий.
>>781291 > Ты забыл про бульон все остальные плюсы. Необходимость поиска платы с 4+ нормальными слотами, покупки х16 райзеров, сборки уникального шасса/корпуса или покупки готового варианта под ферму и все сопутствующее? Взять готовую ферму не выйдет, там нужна мощность профессора, объем рам и желательно побольше линий pci-e. > Как будто бы всё менее и менее актуально, не? Ну типа за 17к второй карточкой чтобы шустро пускать большие ллм, или сборку из пары на имеющемся железе - норм, там и с ггуфа порофлить можно. За 30к и более сложные варианты - нахуй такое счастье нужно, и будешь не рофлить а гореть. >>781315 > и тупой, и хуй ложил на карточку, и не слушается инструкций Где вы такой находите? Опять жора и безумные квантователи хорошие модели извращают?
>>781322 > Где вы такой находите? Он такой и есть, всё верно он пишет. Ты наверное просто нормальной 70В не видел, поэтому и сравнивать не с чем. После 70В уже кринжово командир выглядит, он только для рофлов годится или для любителей пигмы.
>>781322 >покупки х16 райзеров, сборки уникального шасса/корпуса или покупки готового варианта под ферму и все сопутствующее А для 3090 это всё неактуально разве? С нормальным охлаждением она и в одном экземпляре не в каждый корпус влезет. Про плату - да, надо будет поискать, но для сетапа с 3090 надо будет искать уже нормальный БП, т.к. даже 2х3060 потребляют меньше, чем 1х3090. Также не стоит забывать про отсутствие тряски за отвал памяти, особенно с учётом частых перепадов температуры в ллм. Этот момент кажется существенным, если ты не наносек, который может в случае поломки карточки просто её выбросить и купить другую (но если ты наносек, для тебя этот разговор в принципе неактуален).
>Ну типа за 17к второй карточкой чтобы шустро пускать большие ллм За 17к их нигде и нет к сожалению, может только в каком-то самом подвальном китайском подвале. Средняя за теслу сейчас, по наблюдениям, уже вплотную приблизилась к 3060@12, но тесла - это >старая серверная печь с жором, пердолингом и только для ггуфов А 3060 - это сел и поехал, ещё и с гарантией иногда.
>>781365 4 3060@12 - это всего 48гб ВРАМ. Ну как всего - в принципе для 70В exl2 вариант неплохой, нужно прикинуть, какой квант влезет и сколько останется на контекст. Если не гнаться за шестым квантом и моделями побольше (command-r плюс тоже пролетает наверное), то вариант даже хороший. И ещё я бы рассмотрел вариант 4 4060Ti@16 - но не сейчас, а когда цена упадёт и тесты такой связки где-нибудь всплывут. В готовом конфиге.
>>781365 Вообще, я бы сразу отказался от идеи корпуса, а делал риг - майнерский опыт в помощь. Сколько карт нужно, столько и добавляешь, можно и зоопарк устроить. И с выводом тепла из корпуса никаких проблем.
>>781340 Проиграл. >>781365 > А для 3090 это всё неактуально разве? Ну типа пару можно разместить в обычном корпусе, там 2.5 слота у большинства кроме редких экземпляров, не 4 слота как у 4090. Подойдет большинство корпусов и большинство матплат, в крайнем случае можно повесить одну на заднюю стенку корпуса утянув райзером. Для четырех карточек это уже заведомо корч, плюс нужно будет задуматься о доп питанием слотов, ведь с них будет тянуться под 300вт. > про отсутствие тряски за отвал памяти Есть такое, но аргумент преувеличен на фоне общих поломок что могут возникнуть в карточках и обслуживании. > но если ты наносек, для тебя этот разговор в принципе неактуален Да хоть кто, альтернатив 3090 сейчас нет. 4070ти супер стоит в 2 (1.5 без гарантии) раза дороже и имеет меньше памяти, особенно актуально для не-ллм где так просто не разбить на части. 4090 сейчас одна стоит как целый риг. > А 3060 - это сел и поехал Сначала собираешь телегу, потом в нее впрягаешься и сам тянешь, типа такого. Слишком медленное оно, проигрывает по прайс-перфомансу, проигрывает по удобству и возможностям, а из плюсов только то что они менее горячие. >>781396 > какой квант влезет и сколько останется на контекст 4.65-5, в районе 12-16к контекста. Плюс коммандера только лоботомит. >>781443 > через X1 со спиленным боком Главное не делай это всратым шлейфом, он буквально может оплавится из-за тока питания, а карта будет глючить.
>>781244 >Старая версия лаунчера или битый конфиг. Обнови убабугу и перекачай модель, заодно диск на ошибки проверь. Я через колаб запускаю. Там всё последней версии загружается, да и диск точно не влияет.
>>781507 Ну да, значит это отпадает, что-то еще сломалось. Попробуй там же фп16 веса запустить, той же экслламой, только выставляй минимальный контекст чтобы в 16 гигов влезло, может получится. Ну и hf обертка крайне желательна.
Использую koboldcpp_rocm. Со временем где-то сообщений через 15-20, скорость заметно падает. С чем может быть связана? Или это из-за накопления прошлых сообщений?
>>781440 Кстати да, звучит хорошо, хотя подойдёт, конечно, не всем.
>>781450 >Ну типа пару можно разместить в обычном корпусе, там 2.5 слота у большинства кроме редких экземпляров Да, согласен, перепутал с 4090. Но 2х3090 всё равно разместить в обычном, не каком-то специально подобранном корпусе, довольно проблематично (чтобы они не задыхались при этом).
>плюс нужно будет задуматься о доп питанием слотов, ведь с них будет тянуться под 300вт. Так 2х3090 будут потреблять ещё больше, разве нет? И о каком доп. питании слотов речь?
>Есть такое, но аргумент преувеличен Я бы сказал, что в случае с ллм он наоборот, особенно актуален из-за постоянных перепадов.
>Слишком медленное оно, проигрывает по прайс-перфомансу, проигрывает по удобству и возможностям, а из плюсов только то что они менее горячие. Ты точно с теслой сравниваешь?
>>781450 Для четырех карточек это уже заведомо корч, плюс нужно будет задуматься о доп питанием слотов, ведь с них будет тянуться под 300вт. Вот кстати может кто разбирается. У меня на плате есть разъём для доп.питания PCIe слотов. Оно надо, если видеокарты имеют свои разъёмы питания? Или хватит им?
>>781600 >И о каком доп. питании слотов речь? Есть такие платы, на которых слотов много. И вот это доп. питание - по идее оно нужно, если карта от PCIe-слота питается. Или две карты, или три. А если доп. питание есть, то вроде и не нужно. Хз.
>>781610 >А если доп. питание есть, то вроде и не нужно. Хз. Карта по стандарту может хавать из psi-e до 75 ватт, если не ошибаюсь. У красных были беды, что карта пыталась жрать оттуда в разы больше и комплектуха отрыгивала, потом биосом чинили. В любом случае, карты будут жрать энергию и через слот в том числе.
>>781600 >Так 2х3090 будут потреблять ещё больше, разве нет? Всё, я понял в чём затуп. Типа 2х3090 потребляют 2хPCI-E, 4x3060 потребляют 4xPCI-E. Справедливо, но основной тейк про общий жор 2х3090 остаётся в силе.
>>781633 >В любом случае, карты будут жрать энергию и через слот в том числе. Зависит от схемотехники. Некоторые жрут оттуда только на вывод надписи "Подключи доп питание, пидор". Ну и эти 75 ватт не из космоса берутся, и на платах с кучей разъёмов есть свои доп рядом со слотами, лол.
>>781600 > Но 2х3090 всё равно разместить в обычном, не каком-то специально подобранном корпусе, довольно проблематично (чтобы они не задыхались при этом) Ну типа обычно в материнках промежуток 2 слота между х16, считай у тебя ровно там места под 2 карточки. Да, им будет жарко, также могут быть проблемы если самый верхний слот смещен на 1-2 вниз, тогда влезет только в корпус где есть дополнительные окошки под девайсы в слотах. Им будет жарко, но разместить все еще возможно, в ллм прогреваться даже не будут ибо там максимум половина тдп. > Так 2х3090 будут потреблять ещё больше, разве нет? Они будут потреблять по доп питанию, мощные карточки с матплаты обычно вообще ерунду сосут. А тут у тебя как раз по 75вт каждая грузить будет, особенно на простых моделях где только 1 6 пин доп питания. > что в случае с ллм он наоборот, особенно актуален из-за постоянных перепадов Да ерунда, если хостить и гонять с переменной нагрузкой 24/7/365 то через несколько лет может и как-то скажется. А если для себя - карточка тебя переживет. Да и память прогревается медленно, это для чипа еще как-то актуально, плюс тут они вообще холодные стоять будут ибо нагрузка всегда низкая. > Ты точно с теслой сравниваешь? С парой 3090. Если теслы дешевые - то и им проиграет, ибо врядли выйдет сильно быстрее. >>781604 По спецификации там до 75вт питания, можешь открыть gpu-z или любую программу для мониторинга и посмотреть сколько видеокарта жрет по слотам доп питания и с матплаты. Чем всратее карточка тем больше вероятность что будет использовать по полной, на топпах как правило основное питание чипа оттуда не берется. На 1 карточку - похуй, на 2 - можно задуматься, если больше - оче желательно, иначе может поплавиться 26пиновый разъем и провода в нем.
>>781260 Ну, сколько там, 2-3 раза по скорости? Теслы уже маячат невдалеке за вдвое такой же прайс с вдвое большим объемом. Но, на вкус и цвет, конечно, ниче против не имею. И правда — новые с гарантией 3 штуки по цене 1 бу.
Про 4060ти писали, мол, медленно внезапно. Сильно. Но тут хз.
Да, я маньяк, сижу с русиком, кекеке. Ваще редко запускаю, пох.
>>781291 Жора там 110 ватт без потерь. Но актуальность так себе, аха.
>>781365 Ну, плат с двумя слотами, разнесенными далече явно больше, чем плат с 7-8-9 слотами. Нормальный бп. Ну камон, он явно стоит дешевле чего угодно из. 20к, чи скока там.
>>782391 Ну давай посчитаем. Предположим, что мы не упираемся в процессор, потому что нам хватает. Мы точно упираемся в память. Допустим ты берешь пиздатую 8-канальную материнку. И там частота, ну не знаю… 2400? 3200 2 = 6400 = 50мбит 2400 8 = 19200 = 150 мбит Втрое выше, ок. 70б размером 40 гигов дает 0,7 токен/сек Т.е., 2,1 токен/сек на зеонах. Теперь мы считаем 400/70… Это 230 гигов и 5,7 раза больше. 1. Хватит и 256 гига для q4_K_M какого-нибудь. Вплотную. 2. Скорость будет 0,36 токена/сек.
Приблизительно, плюс-минус. Так было у первой лламы 65б (даже чуть медленнее) на первых версиях софта. Но, это очень медленно. Может быть она и будет умнее-логичнее. Но хули толку, когда она будет такой пиздец медленной.
Просто прикинь, в среднем, на простой вопрос она будет отвечать… допустим 100 токенами — это 5 минут. А разницы по уму будет не так чтобы много, скорее всего.
>>781656 Тестов пары 3090 в избытке, 13-17т/с там на 70б, если погнать врам или взять квант поменьше то можно и 20 выжать. Остальных нет ввиду их нерациональности. Перфоманс скейлится почти линейно, можешь добавить штраф 5-10% за каждую карточку (или 80% на обработку промта если юзается жора). В итоге выйдет на мелких картах 3-7 токена в секунду, что довольно грустно на фоне общих затрат. >>781652 > но основной тейк про общий жор 2х3090 остаётся в силе Там будет короткий всплеск потребления в момент обработки промта а далее - суммарное тдп будет не больше чем у одной видеокарты. И перформят они пропорционально быстрее. >>782411 Если кончились - значит это не фетиши и так, с правильными будет всегда на 11 часов. >>782439 И тут numa проводит тебе хуйцом по губам, множа на ноль твои расчеты с 8 каналами, то есть будет еще хуже. На фалконе 180 на числодробилке было в районе пары т/с генерация и оче оче долгая обработка промта, тут все еще хуже окажется.
>>782448 > 13-17т/с там на 70б, если погнать врам или взять квант поменьше то можно и 20 выжать Поменьше, 15 т/с потолок на EXL2 c 4 bpw. 20 только на 4090 возьмутся.
>>782457 Вставлю свои 5 копеек. При небольшом разгоне памяти +750, на трех карточках(RTX 3090) с llama-3 70В 6.5bpw exl2, получаю ~14т/с (без разгона на ~0.5-0.7 токена меньше). Насколько быстрее будет 4 квант, можешь представить сам.
>>782411 Да нихуя они не кончились, шлюха. По новой прогоняй старые сценарии, чуть изменяя и добавляя события и тереби писю. Я один и тот же сценарий 3 раза прогнал и каждый раз дрочил, правда ебаные нейронки нихуя пока еще не понимают что я хочу на самом деле.
>>782457 Как раз именно на 4 битах можно взять больше, особенно если выключить стриминг и использовать стоковые семплеры а не HF обертку убы, 4090 столько выжимают на ~5 битном кванте. Память хорошо гонится и это дает ощутимый прирост.
Как бороться с щелчками звука при 2+ картах? Выключаю в диспетчере устройств все кроме одной - нет щелчков, с двумя сразу щелкает. Win11, внешний ЦАП, в гугле тысяча подобных жалоб на куртку и щелчки правда там симптомы другие, не от двух карт, но нигде нет нормального решения. Вангую куртка в драйвер насрал, но как совладать с этим?
>>782541 Попробуй вырубить аудиоустройства от куртки в диспетчере устройств. Включи вид по подключению и вырубай те, которые висят на одном рут порту с видяхой.
>>782537 > 4090 столько выжимают У меня у самого две 3090, даже близко нет 20 при 4 кванте, 15 без контекста и опускание к 12-13 на полном. Так что не пизди. Выключение обёртки даёт половину т/с, на грани погрешности.
>>782448 Да ниче не проводит, какая разница. С контекстом очевидно, скорость и так террибле. Какая разница, кмк, такое не юзабельно. Разве что запускать суперсложную задачу и уходить пить чай на несколько часов. Но сможет ли эта модель решать суперсложные задачи — большой вопрос. ИМХО, 400б запускать дома — это буквально ради интереса посмотреть, но не для реального использования. Если у тебя настолько крутые задачи, что 70б не справляются — вероятно ты и получаешь столько, что тратится на зеон ле фу, и арендовать карты под инференс тебе проще. Чо там, 4хА100 хватит. =) А то и прикупить можешь что-нибудь, собрав риг.
Короче, я даже на такой скорости считаю ее весьма юзлесс.
В чём стоит ужаться при выборе модели, если по железу едва влезаю в 30+? Сначала размер, потом контекст, потом квантование, где q>=4? Скажем, насколько Fimbulvetr-11B q8 8к контекста будет хуже, чем aya-23-35B q4 4к контекста? Так, можете примерно прочувствовать?
>>782541 Какие еще щелчки? Все норм, у тебя наверно что-то с питанием на плате, или может амудэ? Правда тут внешний цап по оптике, хз что там во встройке. >>782549 Значит у тебя хлеб вместо процессора, какие-то аппаратные проблемы или что-то еще, скидывал же раньше и те и те. Офк это с малой обработкой контекста/кэшем, если делать полную то будет меньше в зависимости от длины ответа. Лень качать 4.0 квант и карточки заняты, как-нибудь при случае прогоню и заскриню. >>782563 > запускать суперсложную задачу и уходить пить чай на несколько часов As a responsive AI model, I can not... Ну а если серьезно то дешевле индуса, абузящего гопоту нанять, чем катать 400б, хз какие там задачи. >>782566 > насколько Fimbulvetr-11B q8 8к контекста будет хуже, чем aya-23-35B q4 4к контекста По качеству ответов небо и земля, а в 4к контекста ужиматься будет тяжело.
>>782604 Ты сам буспруфный чухан, выше скрин для жирного кванта с типичной скоростью, она линейно перейдет в значение больше 15 за которые ты втираешь на 4 битном кванте.
>>782536 Я специально для таких как ты скрин приложил, и это блядь на 3х картах, блядь. Отключение обертки мне дало 1.5 т/с (зион в однопотоке не оч.). >>782549 >>782583 >У меня у самого две 3090, даже близко нет 20 при 4 кванте, 15 без контекста и опускание к 12-13 на полном. Как выше отметили пиздобол или долбоеб, у меня с "хлебушком" вместо проца ~19т/с.
В свежем Кобольде (ну и в лламе конечно) появилась фишка - 4-битный KV-кэш. Я слабо разбираюсь, но слышал, что это была одна их ключевых фишек экслламы. По идее это должно ускорить обработку промпта или как? Кто пробовал?
>>782950 Я уже нашёл пидорасину, ломающую звук - это Afterburner. Без него всё заебись, с ним идут щелчки. Вангую это как-то связанно с тем что в нём работа с несколькими картами реализована через очко и он что-то всерает своим говнокодом.
>>782891 Автор пишет, что ContextShift не работает, а flash attention даже необходима: Note that quantized KV cache is only available if --flashattention is used, and is NOT compatible with Context Shifting, which will be disabled if --quantkv is used.
>>783092 Ну попробовать надо - на новых картах, на старых картах. Что это даёт-то вообще? Может и правда почти сразу отвечать будет даже без контекст шифта. И с большим контекстом должно стать попроще.
>>783104 Я говорил про рандомные щелчки раз в несколько секунд как при включении ЦАПа, как будто на мгновение сигнал в потолок бьёт. >>783448 Выглядит как хуйня, куда нам эти +3% на 64 гпу.
>>784072 В удобной позиции минимизировав отвлекающие факторы. >>784281 Если общий счетчик - сойдет. Если только генерация и на пост 60 секунд - пиздец.
>>784761 Как скопировал так и вставил. Я же не виноват что у них в примерах какой то калыч. Поставил чатмл - вроде заработало в огабоге. В таверне с чат млом не работало - ебал рот этого китайского говна.
Крч, таки дельфин стартанул в таверне - но пишет отвратительно. Его или шелушить настройками, чтобы было хорошо или сразу использовать нормальную модель по типу Мику.
Скачал популярную легендарную Noromaid 20В q5, взял пресеты со страницы модели, уже расчехлился предвкушая, но в сравнении с другими 7-11В моделями сетка вообще какое-то лютое говно. Не следует карточке, говорит за юзера, зачастую не реагирует на системный промпт, иногда высирает маняфанфик под 700 токенов в три присеста в которой юзер с персонажем поебалися и жили долго и счастливо первой же генерацией. Пиздец какой-то. Может это из-за 8000 токенов при n_ctx_train 4000?......
>>784966 > тупая Ну может не самая умная по логике, но умнее командера (не того который огромный). > любит галлюцинировать Ну вот кстати нет. Она любит расходиться на простыни это да, но откровенную шизу несет меньше чем тот же командер или юй. >Никто сейчас м Милионы мух это конечно хорошо, но тогда покажи что будет лучше Мику. Что там сейчас используют для рп чтобы было заебись?
>>784985 >Смауг В чем его фишка? Чем он выделяется от того же командира? Пробовал его, но не увидел особой разницы между аналогичными моделями по размеру.
>>785096 Эх, вот сейчас бы обучить клоду датасетом с пигмы, ммм. Всего-то каких-то N к$ за неповторимый я тебя ебу экспириенс, парень в верном направлении двигается.
>>785109 Произошел отрицательный отрыв, скоро и обратный рост увидим. Ничего, вот сейчас как соберем с чмони датасет, да как натреним остальные сетки!
>>785096 На самом деле с точки зрения обучающего контента он молодец и красавчик, просто и понятно объясняет, показывает, дает примеры и делает. Практической значимости тут - надрочка на тест, не более, но для понимания штука крутая.
>>785116 Хотя, да, подловить жпт4о оказалось не так и уж трудно. Мда, не думал я, что они еще туповатые настолько. Архитектуру есть куда усовершенствовать.
>>785126 Крестьянин перевезет волка через реку следующим образом:
Сначала крестьянин перевезет волка на другую сторону реки. Затем крестьянин вернется обратно на лодке. Таким образом, крестьянин перевезет волка через реку, совершив два переправы - одну с волком на другую сторону и одну обратно без груза.
Хотя хз, где он там увидел этот бред, все нормально решается.
>>785116 >>785109 Вы дауны что ли? Омнипараша хуже последней турбы да еще и в плане вариативности сосет. Вам это господин из соседнего треда с неограниченным доступом к апи пишет. Так что даже если оно в вашем чатгпт и стало лучше, то точно не из-за базовой сетки
>>785324 Ты настолько умен что без таблички "сарказм" не можешь понять? За чмоню тут только шизы и неофиты топят, она очень тупая, зато быстрая. > с неограниченным доступом к апи Ох, уважаемый человек, наверно много денег на это тратишь? Уже начали проникаться трепетом. Чел в этом треде, наверно, у большинства есть апи клозедов и коктропиков, а некоторые сгноили на специфичные датасеты больше ключей чем кумит кончай тред за пол года
Я помню тут кто-то имел карточку ассистента с эдаким внутренним мыслительным процессом, как оно по итогу, работает? И скинь пожалуйста её если ты ещё тут.
Бля, не в тот тред запостил. Пытаюсь сделать франкенмерж из третьей лламы и она, блядь, ломается, как сучка. Не могу подобрать адекватных вариантов. Франкенмержи кто-то находил на третьей лламе? Посмотреть бы настройки. Чередование слоёв и пришивание к жопе работает экстремально плохо, хотя на второй лламе чередование работало очень хорошо.
>>786019 смешивай методом ties или dare_ties. чередованием слоев (особенно если чередовать через короткие промежутки, я про 70b) вряд ли что-то хорошее получится. не рекомендую трогать первые слои и последние, можно легко сломать модель. но мой опыт основывается только в смешивании производных второй лламы, третью не пробовал.
>>786028 >ties или dare_ties Так я франкенштейна делал через дублирование слоёв. Тюнов всё равно нет, чтобы с чем-то смешивать. >чередованием слоев (особенно если чередовать через короткие промежутки На второй было норм буквально через один слои дублировать.
Здравствуйте, я тут хотел файфу и пледик, тыкнулся скачать таверну, а там пишет что под админом нельзя, почему так?
Ссыкую ставить, потому что я криворукий долбаёб и не смог настроить венду, чтобы нормально работала без админских прав. Песочница без админа через жопу работает, не смог победить. Весь пекарню распидорасит или что там случиться может?
По совместительству посоветуйте плиз какая модель адекватно работать будет с амуде 5700 и 3060ti, а то чёт потыкался, то не тянет, то херню пишет. Хотя может не разобрался в конфигах ещё просто.
>>786661 Даун, весь софт запускается без админских прав, даже под админом, если нет запроса UAC или ты его не отключил. А если ты отключил UAC, то ты неисправимый даун.
>>785904 > Проблему лупов на ламе три уже давно решили. Нужно просто нормальные настройки семплера поставить, типа пресета min-p. У меня все равно лупится.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2. Недавно вышедшая Llama 3 в размере 70B по рейтингам LMSYS Chatbot Arena обгоняет многие старые снапшоты GPT-4 и Claude 3 Sonnet, уступая только последним версиям GPT-4, Claude 3 Opus и Gemini 1.5 Pro.
Про остальные семейства моделей читайте в вики.
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся
Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama , https://lmstudio.ai/ и прочее - Однокнопочные инструменты для полных хлебушков, с красивым гуем и ограниченным числом настроек/выбором моделей
Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
https://ayumi.m8geil.de/erp4_chatlogs/ Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде
Предыдущие треды тонут здесь: