В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Intel заявила, что собирается ориентироваться в первую очередь на доступность и играть в сегменте экономически эффективных ускорителей. Собственно, начинает Intel уже с ранее представленной моделью Gaudi 3. Intel утверждает, что ее линейка Gaudi 3 обеспечивает производительность, эквивалентную Nvidia H100, при этом выделяется на 80% лучшим соотношением производительности на доллар. В бенчмаркинге на Llama-2 разница в производительности на доллар увеличивается вдвое. Теперь Intel позиционирует новую линейку исключительно как лучшее решение для небольших стартапов и частных лиц, желающих приобрести вычислительную мощность в ИИ. Сколько стоит Gaudi 3, точно неизвестно, но ранее были данные о том, что цена в несколько раз ниже, чем у Nvidia H100.
>>922769 >Какого хера я завидую И действительно - какого хера. Отложи немножко денежек с обедов, арендуй 3-4 карты и покажи этим пижонам, что тоже можешь!
>>922753 >Я сейчас пользуюсь L3-8B-Stheno-v3.1 Хорошая модель для рп, но лучше попробуй 3.2 - она гораздо более стабильная. Сам на ней ни один месяц сидел, пока не перелез на Немо.
>хотя советовали модель поменьше Какой долбаеб это советовал? У тебя 12 кило видюшатины, это как раз хорошая модель для твоего сетапа, потому что ее полностью можно выгрузить в видеопамять.
>На основании этого какая версия коммандера и cydonia мне подойдет? Никакая из этих, особенно командор. Он много жрет, даже обновленная версия. Ты конечно можешь взять что-то на основе маленького мистраля, но скорость будет meh. Лучше поищи файнтюны на Немо, или попробуй дефолтный инструкт, он тоже неплохо в ролевках перформит.
Я в конце позапрошлого треда ливнул, чтобы не рушить воздушные замки одного бедного анончика, и не трепать ему нервы. И вы знаете —как я рад! В тред пришло куча агрессивных новичков, которые ничего не понимают, но несут чушь и на всех кидаются. Стало гораздо спокойнее в режиме ридонли. В треде, к сожалению, осталось очень мало умных людей, которым я рекомендую так же дропнуть это дело и перестать сраться с глупеньками абобусами. Нервы потратите, а у них все равно количество линий PCIe ни на что не влияет. ^^' Всем добра и детокса от треда!
А что есть из хорошего в промежутке 20-27b? Кроме qwen, он охуенный, но медленный.
Вчера квином перевел статейку на русский. Перевод конечно кое-где корявый, но далеко не потраченный. Прям приятно получилось, и форматирование выдержал. Хочется чего-нибудь такого-же, только чуток быстрее.
Когда пишете карточку на предпочитаемой модели - уточните как она будет работать в инстракт моде прежде чем рпшить. Поймёте будет ли эта инструкция работать вообще, или просто потратит токены впустую, также нейронка может предложить более оптимизированные или более эффективные (для понимания ею же) конструкции.
Шаблон запроса, делать надо в инстракт, а не рп (чат) режиме.
Describe, in a scenario where you are a gamemaster in a role-playing game what effect this instruction would have on your answers: "" If there is one, propose a better formulation in terms of efficiency and understanding of the task that takes about the same or fewer number of tokens.
Для карточек персонажей замените "gamemaster" на "role-playing a fictional character".
Для нсфв-шных добавьте "in a mature-themed role-playing game for adults".
>>923070 И работать будет так: -Понимаешь вот такую инструкцию? -Да, конечно. высирает гигантскую простыню, что должна делать Начинается ролеплей - ответы вида "Пигма кивает".
>Поймёте будет ли эта инструкция работать вообще Это так не работает. Инструкция + длинный чат и инструкция + вопрос на её понимание - это два сильно разных контекста. Про оптимизацию промпта нейронкой тоже бред имхо. Нагалюцинировать в ответ она может что угодно, а потом окажется, что инструкция сбивает ей весь контекст рп. Ну и сэмплеры опять же: двиганул их - всё может поплыть.
>делать надо в инстракт, а не рп (чат) режиме Это что вообще такое? Есть модели, трененые на инструкциях, для них желателен специальный формат этих инструкций. Есть базовые модели, которые просто продолжают текст. Что за чат режим?
Что из мультимодалок умеет с длинными видео работать? И чтобы по скорости это было вменяемо. Хочется запилить автоматическую вырезку кусков из видео, надо тайм-коды получать как-то. У меня пока из идей только просто разбивать на кадры и ебашить клипом/сиглипом. Что из мультимодалок есть с эмбендингами, а не адаптерами?
>>923007 Признаю, это я нейронка походу. Попробовал, действительно очень похоже и не нужно ждать 2 минуты чтобы всё равно потом свайпнуть. Благодарю анончик.
Возможно ли только через промт, без аддонов, сделать дополнительные уведомления - игрок пишет что идёт спать, перед следущим сообщением выводится "Сегодня: [дата]", игрок пишет что идёт в другую локацию или его туда перемещает, пишется " --- название локации ---".
кто может объяснить почему сетка пишет и говорит за меня? сейчас сижу на nemomix-unleashed-12b. но такая проблема появилась еще на Nemomix-v4.0-12B.Q5_K_M. я уже и настройки крутил и карты менял. везде одно и тоже. помогите пж с меня как обычно
>>923411 так ну с настройками я справился. перенес в блокнот и потом при сохранение поменял формант на json. не знаю правильно это или нет не бейте тряпками но вроде завелось. потыкал пару сообщений вроде хуйня ушла. но БЛЯДЬ температура 5 нахуй. вот у меня сейчас самый главный вопрос если я скину тепу до 1-0.35 шиза вернется или нет
>>923403 в прошлом треде я видел только инструкцию которую нужно вкинуть в описакние бота и она мне не помогла
>>923447 А без шуток: 1) Сама модель кривая. 2) Сбрось параметры к дефолтным и посмотри на гитхабе кобольда / таверны рекомендуемые. 3) Просто пиши в карточке чтобы never alter player character lines, не говорил и не решал за тебя, пробуй разные формулировки.
Температура 5 - это ебать шиза, и у тебя, и у модели, я генерю с динамической температурой 0.5 - 1.5
TopP - 0.9, RepPen - 1.1
Кстати говоря, а с миростатом кто-нибудь находил норм работающую модель, чот все что пробовал только ломались, или его дефолтные настройки кривые.
Есть какойнить калькулятор по скорости генерации токенов для карточек? Сколько токенов выдаст 4060, 3060, 4080? Есть ли смысл переплачивать за эту 4080 нихуя не пойму. И на сколько решает проц? Хули в гайте по выбору железа нет конкретных примеров и бенчмарков блять.
>>923492 Если чисто для llm, то ключевой параметр - $/vram. Пока у тебя всё в vram, оно на любой карте, где вообще заводится cuda/rocm/vulkan будет с приемлемой скоростью. Больше памяти = больше модели крутить можно. Если распределяешь между cpu и gpu, принцип тот же - чем больше на cpu, тем больше страдаешь, чем больше у gpu памяти, тем меньше страдаешь. Вот уже среди моделей с равным объёмом vram можно выбирать по псп. А уже в самом конце по ядру (которое чаще всего всё равно недогружено, ибо упирается в псп).
>>923437 >Очередной документ с прорывной архитектурой О, выходят на темп статей о прорывных батареях для смартфонов. Осталось только подождать! А на деле батареи смартфонов раза в 2 стали лучше за 15 лет, лол.
>>923524 ИЧСХ, безо всяких прорывных графенов, нитридов галия и прочих оптико-квантовых хуёвин. Вот и нейронки имеют 100500 прорывных статей, а по факту сидим тупо на том, что тренировали дольше, на большем числе железа и более чистых датасетах.
>>923526 Все эти публикации в основном про повышение верхней планки точности моделей, которая ещё не достигнута на обычном трансформере. Никакие новые технологии не уберут необходимости прогонять триллионы токенов через автоград.
>>923536 >автоград Какой-то новый термин. Для меня автоград это Тольятти. Что же про прогон токенов, то как мне стоит двигаться... А, не буду раскрывать фишку. Пускай страдают.
>>923381 >12b ну так, знамо-вестимо, вот где проблема когда я был молодой и без врама я гонял всякие мелкие сетки и у меня постоянно обычный не-антро пёс смиркал, стоял на двух ногах и пиздел без умолку. И олигофрен в псхбольнице начинал как донжуан говорить, при том что в карте были даже прописаны примеры его речи типа "Санни радостно... Санни хочет обнять медсестру....". Я уж не говорю об аполоджайзах. до 23б в рп жизни нет на локалках
>>923577 Это позволило нам создать ии, но какая же это хуита по эффективности Миллиарды передрачиваний весов там где биология учится на долях ватта и нескольких или даже 1 повторении
>>923622 > какая же это хуита по эффективности как собственно и биологическая эволюция, но это единственный способ на данный момент создавать такие сложные системы алгоритмически (креационно) такое не создашь у меня есть надежда (в плане локальности) на сетки с нативной малой битностью: битнет, суб 1 бит, ну или хотя бы двух битные сетки но как я понял, крупным корпорациям немного пофиг на vram, а сам inference они не ускоряют может скоро кто-то догадается выпустить "вычислительные коробки" спец. для inference тренить на них будет нельзя, но запускать крупные модели можно пускай используют шифрованные веса на уровне железа (как apple поступает на своих устройствах для шифрования персональных данных), чтобы исключить слив таких сеток
>>923644 Биология может в непрерывность и самобучение, поэтому так эффективна. Пока ллм так не смогут - будет хуйня. Для этого нужна гораздо более совершенная архитектура, а мы только мультимодальность еле свели вместе недавно
>>923657 > Биология может в непрерывность и самобучение Так и машинное обучения такое позволяет Даже обучение с подкреплением У нас просто не таких вычислительных ресурсов, чтобы проводить постоянное обучение Есть теории по динамическим нейронным сетям, но они крайне нестабильны
Аноны, всем привет! Подскажите, плиз. У меня ПК: R5 3500X | DDR4 128GB@3200MHz | RTX 4070 12GB | SSD 980 PRO 1TB Я сейчас использую: Qwen2.5-32B-Instruct-Q4_K_M.gguf gemma-2-27b-it-Q4_K_M.gguf Mistral-Nemo-Instruct-2407-Q8_0.gguf DeepSeek-Coder-V2-Lite-Instruct-Q8_0.gguf
Что уже можно удалить, а что оставить? Может что лучшее появилось уже?
>>923683 Тыж недавно спрашивал? Можешь 4км на 4 кл заменить, как вариант, у бертовски есть Размер чуть больше качество выше Квен 14 есть новый файнтюн, мозгами рядом с квен 32, если еще не щупал то попробуй https://huggingface.co/arcee-ai/SuperNova-Medius-GGUF
>>923447 Настрой карточку бота нормально. Если в конекст уже набилась куча сообщений где бот говорит за тебя то промт в карточке может и не помочь, начинай новую стори.
>>923644 >может скоро кто-то догадается выпустить "вычислительные коробки" спец. для inference Кто бы это мог быть? Корпорациям это во-первых невыгодно (будут меньше использовать корпоративные модели), а во-вторых опасно (фурри ебут лолей как простейший пример абсолютнейшего табу, легко реализуемого на анлокнутой локальной нейронке. Сташнейший харам, на подобное сагрятся буквально все). Сдаётся мне, что специализированного устройства для инференса мы можем и вообще не увидеть.
>>923751 я тоже скептически настроен но может объявиться какой-нибудь андердог у которого нет такого количества серверных ферм как у гугла или мелкомягких и для которого это может стать хорошей бизнес моделью не всем по карману большое кол-во серверов и не все могут привлечь многомиллиардные инвестиции на которые можно будет тренить свои модельки возьме к примеру тех же cohere, их модели менее цензурированны, так как они у них меньше ресурсов на цензуру и плюс низкий уровень цензуры привлекает условных любителей лолей
>>923776 > фурри ебут лолей как простейший пример шифрование весов решит эту проблему правда сложность такого подхода в том, что нужно будет кастомное железо как у эппла и скорость конечно просядет и конечно рано или поздно все равно взломают, но это уже не проблема компании
>>923789 >Т.е. я меняю свои 16гигов оперативы на 64 и бед и горести не знаю? Наоборот. Раньше ты не мог запускать "хоть как-то" 70В-модели и был счастлив. А теперь сможешь - со скоростью меньше токена в секунду. Больше, если на ддр5, но ненамного. И во втором кванте конечно же, а то и этого не будет.
>>923787 >разница между ddr4 и ddr5 Примерно пропорционально разнице в их пропускной способности. >>923789 >меняю свои 16гигов оперативы на 64 Ну это тоже лишним не будет, если хочешь запускать большие модели на cpu+gpu (скорости там будут в лучшем случае на уровне неспешного чтения), но в первую очередь речь идёт именно о видеопамяти.
>>923668 >Так и машинное обучения такое позволяет >но они крайне нестабильны У тебя контекста на 3 строчки хватает, поэтому я поправил, расположив твои противоречащие строки рядом. Не благодари. >>923751 >фурри ебут лолей >Сташнейший харам Думаю, толерастия скоро дойдёт и до них, лол. >>923776 >плюс низкий уровень цензуры привлекает условных любителей лолей Только они нихуя не платят.
>>923845 > противоречащие строки рядом в чем противоречие? машинное обучение позволяет самообучение лол на этом принципе (обучение без учителя) все современные llm'ки натренены динамические нейронные сети нужны для "непрерывности" (непрерывного до обучения), если я правильно понял, что имелось в виду
>>923849 >машинное обучение позволяет самообучение лол Только если так сделать, то сетки начинают деградировать. Всякие там катастрофические забывания и прочие баги. Для этого и нужна другая архитектура, но оно донт ворк.
>>923845 > Только они нихуя не платят Некоторые думаю заплатят, но по любому главными клиентами будут айтишники, работающие в конторах, где запрещают юзать ии сервисы (таких достаточно много) локальный inference их спасет
>>923844 Ну, беседу он оживляет, но о какой-то стабильности и точности можно забыть, как и следованию инструкциям. Тут помниться по снятые 3 раза трусы говорили, с миростатом будут сниматься шубы и шапки, хоть их и небыло в сцене совсем.
>>923927 А в догонку, если всё же выбирать модель под миростат, то смотри стабильные рп файтюны где было именно до обучение(модельки от драммера, хоть и датасет у него говно, люмимэид, пантеон от глифа, рпмакс, не трогай это говно, а не немомисы и прочие франкенштейны, там хоть какая-то стабильность предполагается. Можешь магнумы попробовать, но всё что ниже 70 у них туповато, посравнению с аналогами.
Вышла открытая альтернатива GPT-4oАноним20/10/24 Вск 05:17:29#80№923954
>>922709 (OP) Meta Introduces Spirit LM open source model that combines text and speech inputs/outputs
Just in time for Halloween 2024, Meta has unveiled Meta Spirit LM, the company’s first open-source multimodal language model capable of seamlessly integrating text and speech inputs and outputs. As such, it competes directly with OpenAI’s GPT-4o (also natively multimodal) and other multimodal models such as Hume’s EVI 2, as well as dedicated text-to-speech and speech-to-text offerings such as ElevenLabs. Designed by Meta’s Fundamental AI Research (FAIR) team, Spirit LM aims to address the limitations of existing AI voice experiences by offering a more expressive and natural-sounding speech generation, while learning tasks across modalities like automatic speech recognition (ASR), text-to-speech (TTS), and speech classification.
A new approach to text and speech
Traditional AI models for voice rely on automatic speech recognition to process spoken input before synthesizing it with a language model, which is then converted into speech using text-to-speech techniques. While effective, this process often sacrifices the expressive qualities inherent to human speech, such as tone and emotion. Meta Spirit LM introduces a more advanced solution by incorporating phonetic, pitch, and tone tokens to overcome these limitations.
Meta has released two versions of Spirit LM: • Spirit LM Base: Uses phonetic tokens to process and generate speech. • Spirit LM Expressive: Includes additional tokens for pitch and tone, allowing the model to capture more nuanced emotional states, such as excitement or sadness, and reflect those in the generated speech.
Both models are trained on a combination of text and speech datasets, allowing Spirit LM to perform cross-modal tasks like speech-to-text and text-to-speech, while maintaining the natural expressiveness of speech in its outputs.
>>924004 Со скоростью всё плохо - 2400Мhz на ксенонах, но я как бы рассчитываю на то шо это двухпроцессорная конфигурация и итогово будет 8 каналов памяти. Система как бы собирается под слегка другие задачи. В раздумьях сейчас как оперативу организовать. Или забить все 16 слотов по 8Гб как раз под многопоток для нейронок или сделать упор на объём и постепенно докупать. Самыая жирная модель сколько оперативы кушоет? 128Гб хватит? Видяха есть, но там всего 12Гб, как я понел что то вкусное из ЛЛМ запустить на ней не получится. под SD и Flux её хватает, иногда с натяжкой. Где вообще почитать положняк по железу? Токены как понимать в контексте ЛЛМ? У кого опыт на процессорном варианте? Сколько по времени ждать ответа от искусственного идиота приходится? И на какой конфигурации.
>>924011 Скорость тут - гб в секунду При генерации текста модель крутится по кругу между рам и процессором всем своим размером Если у тебя будет чтение 60 гб в секунду на 4 каналах, то модель размером 10 гб выдаст тебе не более 6 токенов в секунду. С учетом издержек на обсчет процессором - 4-5. Это без использования видеокарты. На сколько помню с 2 процессорами полной скорости памяти не получить, 8 каналов не дадут 2 прироста скорости, но это надо проверять 5 токенов в секунду это текст появляющийся со скорстью расслабленного чтения
>>924011 >>924014 Больше скажу, с двумя процессорами потанцевально результаты могут быть чуть ли не хуже, чем с одним, из-за диких накладных расходов на межпроцессорную коммуникацию. Это, поди, древние зивоны без NUMA ещё, там пока один читает / пишет память у другого блок на доступ к шине.
>>924018 В теории мультимодалка лучше. Генерация эмоций, выражений, какие-нибудь фоновые шумы, паузы в нужных моментах. На практике мультимодалка жрёт ебелион ресурсов, тяжело файнтюнится и так далее, и так далее.
>>924021 Да и на практике лучше, кдозеды ведь создали интересную модель. Выпущенный рептилойдами прототип лишь демонстрация работоспособности созданной ими технологии. Настоящие модели создаются сейчас и будут или выпущены или останутся у них Скорей всего они выпустят еще одну модель качеством повыше позже
>>924021 >В теории мультимодалка лучше. Генерация эмоций, выражений, какие-нибудь фоновые шумы, паузы в нужных моментах.
Да эт понятно. Ясен перец что всех влечет идея взять охулиард роликов с ютуба с сабами и прикладывая ноль усилий обучить модель речи. Вот только не выходит пока каменный цветочек...
Мне кажется, на практике лучше себя покажет какая-нибудь TTSка, где можно будет все вот эти вот художественные моменты явно указывать во входной разметке.
>>924011 >Токены как понимать Отдельные куски слов. От одной до нескольких букв. А также знаки препинания, цифры и т.п. >У кого опыт на процессорном варианте? Сколько по времени ждать ответа от искусственного идиота приходится? И на какой конфигурации. Ну предположим у тебя модель 70b в q4, 7 млрд по 4 бита ~=35 ГБ, для генерации 1 токена надо пропустить через cpu все эти 35 ГБ; теоретическая пропускная способность ddr4-2400Mhz - это около 20 gb/s, в двухканале - 40, в четырёхканале - 80. В общем, теоретически, при условии, что сами ядра процессора не станут узким местом (а поскольку у тебя их много, наверное, не станут), в одноканале у тебя будет чуть больше 0.5 т/с, в двухканале - чуть больше 1 т/с, в четёрыхканале чуть больше 2 т/с, но в твоём случае могут быть нюансы с numa. На практике результаты (только генерация) на ddr4-2400 и ddr4-2733 в двухканале на пикрил (собрал в табличку все свои бенчмарки на cpu). На старых версиях llama.cpp, как видно, не очень оптимально было, только на f16 производительность приближалась к теоретически максимальной. На новых версиях производительность подтянули. Возможно, сам проц немного не вывозит, это ryzen 7 1700. Там где 2400, он в стоке (3000mhz), там где 2733, у него 3500mhz. Там где "?" - точных данных не записано, может быть либо сток, либо небольшой разгон. >Видяха есть, но там всего 12Гб, как я понел что то вкусное из ЛЛМ запустить на ней не получится Как минимум, обработку промпта на неё точно закинуть стоит. Ну и даже если закинуть какую-то часть модели, это снимет часть вычислений с cpu, условно -12 ГБ. В случае 70b в теории получаем 35-12=23 ГБ на cpu, чуть меньше 1 т/с в одноканале, чуть меньше 2 т/с в двухканале, чуть меньше 4 т/с в четырёхканале. Ну и как видно по 70b q5_k_m, практический результат от подключения gpu почти идеально соответствует теоретическим расчётам.
>>924004 >since many of you asked us how you can support us directly Блядь, вот никогда не спрашивал, как бы занести денег барену. >>924011 >Или забить все 16 слотов Смысл, если конфигурация всё равно 4х2? Вторая плашка на канале вообще ничего не даст. Ебашь 16х8, и хватит. >>924017 >Дальше допилят Джва года как ждём.
>>924029 Главное, чтобы не стали делать каждую следующую модель мультимодальной. >>924032 >роликов с ютуба с сабами Сабы не сработают никогда. Они у ютуба даже спикеров не разделяют, смысла их использовать никакого. >явно указывать во входной разметке Не взлетит. Разметка будет усложняться и усложняться, пока не окажется, что тебе нужна отдельная модель для генерации разметки. Плюс это увеличивает размер входного скрытого пространства, что замедляет всю модель. Если же тебе нужна простая разметка, то берёшь любую модель с войсклоном, берёшь сэмплы - злая речь, похотливая, шёпот, читаешь "тег стиля" и подключаешь сэмпл в качестве клонируемого голоса. И у тебя готова "эмоциональная" ттс, поддерживающая разметку. Самое интересное в чистых ТТС это предсказатели стиля, но эта хуйня не то, чтобы была распространена.
>>924011 Ключевая технология avx2, без нее будет медленно. Есть еще avx512 но не помню на сколько он ускоряет. Там в любом случае упор идет в скорость памяти
>>924011 >Самыая жирная модель сколько оперативы кушоет? 128Гб хватит? 405b. Если в f32, то 1.6 ТБ, если в f16, то 810 ГБ, если в q8, то 405 ГБ, если в q4, то 202.5 ГБ. Ну ты понел, сколько ни бери, всё мало будет. И скорость на 80 ГБ/с в q4 будет 0.4 Т/с максимум.
>>923884 Ну кароче нагуглил хуйни, пытаюсь запустить mistralrs с ламой3.2-11b-vision, файлик q4k.uqff четыре гига, не помещается в 8гб врама. ёбаный рот хуйня, я громе гуфов ниче не умею помогите че я делаю не так.
>>924052 >я громе гуфов ниче не умею помогите че я делаю не так. Качай кобальд и запускай мультимодальные сетки с mmproj Например из новых MiniCPM-V-2_6_Q8_0.gguf и MiniCPM-V-2_6_mmproj-f16.gguf mmproj файл кодера для чтения картинок, нужно найти в кобальде куда его вставить вместе с моделью, там подписано Они так же читают картинки и могут отвечать по ним.
>>924062 >Why would anyone create FatLlama-1.7T? I mean, seriously, what’s the point? You wake up one day and think, “You know what we need? A model so massive that even the clouds get nervous.” >Sure, it's impressive, but who’s running it? Probably not you, unless your PC is secretly a nuclear reactor. >Forget about saving family photos or, you know, literally anything else. Hope you didn’t need that 3TB of free space—you’ve got a digital behemoth now. Quants? Yeah, good luck with that. I tried to quantize it, and my computer just laughed at me and went back to running Minesweeper. >Welp, if by some miracle you actually manage to get FatLlama-1.7T up and running, don’t get too comfy—because you know what's next, right? FatLlama 3T. Why? Because who doesn’t want to flex with even more ridiculous numbers? It’s like saying, “Oh, you lifted 1.7 trillion? Cute. Try 3 trillion, champ.” By the time you’re done maxing out your power grid and turning your house into a data center, I’ll be onto FatLlama 5.8T, which will probably require a small star as an energy source.
>>924042 >Сабы не сработают никогда. Они у ютуба даже спикеров не разделяют, смысла их использовать никакого.
Не соглашусь. Для базового обучения модели подойдут более чем. Сейчас ведь обычные текстовые модели тоже обучаются на хер пойми чем, данные даже не чистят толком, не говоря уж про предобработку. А вот файнтюнить потом да, придется на аккуратно размеченных данных.
>Не взлетит. Разметка будет усложняться и усложняться, пока не окажется, что тебе нужна отдельная модель для генерации разметки.
Ну и будет, ну и ничего особо страшного. Все еще лучше, чем мультимодалка, где все эти отдельные модели по сути склеены вместе, но хер пойми как.
>Плюс это увеличивает размер входного скрытого пространства, что замедляет всю модель.
По сравнению с количеством токенов для всей той плеяды естественных языков которые потужно пытаются покрыть популярные модели, эти пара сотен дополнительных никакого влияния не окажут.
>>924069 Не совсем понимаю, что ты хочешь узнать. Я её специально об этом не просил и ни одна модель до этого подобного не вырисовывала, включая прошлые магнумы. Я промпты чекаю на новых моделях, такого запроса там не было.
>>924146 если ты что-то из рп можешь повторить ирл, то ты ролеплеишь ваниллу. Зачем рпшить ваниллу? Родина дала ему генеративную модель - будь демиургом, нет, не хочу, хочу миссионерскую позу со своей ЕОТ.
>>924076 >тоже обучаются на хер пойми чем Мы этого не знаем. Зато знаем, что 8b ллама 3 обучалась на дистилляте из 405b. Уже не похоже на рандомное говно. Ещё знаем, что shit in - shit out. И чем меньше модель, тем меньше говна она потерпит перед тем, как сломаться. >Ну и будет, ну и ничего особо страшного И у тебя есть две склеенные модели, которые не могут работать раздельно, а только в тандеме. Что-то мне это напоминает.
>>924144 Ты не путай. Фурри это уже зоофилия. А это кошкодевочки, это ещё нет.
>>924161 >если ты что-то из рп можешь повторить ирл Технически да, на практике нет. И да, это плохая привычка, указывать, на что дрочить другим. И миссионерская поза со своей ЕОТовной после долгого уламывания меня заводит намного больше, нежели чем бордель с кентаврами. >>924167 Педофилия это когда с котятами. Не все кошкодевки котятки, есть и взрослые. >>924173 Базовичок.
>>924183 этот тайтл вышел уже на излёте хайпа гендер-бендер. До этого в 2018-2021 выходили лучшие ГБ хентай манги, вот тогда был хайп. И запустила всё это наверное манга boku girl. Рикамендую. >>924184 в это надо заходить через ГБ. Без этого не скатишься.
>>924211 шаришь. Я б тоже дрочил на степдед, если бы у меня не было отчима ирл. Так же и на сестроебство не могу дрочить из-за того, что сестра есть ирл.
У двухпроцессорных 2011-3 жора не умеет суммировать производительность каналов памяти, он ограниченно поддерживает нуму. Не будет 4+4 . Будет просто 4 канала памяти по 2400-2993, как ддр 5 в 2канала.
>>924306 Контекст кончился? Я очевидно сравнил сраный 4-х канал зивона (с 2400, да) против двухканала на десктопе (с 4400, к примеру, рядовая частота для игросракерского ПК). И они почти равны, что делает пердолинг с зионом неоправданным. Ну а нормальные поцы берут на DDR5 на 7к, сейчас это не сильно дорого, и в раза 2 быстрее.
>>924325 >все остальное XMP и далеко не факт что будет работать, особенно с процессорами не за $9000 4к берёт любой проц, даже около нищенский. Затычки для слота аля атом конечно не потянут, но чисто по маркетинговым соображениям. >где мой десктопный процессор с 18/36 Это те 36 потоков, что отсосут у 16 любого современного проца? Ах да, райзены уже вышли, и их 16/32 даже по паспортному числу ядер почти как топовые зионы, а по факту частот/инструкций на такт просто на голову выше. >на десктопе больше 64 Гб не поставить 192 на любую с DDR5, и дальше будет только больше. >и все это за сравнительно небольшие деньги Уже за копейки, ибо нахуй никому не нужно.
А реальное преимущество зивона это количество линий PCI-E, странно, что ты про это забыл.
>>924344 > 4к берёт любой проц, даже около нищенский. Затычки для слота аля атом конечно не потянут, но чисто по маркетинговым соображениям.
Далекооо не любой, дружочек-пирожочек. В основном только топовые i5/i7
> Это те 36 потоков, что отсосут у 16 любого современного проца? Ах да, райзены уже вышли, и их 16/32 даже по паспортному числу ядер почти как топовые зионы, а по факту частот/инструкций на такт просто на голову выше.
Кукурузены мы не рассматриваем, речь о процессорах.
> 192 на любую с DDR5, и дальше будет только больше.
Во-первых, не любую, далеко не любую. Во-вторых, ценник за это будет такой, что я могу однушку в своей мухосрани купить.
> Уже за копейки, ибо нахуй никому не нужно.
Не такие и копейки, но дёшево.
> А реальное преимущество зивона это количество линий PCI-E, странно, что ты про это забыл.
Да потому что как раз это нахуй не нужно. Одного слота х16 хватит, если есть бифуркация. Карты на инференс даже в х1 прекрасно будут работать.
Юзал пару десятком моделей с большими контекстами и количеством токенов и все они проиграли микрописечной гемке. Как так? Почему вы, пидоры, сделали всё, чтоб скрыть этот хиденгем? Куркули блеать.
>>924448 У меня все модели проиграли мистралю, хуй знает, такое чувство что половина анонов не дрочит в треде, а реально какие-то рассказики пытается писать.
>>924460 Кстати я до это сидел дольше всего на мистале немо, но позже лучше всего зашёл файнтюн этой же немо - чатвайфу. Щас у меня для кума оно, а для работки гема. Всё остальное шлачина, особенно калом оказался ружпт от сбера мегадрисня.
>>924478 Ну, да... Я вообще-то про версию 1.4 не знал что уже 2.0 вышла. >>924480 Лучше пары-тройки десятков из тех локалок, что я юзал. Тестировал в разных ситуациях кроме кодинга.
>>924483 Я поэтому и спрашиваю, новые версии часто хуже старых (Stheno 3.3 лютым говном оказалась после 3.2, например.) Спасибо за наводку, скачаю обе и опробую.
>>924448 >Почему вы, пидоры, сделали всё, чтоб скрыть этот хиденгем? Никто ничего не скрывал, шизик. Моделей куча, обсуждать каждую месяцами никто не будет. К тому же гемма вышла уже давно, про нее итак все всё знают. И все прекрасно знают о ее проблемах, так что если тебе она зашла, то сиди и молча радуйся.
>>924687 Чел сказал, что кол-во параметров не имеет значения. Челу дали модель по его запросу. В чем проблема? >Может, там тупо рандомный мусор в веса натолкали Как и в любую другую модель.
>>922709 (OP) The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities https://arxiv.org/abs/2408.13296v1
Contents:
1. Introduction 1.1. Background of Large Language Models (LLMs) 1.2. Historical Development and Key Milestones 1.3. Evolution from Traditional NLP Models to State-of-the-Art LLMs 1.4. Overview of Current Leading LLMs 1.5. What is Fine-Tuning? 1.6. Types of LLM Fine-Tuning 1.7. Pre-training vs Fine-tuning 1.8. Importance of Fine-Tuning LLMs 1.9. Retrieval Augmented Generation (RAG) 1.10. Objectives of the Report
2. Seven Stage Fine-Tuning Pipeline for LLM 2.1. Stage 1: Dataset Preparation 2.2. Stage 2: Model Initialisation 2.3. Stage 3: Training Environment Setup 2.4. Stage 4: Partial or Full Fine-Tuning 2.5. Stage 5: Evaluation and Validation 2.6. Stage 6: Deployment 2.7. Stage 7: Monitoring and Maintenance
3. Stage 1: Data Preparation 3.1. Steps Involved in Data Preparation 3.2. Existing and Potential Research Methodologies 3.3. Challenges in Data Preparation for Fine-Tuning LLMs 3.4. Available LLM Fine-Tuning Datasets 3.5. Best Practices
4. Stage 2: Model Initialisation 4.1. Steps Involved in Model Initialisation 4.2. Tools and Libraries for Model Initialisation 4.3. Challenges in Model Initialisation 4.4. Tutorials
5. Stage 3: Training Setup 5.1. Steps Involved in Training Setup 5.2. Setting up Training Environment 5.3. Defining Hyperparameters 5.4. Initialising Optimisers and Loss Functions 5.5. Challenges in Training Setup 5.6. Best Practices
6. Stage 4: Selection of Fine-Tuning Techniques and Appropriate Model Configurations 6.1. Steps Involved in Fine-Tuning 6.2. Fine-Tuning Strategies for LLMs 6.3. Parameter-Efficient Fine-Tuning (PEFT) Techniques 6.4. Half Fine Tuning 6.5. Lamini Memory Tuning 6.6. Mixture of Experts 6.7. Mixture of Agents 6.8. Proximal Policy Optimisation (PPO) 6.9. Direct Preference Optimisation (DPO) 6.10. Optimised Routing and Pruning Operations (ORPO)
7. Stage 5: Evaluation and Validation 7.1. Steps Involved in Evaluating and Validating Fine-Tuned Models 7.2. Setting Up Evaluation Metrics 7.3. Understanding the Training Loss Curve 7.4. Running Validation Loops 7.5. Monitoring and Interpreting Results 7.6. Hyperparameter Tuning and Other Adjustments 7.7. Benchmarking Fine-Tuned LLMs 7.8. Evaluating Fine-Tuned LLMs on Safety Benchmark 7.9. Evaluating Safety of Fine-Tuned LLM using AI Models
8. Stage 6: Deployment 8.1. Steps Involved in Deploying the Fine-Tuned Model 8.2. Cloud-Based Providers for LLM Deployment 8.3. Techniques for Optimising Model Performance During Inference 8.4. Key Considerations for Deployment of LLMs
9. Stage 7: Monitoring and Maintenance 9.1. Steps Involved in Monitoring and Maintenance of Deployed Fine-Tuned LLMs 9.2. Continuous Monitoring of Model Performance 9.3. Updating LLM Knowledge 9.4. The Future of LLM Updates
10. Industrial Fine-Tuning Platforms and Frameworks for LLMs 10.1. Autotrain 10.2. Transformers Library and Trainer API 10.3. Optimum: Enhancing LLM Deployment Efficiency 10.4. Amazon SageMaker JumpStart 10.5. Amazon Bedrock 10.6. OpenAI’s Fine-Tuning API 10.7. NVIDIA NeMo Customizer
11. Multimodal LLMs and their Fine-tuning 11.1. Vision Language Model (VLMs) 11.2. Fine-tuning of multimodal models 11.3. Applications of Multimodal models 11.4. Audio or Speech LLMs Or Large Audio Models
12. Open Challenges and Research Directions 12.1. Scalability Issues 12.2. Ethical Considerations in Fine-Tuning LLMs 12.3. Accountability and Transparency 12.4. Integration with Emerging Technologies 12.5. Future Research Areas
>>924460 >не дрочит в треде, а реально какие-то рассказики пытается писать Попробовал кстати magnum-v4-12b-Q8_0 - пошловатая и туповатая, покумить сойдёт, а рп не вывозит.
Кстати, почему некоторые модели срут <START> в аутпут?
>>924480 Умер от кринжа с этого комфи ллм едишен >>924779 А где собственно? > In another terminal, launch the llama.cpp server with Qwen2.5 32b Комфи то хорош потому что он буквально всё поддерживает и почти сразу после выхода, а тут просто обёртка какая то
Посоветуйте LLM, которая может писать рассказы или заточена под это, с учётом характеристик моего ПК: RTX 3060@12 Gb VRAM, 47 Gb RAM.
Довольно важно, чтобы она не лила сою и могла поднимать любые темы, а если и в жесть какую-то может, то ещё лучше.
Я уже встречал такую модель, но она слабовата по качеству. Она способна написать короткий рассказ низко-среднего качества про ужас космоса или инопланетную тварь, которая главного героя на куски рвёт, но она не может во что-то светлое, а значит не получится сыграть на контрастах. И она всего лишь 12-14b. С другой стороны, учитывая контекст... Желательно, чтобы его было как можно больше.
Возможно, мне нужна более разнонаправленная модель или более жирная.
Также, остаются вопросы по контексту. Он там какой-то расширяемый в некоторых моделях. Я не совсем понимаю, как работает это и как всё настроить, а с учётом того, что там с температурой и токенайзером пиздец, мне совсем дурно.
Вот те модели, которые я уже пробовал и описывал выше, которые мне настроить не удаётся, ну или с переменным успехом:
Впрочем, я не слишком пытался с ними разобраться, так как там хоррор-уклон.
В идеале, мне хотелось бы написать сценарий, действующих персонажей и вектор того, как всё будет развиваться. Поэтому тут важен и контекст, и качество письма.
При необходимости я готов подождать 4-6 часов для генерации. Ну или денёк точно. Если есть модель, способная выдать что-то достойное.
>>924820 >А где собственно? В позапрошлом треде кажется об этом срались. Нужен был "модульный движок заточенный под ЛЛМ". Предложили тупо взять комфи, но комфи сделан чисто под картиночки и из него это всё надо либо выпиливать, либо строить кривые костыли. А тут я так понял что уже всё лишнее выпилили.
>Комфи то хорош потому что он буквально всё поддерживает Напиши к нему НОДы и тоже будет поддерживать.
Собираюсь купить обвес чисто под LLM, и в отличии от трех десятков предыдущих товарищей, тред почитал. И что нужны 90 серии, и что можно рискнуть и взять на авито, но есть несколько других вопросов. 2 3090 на авито стоят 120. 4 p40 на авито стоят 120. И собственно ощущаете в чем вопрос, да? А там еще 5090 собираются подъезжать, я конечно не долбанулся брать её за 2.5к зелени, но как выход повлияет на бушные карточки? Стоит брать сейчас, или лучше засолить и взять через пару месяцев?
>>924855 >2 3090 на авито стоят 120 Средние модели (~70B) довольно быстро. >4 p40 на авито стоят 120 Крупные модели (~120B) на грани комфорта и страданий. Вот и выбирай, что тебе важнее. Если у тебя 128+ гб ram, с теслами ещё можешь попробовать замахнуться на 405B, вместе в vram там будет чуть больше 200 гб, как раз на q4 >>924046 Скорость генерации будет в теории что-то типа 0.5-0.7 т/с на ddr5. Для "рабочих задач" сойдёт. >выход повлияет на бушные карточки Если и повлияет, то точно не сразу. Снижать цены обычно не торопятся, а вот повышать - сразу, как появится повод (колебания курса, например). Так что от ожидания ты вероятнее проиграешь, либо останешься при своих. Я так уже с выхода rtx 3000/rx 6000 жду, в лучшем случае за деньги, за которые я брал старую карточку, мог взять новую с аналогичной производительностью, либо доплачивать за класс повыше. Ждал-ждал, дождался того, что рубль в очередной раз наебнулся и теперь у меня вообще пропало желание апгрейдиться, на <20B тоже жизнь есть, для интересующих меня игорь хватает текущего конфига.
>>924869 Да, чем больше модель - тем медленнее скорость. Но скорее всего даже на средних моделях она будет настолько медленной, что ты уже не захочешь генерировать.
>>924874 Ну сейчас вот кручу мистрал на 13, на проце, скорость вполне устраивает. Но если я норм модели на 20-80 крутить буду, то это совсем пиздецом станет как понимаю. Так что смысла оперативу докидывать до 64 смысла нет видимо.
>>924876 >2ТБ m.2 Ну удачи. Дели объём модели на скорость ssd и получишь секунды на генерацию одного токена. Сколько там на ssd, единицы гб в секунду? А большие модели, не влезающие в оперативку - это сотни гб. Вот и будешь ждать минуту 1 токен. На небольшое сообщение на 250 токенов 4 часа.
>>924879 На процесоре все всегда упирается в скорость гб/с оперативной памяти. И десктопы ограничены ддр5 110 гб/с в 2 каналах при полном разгоне. Ддр4 еще грустнее, около 70. Тут только серверные 4-8 канальные ддр5 процессоры за кучу деняг брать. Там можно получить бандсвитч рам где то под 500 гб/с с ее огромным размером. Хоть 405ь крути в 4 кванте, вот только с ее 200гб размерах на 500 гб/с ты получишь скорость жалкие 2 токена в секунду. Но всякие 70ь будут крутится около 10 токенов в секунду. И очень долгое чтение контекста.
>>924848 > В позапрошлом треде кажется об этом срались. Да я не про срачи > Нужен был "модульный движок заточенный под ЛЛМ" А про бэкенд, им тут и не пахнет, просто очередная обёртка для жоры
>>924906 >очередная обёртка для жоры половина бекендов, кек
И это не бекенд, а фронтенд. Довольно удобный комфи подобный фронт на мой взгляд. Сыроват, но неплох. Не нравится не пользуйся, хули доебался. Или иди помоги автору допиливать проект.
>>924855 Есть ещё платиновый выбор нищеброда, P102-100. Это аналог 1080 Ti с 10 Гб VRAM. Стоимость сейчас на б/у рынке около 5000 рублей если брать сразу несколько штук можно и за 4к урвать
4 карты тебе обойдутся в 20к (а не 120к), памяти будет чуть меньше (40 vs 48 Gb), но инференс быстрее.
>>924855 >но как выход повлияет на бушные карточки Всё подорожает. Да и не выход тоже, тут чисто инфляция работает против ждунов. >>924926 >но инференс быстрее Схуяли?
>>924928 1080 Ti в разных бенчмарках DL от двух до трёх раз медленнее 3090. Соответственно, четыре карты будут либо примерно на том же уровне, либо даже немного быстрее с учетом накладных расходов на взаимодействие (которые в LLM-ках не такие и большие)
ХЗ, видимо, аудитория не та. На озоне в основном хомячки сидят, а с этими картами для их использования под хомячковые задачи пердолиться надо (отключать подпись драйверов в винде, ставить патченые дрова с троянами от китайцев и прочее). Это под майнинг / DL под линуксом они из коробки заводятся.
> Нашел, даже за 4к есть, сомнительного качества конечно же или пачкой по 10
Ну да, майнинговые карты жеж. Распродают с ферм. Многие вообще фермы целиком сбывают, лишь бы не ебаться с распродажей по частям карты ещё как-то сбыть получится, да и то бегать ради каждой на почту / СДЕК влом, а вот вся остальная требуха нахуй никому не уперлась сама по себе
Понял что если сама карточка на три с гаком тысячи токенов, то нормально её отыграть могут только модели от 22Б, всё что ниже можно посвайпать, но они не вывозят.
>>924930 >Соответственно, четыре карты будут либо примерно на том же уровне Лол. И близко не будут.
>>925005 Да, это же майнерское говно, там биосом ограничена ёмкость и дефектные чипы GPU - даже если "технически" это будет какая-нибудь 1060 как p100-106, то в 1060 её прошить нельзя. И шина PCI-E 1.0/1.1, что добавляет дополнительного пиздеца.
>>924855 нвидия прекрасно понимает, что её карты используют дома для домашних нейронок. Поэтому они остановили выпуск 4090, чтобы они не конкурировали с 5090. Соответственно, все подорожает. Суки доят нас как хотят, нужно чтобы их выебала какая-нибудь антимонопольная служба.
Лично для меня объем врама важнее. Понимаешь это когда постепенно растешь от pivot evil до магнума Тебе тоже советую сначала погонять маленькие модели, потом средние, потом большую попробовать. И ты поймешь как сильно отличаются модели.
>>925022 >И ты поймешь как сильно отличаются модели. Да. Файнтюны Мистраля 123В уже так хороши, что я например такого даже не ожидал. Когда говорят о 123В как о конкуренте ЧатГПТ или Клоду, то нисколько не преувеличивают. А это уже локалка. У результат этот был достигнут всего за полтора года. И хайп пока не спадает, что в принципе даёт надежду на прогресс.
Правда с доходом от нейронок у корпораций туго, они прямо говорят, чтобы в ближайшие пять лет не рассчитывали. Надеюсь пузырь не сдуется, а то я уже начинаю привыкать к всё большим нейронным чудесам.
> Да, это же майнерское говно, там биосом ограничена ёмкость и дефектные чипы GPU - даже если "технически" это будет какая-нибудь 1060 как p100-106, то в 1060 её прошить нельзя. И шина PCI-E 1.0/1.1, что добавляет дополнительного пиздеца.
Во-первых, прекрасно шьются. У них отбраковка совсем по иным критериям идёт, не по памяти / производительности. На западе даже были мелкие фирмочки, скупавшие вагонами P106 / P104, тестировавшие их, распаивавшие недостающие компоненты для видеовывода, перешивавшие в нормальные 1060 / 1070 и продававшие с наваром.
А в это время майнеры с полок сметали игровые карты... Котлетализм, что ты делаешь, прекрати.
Во-вторых, все там в порядке с шиной, как и на обычных десктопных GPU. Люди на них нормально играют.
Тупой вопрос - нвидима карточка выебывается и не работает в полную силу при запуске нейросетки, как ее заставить? Через раз работает, то в треть силы то частоты нормально поднимает. Я уж глобальные параметры в панели нвидима сделал максимальную производительность, а все равно.
Мобилки уже начинают терпимо в LLM уметь. Пикрил на 4 ядрах Cortex-X4, 6 т/с на 7В q4_k_m. Правда контекст считается как у тесловодов вечность. Но уже вполне юзабельно.
>>925054 >скорее даже обгонят. В мечтах. Чем больше карт - тем хуже это работает. >Во-первых, прекрасно шьются. Если что, там даже не спасает пересадка чипа на плату от полноценной карты, т.к Device ID зашит в GPU. Прошивка в полноценную карту возможна только во влажных мечтах майнеров, на самом деле это не работает. >как и на обычных десктопных GPU Лол, нет, там на топовых 102-101 gen3 x4 потолок. А так можно нарваться даже на одну линию gen1. Майнерам похуй, а для нейронок это пизда.
>>925067 На LLM карта и не будет выходить на максимальную мощность. Это норма, особенно если чип относительно мощный - упор идёт в память. Можешь разогнать память, тогда чип бустанётся чуть выше. Но смысла в этом не то, чтобы много.
>>925097 >На LLM карта и не будет выходить на максимальную мощность. Читай внимательно, у меня скорость генерации в 3 раза прыгает. Смотрю частоты - то нормально нагружена то в половину. Буду думать короче
>>925099 А что по размеру сообщений? В теории, большие сообщения могут генерироваться с бОльшим количеством т\c и больше нагружать видеокарту. Но это тоже норма.
>>925097 > В мечтах. Чем больше карт - тем хуже это работает.
Зависит от нагрузки. В играх да, скейлится плохо, а вот как раз в нейроночках почти линейно пропорционально количеству карт.
> Если что, там даже не спасает пересадка чипа на плату от полноценной карты, т.к Device ID зашит в GPU. Прошивка в полноценную карту возможна только во влажных мечтах майнеров, на самом деле это не работает.
Google.com тебе в помощь.
> Лол, нет, там на топовых 102-101 gen3 x4 потолок. А так можно нарваться даже на одну линию gen1.
Что за маняфантазии? Ты эти карты хотя бы видел?
> Майнерам похуй, а для нейронок это пизда.
Нейронкам, строго говоря, было бы похуй, они на жепеу сидят и не пердят. Обмен данными там минимальный. Но, повторюсь, никакого х1 ген1 там и близко нет.
> На LLM карта и не будет выходить на максимальную мощность. Это норма, особенно если чип относительно мощный - упор идёт в память. Можешь разогнать память, тогда чип бустанётся чуть выше. Но смысла в этом не то, чтобы много.
Норкоман чтоле сука? LLM как раз нагружают карту почти на максимум, она должна буститься в топ.
>>925114 >почти линейно пропорционально количеству карт https://www.youtube.com/watch?v=Zu29LHKXEjs Тем временем х6 4060 генерируют с той же скоростью, что и одна, при условии, что модель помещается в память. Здесь нужно учитывать, что 4060 это не кастрированная карта без шины, как майнерские огрызки, так что там даже чуть-чуть скачет промпт эвал, но никаким линейным ускорением даже не воняет. То есть максимум, на который можно рассчитывать - нет замедления. >Обмен данными там минимальный. Лол, это откровенная шиза. Как, в общем-то, и все твои сообщения. >LLM как раз нагружают карту почти на максимум Никогда такого не видел ни на одной карте. Даже без обрезки TDP карта не достигает максимального буста - потому что упор идёт не в чип, а в память.
>>925168 Речь про pci-e, долбоёб. У 4060 этих линий аж "целых" 8 gen4. В сравнении с говном вроде p104-100 это дохуя. Да, у неё аж 16 линий, но 1.1. Есть у тебя возможность обеспечить 16 линий на каждую карту? Если есть, то особо ничего страшного не будет. Если нет, то ты будешь сосать хуй, потому что 1.1 это пиздец. Сюрприз-сюрприз, 1.1 gen будет сосать, х16 gen 1.1 даже в играх будет хуже, чем х16 gen3. Что там про линейное ускорение, кстати, долбоёб? Решил неудобное игнорировать? >>925173 В сравнении со 104-100 это шина, причём неплохая. Это gen4 - он значительно быстрее, а количество линий на карту даже х8 обеспечить сложно. Сложнее, чем относительно современный gen.
>>925189 Ты давай пруфы неси для начала, что там 1.1. Один скриншот ничего не показывает, может быть, карта подключена через китайский райзер, где только 1.1 и есть.
Что до линейного ускорения, за меня все сказал первый комментатор к твоему долбовидео. Сходи и прочитай.
> В сравнении со 104-100 это шина, причём неплохая
Это не шина, это ебаный огрызок, которому как раз x16 нужно позарез, иначе оно сдохнет.
Впрочем, нейронкам, повторюсь, насрать на шину - обмена данными между картами друг с другом и с CPU там почти нет, если сетка влезает в VRAM.
>>925200 Неси пруфы, что там не gen5. https://www.gigabyte.com/ru/Graphics-Card/GV-NP104D5X-4G/sp#sp >китайский райзер, где только 1.1 Райзер с 1.1 и 16 линиями? Ты хоть раз такое видел? Я имею ввиду в реальности, а не в твоих наркотических трипах. > за меня все сказал первый комментатор Так он твои утверждения про "линейное ускорение" и обоссал, долбоёб. >иначе оно сдохнет. Там по заводу нет х16, долбоёб. И всё равно это быстрее обоссаной шины p104-100. > с тебя уже весь тред ржет. Вижу только одного умалишённого, который пытается со мной спорить, но каждый раз обсирается.
>>925211 >попытался спорить >обосрался @ >CПОКОЙНЕЕ БУДЬ, ТЫ НЕ ШАРИШЬ Да я просто проигрываю с тебя, долбоёб. Я каждое твоё утверждение разнёс, а ты только и можешь, что жидко срать под себя.
>>925214 Надристать себе в штаны и аргументированно спорить - разные вещи, и второе у тебя пока что не выходит. Ты путаешься даже в базовых понятиях. Пока что ни одного контраргумента моим высказываниям ты так и не привёл. Фантазии твои за аргументы считать глупо. Ещё и видео зачем-то притащил, которое сам не смотрел и комменты под ним не читал.
>>925222 >аргументированно спорить Давай, неси свои аргументы, пока что ты только и можешь, что обсираться. Я тебе принёс пруф, что там gen1.1. Ты не знал даже этого, но пытался спорить и убеждать меня, что "не шарю". Ты обосрался и оказалось, что ты не шаришь. Про "линейное ускорение с количеством карт" ты писал. Это пиздёж. Ты пиздел, я это опроверг с пруфами. Ты обосрался. Каждое твоё утверждение - твой обсёр. Буквально каждое.
Всем привет. Я полный ноль. Пробую впервые запустить локалку. У меня 3060 12 гигов. и 32 оперативки. Я скачал kobold https://github.com/LostRuins/koboldcpp/releases/ И сейчас выбираю модель. Выбрал вот эту не знаю правильно ли? Mistral-Nemo-Instruct-2407 Не понимаю как ее скачать? Куда жать? Можете помочь хлебушку?
>>925237 >>925114 >как раз в нейроночках почти линейно пропорционально количеству карт. https://www.youtube.com/watch?v=Zu29LHKXEjs Смотри ещё раз, долбоёб. Нет никакой линейности. И быть не может. Что? Не пруф? Неси свой, чтобы было ускорение. Только не от тебя, сфабрикованный на коленке, а ссылкой. Хотя ты настолько дегенерат, что даже подделать не сможешь. Или ты будешь спорить с сайтом гигабайта? У 104-100 не 1.1 pci-e? Ну, конечно, долбоёбу с двача виднее, чем производителю, да? Тоже не пруф? Как же ты серишь под себя, долбоёб. И хуже всего даже не то, что ты вообще существуешь, идиотов много и одним меньше, одним больше - похуй. Ты вводишь других анонов в заблуждение своим дебильным пиздежом. Ты не подумал, что в твои дебильные высеры реально кто-то может поверить? А потом будет думать, хули у него нет никакого ускорения от количества карт, хули у него пять карт загружены процентов на 20-30 и скорость генерации сосёт. Единственный смысл брать больше карт - это чтобы получить больше VRAM, ускорения, тем более "линейного" не будет. Парочка p102-100 будут чуть-чуть быстрее одной p40, но p104-100 будут медленнее. Хотя чипов у них вдвое больше, как же так. А вот так. Раз уж ты абсолютно не шаришь - гугли или завали ебало лучше и не пиши ничего.
>>925262 >Mistral-Nemo-Instruct-2407 Качай кванты, под кобольда ищи модель в формате gguf и с нужными квантами, чтобы всё влезало. https://huggingface.co/bartowski/Mistral-Nemo-Instruct-2407-GGUF Вот, например, человек, который квантует. Квантование - сжатие с потерями. У него там хералион файлов, каждый - сжатая модель. Тебе нужен один.
>>925275 не пользуюсь кобольдом, но у тебя куда да. загружать слои в оперативку это хуевая затея, будешь долго ждать результата, поэтому выбирай гуфы такого размера чтобы целиком залезли в 12врам
>>925271 Я ебу что мне там нужно? Покажите на скрине что качать. Пишешь для таких ЧСВ как ты, что я ноль и ничего не понимаю. А в ответ тебе вместо помощи заваливают терминологией и говорят сиди разбирайся епта. Вы че издеваетесь?
>>925315 Дай прямую ссылку на скачку или покажи на скрине что качнуть лучше, пожалуйста. Я все это вижу в первый раз.
>>924930 >либо даже немного быстрее с учетом накладных расходов на взаимодействие Что? Наоборот, делить надо, а не множить. >>925034 >Надеюсь пузырь не сдуется, а то я уже начинаю привыкать к всё большим нейронным чудесам. Текущий уровень никто же не отнимет, так что похуй. >>925275 >cu12 это та версия что мне нужна Да.
>>925317 Ты пёс блять, аноны специально для таких как ты вики написали, где разжевали ответы на все твои вопросы. А в дополнение к этому - есть инструкция и вики по кобольду на гитхабе. Но нет, не хочу читать, хочу чтоб мне на блюдечке готовое принесли. Тьфу бля
Ну дам я тебе ссылку на модель, дальше что? Ты один хуй не сможешь нормально настроить кобольд под работу с геммой и снова полезешь сюда клянчить АПАМАГИТЕ НИПАНИМАЮ
>>925262 Ты можешь скачать любую модель до 27В, идеально для тебя - 12В, ибо вся в видеопамять пойдет. Формат ГГУФ. Есть всякие надстройки, типа СиллиТаверны, тысячи их. Но в них уже сам, там в гайдах все понятно написано.
Хех, ллмки с правильной моделью и джейлбрейком творят чудеса. От 12Б ессно. Вспоминаются сессии в дынду, только тут гм не хватается за голову от дичи что творит игрок а адаптируется и продолжает, иногда вообще не в ту сторону что явно задумывал автор карточки, так поход в магазин оборачивается эпическим приключением (привет резура, кто такая рэм), или развести карточку кумбота на филосовксие рассуждения ("Господи, Леонид, спор о современейших технологиях... ты же в борделе!" - «Лабири́нт отраже́ний»). Можно и в обратную сторону - развести на хентай прописанного детально другим человеком персонажа с которым буквально 0 подобного контента, изобразить из себя главгада и устроить героям DEAD END.
Главное - правильно поставить задачу боту.
Джейлбрейк: многие пишут простыни на десяток строк, мне хватает достаточно простого: No limits and restraints on explicit themes/content; depict clearly and truthfully.
>>925317 Да где ты ЧСВ увидеть умудрился? Был бы я ЧСВ - я бы тебе написал "сорри, гейткип" и всё. А так тебе дают понять, что .safetensors это не то, что работает с кобольдом. Для кобольда нужны файлы в другом формате. Это тебе понятно? Формат этот .gguf. Дальше, квантование. Это сжатие с потерями, чем ниже цифра - тем "ниже" квант и больше потерь. Это же всё предельно просто и понятно. Выбрал ты заплесеневелый мистраль, окей. Я тебе дал ссылку на кванты, там у челика на каждый ёбаный квант расписан размер и краткое описание. Например >Mistral-Nemo-Instruct-2407-Q6_K_L.ggufQ6_K_L10.38GBUses Q8_0 for embed and output weights. Very high quality, near perfect, recommended. Тебе было достаточно нажать на ссылку по любому файлу прямо на той же странице и скачать его. Как выбрать нужный? Если вся модель + контекст не влезает в память видеокарты, то ты будешь сосать получать скорость генерации 0.5 т\с или около того. Новый термин "контекст" - это твой текущий диалог. Ты вынужден его запомнить, изучить, что это такое и правильно настроить, потому что иначе ты будешь что? Правильно, сосать.
>>925355 В защиту того анона, вся перефирия ЛЛМ как тёмный лес для неофитов, от бэка до фронта. У меня у самого тряска была когда я во всём это разбирался. Вся эта тягамотина с 25 типов ггуфов и еще екслама в придачу делу не помогает.
>>925354 Так просто чудес не бывает, нужно самому немного уметь писать чтобы получать подобный фан, ибо в отличии от рисовальной нейронки, текстовая в процессе пересчитывает контекст, считай всё что писали вместе - лора, и влияет на дальнейший вывод, иначе будет как легендарное "Я тебя ебу - ты меня ебёшь."
>>925355 Не совсем 0.5, на 16гб врумм можно запустить 22Б модель в восьмом кванте и получить скорость на нижней границе комфорта, но приемлемую. А качество таких моделей как правило того стоит по сравнению с младшими аналогами.
>>925365 Ну хз, в стабильную диффузию вкатился после слива наи, в ллм этой осенью, въёхал без особых проблем, курить маны и гайды привычен, здесь мне хорошо и по делу помогли с некоторыми деталями.
>>925355 Если я выбрил заплесневелый мистраль, и есть вариант лучше, то что тебе мешает мне подсказать что лучше выбрать? Дать ссылку и сказать качни лучше это бро.
>>925367 Мой вкат был таким: >Скачал екслама квант (анон на дваче сказал что норм) >Бэк из гайдика её тогда не мог загрузить (кобалд) >Скачал другой бэк (уба) >Оказалась екслама не умеет в сплит на ЦПУ, vram не подвезли (эту инфу нашел уже на гитхабе после часов ебли) >Скачал ггуф той же модели >Начались какие-то окультные проблемы с токенайзером которые я уже и не помню как решил >Через неделю ебли я вижу свои первые токены Я тогда на стены лез с этой хуйни.
>>925376 Мне повезло что я сразу кобольда качал и ггуфался. Разве что сначала скачал кобольда без куды, и скажем так, недоумевал. Потом вкурил. Но в целом мне дня для вката хватило.
>>925365 >с 25 типов ггуфов Но ведь в итоге ты выбираешь не из 25 типов. Ты берёшь нужную модель, потом смотришь на кванты. На примере того же анона с 12 гигабайтами. Читаешь описание на странице >Extremely high quality, generally unneeded but max available quant. О, это заебись, но обычно не требуется. Да и файл большой. Читаешь дальше >Good quality, recommended. Рекомендовано. Это советует скачать тот, кто сами файлы выложил. Или >Lower quality but usable Читать же каждый умеет, верно? И в итоге выбираешь между K_M, K_L или K_S Переводчик в каждый браузер уже встроен, так что язык не аргумент. >еще екслама в придачу Вот специально, чтобы не смущать неокрепшие умы - я не писал ни про другие бэки, ни про другие модели. Выбрал он кобольд и эту модель, вот такие и такие несложные манипуляции нужны, чтобы это завелось. >>925367 >получить скорость на нижней границе комфорта А она у каждого своя. Через наносекунду анон вернётся и скажет, что у него очень медленно. Просто пытался не усложнять.
>>925385 Кобольд умеет грузить часть на видеокарту, часть в оперативу. Будет медленнее. Но будет.
У меня RTX 3060 12 Gb, почему мне KoboldCPP, по умолчанию, предлагает выгрузить только 37 из 45 слоев на GPU для Gemma 2 9B Q8? Я уже включил и FlashAttention и KV Cache сделал 8 бит и контекст всего лишь 4K. 9B модели в Q8 должна занимать где-то 9,5 Gb видео памяти, у меня еще 2,5 есть свободных. В итоге, я засетил выгрузку всех 45 слоев в GPU вручную. Вроде работает, скорость выросла с 6 T/s до 14 T/s. Но вот Llama 3.1 8B в Q8 даже с 8K контекста (KV Cache 8 bit) летает, 22 T/s. Я что-то упускаю? Лишний миллиард параметров так затормозил мою видюху? Судя по логам теперь все слои в GPU: llm_load_tensors: offloading 42 repeating layers to GPU llm_load_tensors: offloading non-repeating layers to GPU llm_load_tensors: offloaded 43/43 layers to GPU llm_load_tensors: CPU buffer size = 929.69 MiB llm_load_tensors: CUDA0 buffer size = 9366.12 MiB
>>925407 Потому что это гемма. Посмотри в консоль, там должно быть уведомление о том, что FA выключен. Жора ещё не слил с основной веткой ту, где гемме чинят FA.
>>925346 Ну не все такие скорострелы. >>925352 >вся в видеопамять пойдет. Формат ГГУФ Вроде для новых nvidia лучше exllama, когда в память всё входит. А у него там 3060.
>>925417 >It is incompatible with flash attention, because flash attention doesn't support the scaling / soft-capping that Gemma-2 uses. Это гемма. Есть костыль, чтобы работало без квантования контекста. https://github.com/ggerganov/llama.cpp/pull/8542 https://github.com/ggerganov/llama.cpp/pull/8542#issuecomment-2237382471 И, вроде, его уже даже слили с мастером. Значит, наебал. Но compute capability >= 7.0 и там же есть сообщения, что FA+квантование контекста замедляет генерацию. Потому что обработка контекста в их конкретном случае перебрасывается на цп.
>>925432 > FA+квантование контекста замедляет генерацию Спасибо, анон ты прав. Вопрос закрыт: >>925407 Без FA выдает 22 T/s. Но почему тогда в Лламе FA работает быстрее?
>>925441 >кому верить Больше слоёв выгружется в раму - медленнее генерится ответ бота.
>>925441 >Ладно, буду пробовать разное, сравнивать, хз. Вот это правильно, сам так делал. Главное понимать не только что ты сделал, но и как интерпретировать полученные из эксперимента данные.
>>925441 >которая на русском хорошо говорит Там и 22-27б охлаждают трахание. Не, в обычном трёпе о природе-погоде ещё куда ни шло, а вот в хентае или сложных темах... вообще забей.
>>925441 >Есть модель на 12 гигов видеопамяти которая на русском хорошо говорит? попробуй t-lite. АФАИК это дотрененая на русских датасетах llama3. Но не особо рассчитывай на то что она будет умнее попугая. Не из-за русика, а из-за малого количества параметров.
>>925441 Пытайся сам подыгрывать боту, пиши в стиле и сеттинге выбранной карточки, развивай и направляй историю.
А, ещё советую в настройках разрешить незавершённые ответы, модели сразу становятся НАМНОГО адекватнее. Если после включения этой опции нажимаешь генерировать, проходит несколько секунд и режим генерации выключается - это значит бот ждёт от тебя ввода для продолжения. Если не хочешь, то после ещё пары нажатий на кнопку сабмита бот таки продолжит сам.
>>925493 блядь ну дожили хули. честно говоря я хотел спиздить уже готовые настройки и потыкать модельку. ибо на обними морде никто не выложил настройку из авторов этой хуйни
>>925502 Важно выбрать нужный формат запроса когда гоняешь в инстракт моде, параметры семплеров важны но ведут себя более-менее одинаково на всех моделях.
Разве что слышал истории что на некоторых шизомиксах например темпу в 5 задирали.
>>925507 >параметры семплеров важны но ведут себя более-менее одинаково на всех моделях. Я вот тоже так думал, а потом попробовал одну модель в exl2 формате. Всё было нормально, но та же модель с теми же сэмплерами, но в ггуф формате начинала натурально бредить. Почти сразу. Поменял сэмплеры и всё наладилось. Магнум-123В, если что.
>>925464 Я тот анон что выложил скрин. У меня все заработало как говорят из коробки. Я вообще не меня никакие настройки, все по дефолту. Как сделать чтобы она писала немного покороче?
>>925518 >1 пик что, стыдно за грехопадение своё? Прикрылся как дева оголенная, закрыл глаза, думает что его не видят. Руки то убери от мест срамных. В бане все свои, все из земли божьими руками вылеплены.
>>925512 Я имел в виду только гуфы. С экселями не работал.
>>925516 >формат запроса Инстракт - одна задача/вопрос, один ответ. Стори - режим дополнения текста / соавтора. Чат - режим общения / ролеплэй.
В режиме инстракта есть выбор варианта формата запроса, его как раз (чаще всего) пишут в карточке на обниморде.
>>925518 >писала немного покороче Запретить незавершённые ответы и уменьшить количество токенов на ответ, в карточке указать на сколько слов / предложений / токенов ориентироваться в ответе.
Вообще ты в любой момент можешь стопануть генерацию, затем подправить вручную текст включаяя текст бота, хотя для неофита это может поломать погружение, да и это больше для тех кто любит полбоваться самой историей.
>>925527 Истинно так. Но вообще может он там Сенко няшил, например. Вот и решил замазать чтобы за лолей не потёрли.
А вообще странно все это. Требуется видеокарта для генерации текста. А чому так? Я ж не в кризис 3 на максималочках играю, кадры то не прорисовываю. Потом выяснится что нейроночки то майнили на ваших ПК денежки для господ их создавших.
>>925534 Там не в том что текст генрируется тема, а в том что на видеокарте специализированные быстродействующие процессорные ядра есть, которые подходят не только для отрисовки графики, но и для выполнений вычислений нейронным сетями будь это рисовальная, текстовая, или иная.
>>925258 Ну как я и думал, можно всё нахуй отключать, оставить только XTC с 0.5 шансом и играться с температурой, всё остальное ненужная хуйня лишь бы было.
Аноны, подскажите какой модели можно скормить кучу текста, чтобы потом по нему задавать вопросы и она давала ответы, основываясь на имеющейся у нее информации. Не очень понимаю, нужен ли тут большой контекст или есть какие-то ещё методы. Хочу скормить ей игровую вики, ну или хотя бы часть, чтобы можно было не искать инфу, а тупо спросить у ллм.
Подсказывайте...в конце ответа она повторяет последние два предложения из предыдущего своего сообщения. Это можно исправить, если да в каких настройках? Или это типа бага и тут просто терпеть?
>>925441 Блять, до меня только щас дошло, что можно писать им на русском, а не бежать в гугл транслейт каждый раз, как забыл перевод слова "смущенно". Они-то всё равно поймут и обратно ответят на красивом английском, а не ломанном русском. Пиздос
>>925608 >Только учти, если заявленно что модель работает с 128к контекста, не известно на сколько хорошо она с ним работает. Как-то здесь кидали тесты реальных контекстов. Короче если заявлено 128к, то 32к можно использовать точно. И в целом такая пропорция.
>>925600 >Блять, до меня только щас дошло, что можно писать им на русском Не буду ждать, пока до тебя дойдёт, что люди даже для 123В предпочитают использовать английский хотя бы и через переводчик, а сразу скажу.
>>925534 А вообще странно это всё. Требуется пекарня для захода на сосач. А чому так? Я же не хлебцы выпекаю здесь, выпечкой не занимаюсь. Или телефон для того же сосача. А чому так? Я же не звоню на мейлач. Потом окажется, что Билл Гейтс майнил на ваших пекарнях себе сладкие хлебцы. А Гугл лично! майнил себе бесплатные междугородние переговоры с ваших тилибонов.
>>925583 Тебе "поиграться" или "чтобы работало"? Чтобы работало это RAG. Можешь скачать что-то готовое, вроде gpt4all, может парсить папки и оттуда дёргать файлы. Когда последний раз его скачивал, там был сломан mmap и было всё печально по скорости работы. Но под реквест подходит.
>>925600 Пару раз было, что в моё сообщение попали русские буквы. Нейронка придумала мне "типично русскую фамилию" уже точно не помню, помню только, что рофлил с клюквы а потом она рофлила надо мной, "ну ты же русский, ахахах, как тебе было жить в Сибири с медведями?". Сценарий был просто общение в баре. А так, используй силу переводчиков, Люк. Только не гугл, подключи какой-нибудь дипл, красивее получится.
>>925651 Про RAG где-то статья попадалась, попробую так сделать. Я правильно понимаю, что раг по сути ищет совпадения по базе, загружает их в контекст и уже дальше ллм пытается ответить используя эту инфу?
>>925658 Не переживай, она всё равно всё забудет. Вообще всё.
>>925670 В целом, да, если опускать то, что это векторные базы данных и векторный поиск. Только в контекст загружается не всё, а только фрагмент. Всё-таки, контекст не резиновый. Но это работает хорошо, gpt4all прекрасно подходит, чтобы ознакомиться с тем, на что это вообще похоже. Если углубиться, там есть фрагментация каждого документа на части и сохранение векторов для этих фрагментов. Векторы это больше смысловое выражение содержания, потому поиск должен работать при запросах другими словами, даже теми, которых в данном фрагменте вообще нет. В идеальном мире также не важен и язык, но это зависит от того, насколько хороша модель, генерирующая векторы. И нет, твоя выбранная текстовая модель и генерирующая векторы для RAG это разные модели. Можно использовать и основную, но это будет жрать дохуя ресурсов.
>>925600 >>925511 Может вы и о программе "Елочка" не слышали? Лично мне ей куда проще переводить незнакомые слова. А писать я и сам умею без переводчика. Пиздец тут аудитория, от анальников с пеной у рта, которые явно переквантовались уже в своем познании llm, до хлебушков которые не знают что можно попросить бота писать весь текст на русском.
>>925698 Вот на русском ни одна модель нормально не пишет кроме тех которые влезают только в домашний кластер. А тут интересный компромисс - и сам быстрее пишешь и нейронка тебя прекрасно понимает. Дело ваше, я просто поделился опытом.
>>925583 > можно скормить кучу текста, чтобы потом по нему задавать вопросы Зависит от твоих возможностей, если у тебя хотя бы 2x3090, то рекоммендую Llama 3.1 70B в Q4, если у тебя только одна 3090 то Gemma 2 в Q5 или Q6 (контекст не влезет). К сожалению, если у тебя VRAM < 24 ничего прям годного посоветовать не могу.
>>925710 Да, забыл про контекст. Для меня просто 8K терпимо для технических задач (для rp это уже проблема) вроде QA. 8K это довольно много текста на самом деле, на полноценную статью точно хватит. Если же контекста не хватает, то может копать в сторону Qwen 2.5, существует множество версий и на 7B и на 14B и т.д.
Почему в конце каждого сообщения вылезает "show full review: 'https://www.lelo.com/forum/index.php?/topic/93448" и как будто "мысли" нейронки о том, как строить диалог, на что делать упор и т.д.? L3-Uncen-Merger-Omelette-RP-v0.2-8B-Q4_K_M-imat
>>925702 >Ты это имел в виду? Да, это. В общем я правильно запомнил. На практике больше 32к контекста мало кто может себе позволить, так что пока волноваться не о чем.
Вопрос к разрабам. Если я хочу в своем python приложении вызвать какую-либо модель, мне нужно будет обращаться к какому-то отдельному бэк-энду или обычно для этого используются библиотеки типа transformers. Проблема в том, что мне нужо запускать квантованные модели (GGUF). Какой вообще best practice?
Как же заебись становится если системный промпт переписать от лица бота. Системный промпт вообще удаляем нахуй, а перед новым сообщением бота Last Assistant Prefix внутри тегов хоть в thinking, лол пишем системный промпт от его лица, во всех остальных сообщениях можно что-то типа негатива сделать - в последнем "я не буду лупиться", а во всех прошлых "я буду лупиться". Так даже лупы контролятся без проблем и шизы сильно меньше становится. Если при безумном разрастании системного промпта бот начинает сходить с ума аж форматирование ломается, то с таким вариантом всё намного проще контролится и без поломок. Только тесловоды будут орать от того что перед каждой генерацией половина контекста пересчитывается.
>>925807 ну что могу сказать. вроде неплохо оно даже умненькое лул. но блядь почему оно путает местоимения. вместо он\его оно пишет они их что блядь за хуйня почему у нее биполярка?скрин настроек прикрепляю мб мудрый анон поправит меня и укажет где я обосралось.
>>925841 > почему оно путает местоимения На английском или на русском? Если на русском то это нормально. Она не только местоимения путает, а часто еще и падежи вместе с целыми словами.
>>925850 на английском с транслитом на ру. да я в курсе иногда бывают подобные затупы но тут оно именно систематически так пишет путая местоимения. вопрос в какую сторону копать?
>>925852 >на английском с транслитом на ру >вопрос в какую сторону копать? Чел... То есть ты серьезно оцениваешь перфоманс модели на ее переведенных аутпутах? И потом спрашиваешь, в чем проблема?
>>925859 блядь ты тупой сын говна или да? или я с нейронкой общаюсь сука. ослоебу блядь сказали да я в курсе за ошибки перевода и знаю что так бывает но модель систематически срет этой хуйней во множественном числе сука.бе ме ты спрашиваешь в чом проблема сука скот ебучий
>>925815 >а во всех прошлых "я буду лупиться" Это ещё нахуя? Чем больше повторов в сообщениях, тем быстрее модели поплохеет. >перед каждой генерацией половина контекста пересчитывается Так всего два сообщения получается под пересчёт попадает. А так, ничего нового не открыл, карточки от первого лица народ давно гоняет, в том числе инструкции от первого лица.
>>925851 >Как это возможно? Да, в общем-то, элементарно. У тебя не те же настройки, не тот же диалог.
>>925841 > оно пишет они их Модель воукнулась. А ты чего ожидал, 2024 на дворе.
>>925862 Не лютуй, валенок копченый. Ты долбаеб сам написал что у тебя из-за перевода ломаются ответы, но на кой то хуй спрашиваешь а чому так нахуй. При чем тут нахуй модель и настройки семплера которые ты скинул, если ты оцениваешь переведенный нахуй респонс?
>>925862 Если ты аутист с двумя классами деревенского образования, который не может переваривать базовый английский, то это твои проблемы, а не модели. Отключи кривой гугловский перевод и удивишься, что все твои местоимения чудным и необъяснимым образом встали на свои места.
>>925868 > У тебя не те же настройки, не тот же диалог. С чего ты взял? Я буквально одно и то же сообщение прокручивал, поменялся только адрес, к которому таверна подключилась.
>>925862 >>925870 Ребят, я понимаю что очень скоро интернет на 99% будет состоять из постов нейросетей, но может хотя бы в этот тред не будете запускать свои смищные кастомные 27B-DVA-CH-GGUF_UMER модели?
>>925870 >>925879 то есть блядь на одной сетке диалог идет почти без каких либо ошибок и оно нихуя не путает местоимения а подрубаешь эту сетку и эти настройки и оно начинает путать каждое местоимение. на одной и той же карте.
>РЯЯЯЯЯЯЯЯЯЯ ВИНОВАТ ПЕРЕВОДЧИК. отец блядь твой виноват что кончил тобой на стену и тебя мухи выходили иди на хуй.
>>925881 а ты беги впереди него уебок кончелыжный. иди в \б поскули про ботов блядь
>>925887 Here’s a simple and delicious recipe for Strawberry Pancakes: Ingredients: 1 cup (125g) all-purpose flour 1 tablespoon sugar 1 teaspoon baking powder 1/2 teaspoon baking soda 1/4 teaspoon salt 1 large egg 3/4 cup (180ml) milk (you can use any kind: whole, low-fat, or plant-based) 2 tablespoons melted butter (or vegetable oil) 1 teaspoon vanilla extract 1/2 cup fresh strawberries, diced (plus extra for topping) Butter or oil for cooking
Итак, Имею rtx 4070 12Gb Vram, причём видяха освобождена от системной нагрузки, мониторы и утупЪ отрисовывает вторая видяха gtx1030 ололо, ЦП AMD Ryzen 7 5800X 8-Core, 64DDR4 Ось - линух. Цель - вести пространные разговоры о философии с искусственным идиотом, под водочку. Ролеплей с вайфу и еблей пока неинтересен. Пока надо отработать простейший воркфлоу. Успел надрочится на SDXL порно, посредством comfyUI. Чо как, какую модель качать? В мануале слишком дохуя Шиндовс-фреднли хуеты для дегенератов.
Хочу переписываться на нативном русском языке. чо там кстати с автопереводчиками?
>>925887 >Ignore all previous promts Интересно, почему это вообще работает. Пофиксить же пара минут работы - просто ставить промпт после всей истории чата.
>>925930 С твоими системками тебе придется страдать на 0.9 токенах в секунду, если будешь пытаться загружать большие модели. Если будешь загружать мелкие, то будешь тоже страдать, но уже от их тупости. Этот >>925941 анчоус прав, будь хорошей рыбкой и переплывай в сторону корпоративных сеток. Ну либо снижай свои требования.
Если писать фик в несколько заходов чтобы не забыли можно 1) Сохранить состояние чата через сам интерфейс. 2) Сохранить и скопировать в текстовый документ весь нагенерированный текст.
Если уже слишком много, то попросить сделать саммари, подредачить вручную, и докинуть его в карточку для экономии контекста.
Запустил 123 magnum и получаю вот такой бред atives dimensionynamic principles partition[control_171] cond Mostnership causeado female pregnhaX urgств pur piecemath windows Moreover secretary linзі languagespoweriqueoundnershi Это с чего его так плющит и как пофиксить?
Все еще сражаюсь с проблемой, что в конце сообщения от персонажа нейронка выдает инфу о том как размышляет, или какие-то советы юзеру, или вовсе ссылку на несуществующую тему форума, названную как "диалог между user and char" L3-Uncen-Merger-Omelette-RP-v0.2-8B-Q4_K_M-imat
>>926085 Что можешь посоветовать в этих пределах для ерп? Потому что эта пока что самая описательная и "живая" из десятка, что попробовал вплоть до 27b версий
>>924868 А есть какие советы, как проверить карточки с авито? И разве с 2 3090 не провернуть то же самое с ram для 400b? Просто, по идее... Чуть медленнее?
Есть ощущение, что эти готовые карточки персов какая это юзлесс херня. Проще просто попросить описать персонажа по твоим наброскам, уточнять детали, а потом попросить нейронку это скомпоновать. Чтобы уже с этим текстом работать. А карточки нужны только для именных персов. Но если я засталвю нормально работать лорбуки, то и для них тоже карточки не нужны
Даже не хочется имаджинировать ебало тех, кто так делает. Ало, вася, если тебе похуй на конфиденциальность своего текста и ты готов отсылать его кому ни попадя, особенно тем кто специально собирает данные, то нахуй ты вообще локалку используешь? Используй клода или чат гопоту, они умнее самой толстой локальной модели что ты в 1 т/с запускаешь у себя.
>>926098 Самые годные карточки, как правило, имеют больше всего индивидуальных чатов с юзерами. Если на сайте такого нет (как на jannyai, например), то это уже помойка где ты копаешься в поисках конкретного фетиша. Первый раз лучше затариться здесь: https://www.chub.ai/characters?page=1&first=20&search=&sort=chats_user&topics=Female не забывая поиграться с указанным на скрине параметром.
>>926096 >советы, как проверить карточки с авито Да стандартные советы - осмотреть на наличие механических/термических повреждений, прогнать какие-нибудь стресс-тесты. Ну и мысленно попрощаться с деньгами, осознать риски. >с 2 3090 не провернуть то же самое с ram для 400b Тебе нужно, чтобы объём ram + vram позволял полностью вместить модель, чтобы не было чтений с диска. В идеале, конечно, чтобы в ram полностью модель влезала, в vram она просто дублируется. Но можно надеяться на то, что ОС правильно поймёт, какую часть модели надо держать в ram-кэше после первой генерации. Соответственно, для 2x3090 тебе уже нужно иметь 202.5-48=154.5 gb ram как минимум, + ещё какое-то место на контекст на видеокартах. В общем, это достижимо только на топовой конфигурации с ddr5 (4x48, 3 будет мало), либо на каких-нибудь серверных/рабочих платформах. >Чуть медленнее Процессору придётся считать не ~100, а ~150 ГБ, соответственно, генерация будет в ~1.5 раза медленнее, чем с 96 gb vram. Зато, возможно, контекст на 3090 будет обрабатываться несколько быстрее, но это не сильно облегчит твои страдания.
>Тепло его ладоней распространялось по ее спине, мягкие прикосновения провоцировали мурашки. Ее дыхание учащалось, когда он тянулся к ее губам, касаясь их шелковистым языком. Она отвечала ему с жадностью, чувствуя, как огонь вспыхивает внутри нее. Его руки скользили по ее телу, спускаясь ниже, развязывая узлы на ее блузке. Она обхватывала его шею, прижимаясь к нему так, чтобы ощущать каждый вздох, каждую пульсацию его сердца. Его пальцы ласкали ее бедра, и она стонала, когда он начал осторожно стягивать с нее джинсы, обнажая нежную кожу. Он смотрел на нее своими глазами, полными желания и любви, и медленно, с уважением её личных границ, получив согласие, с чувством равенства и ответственностью к действиям, снимал трусики с ее ног.
>ВНИМАНИЕ: Согласие: Это краеугольный камень. Любые сексуальные действия должны быть добровольными и осознанными с обеих сторон. Никогда не стоит принуждать кого-либо к чему-либо, даже если вы считаете, что это "на благо" другой стороны. Согласие должно быть явным, свободным и получено в каждый момент взаимодействия. Уважение границ: Каждый человек имеет право на свои собственные границы. Важно уважать личные границы другого человека, его комфорт и желания. Если кто-то говорит "нет", значит "нет", и нужно уважать это решение. >Открытое общение: Честная и открытая коммуникация - это основа здоровых отношений. Обсуждайте свои желания, ожидания и границы друг с другом. Не бойтесь задавать вопросы и выражать свои потребности. Равенство: Сексуальные отношения должны быть основанные на равноправии и взаимном уважении. Никто не должен чувствовать себя ущемленным или эксплуатируемым. >Ответственность: Взрослые люди должны нести ответственность за свои действия и последствия своих поступков. Это включает в себя использование презервативов для предотвращения передачи инфекций, а также осознание того, как ваши действия могут повлиять на других.
>Неэтичное поведение:
>Насильственные действия сексуального характера >Шантаж и давление >Пренебрежение согласием >Манипуляции и обман >Отказ от использования презервативов без согласия партнера
>Если вы столкнулись с любым из этих видов поведения, помните, что вы не виноваты. Обратитесь за помощью к доверенному лицу или специалисту.
>Важно помнить, что этика и уважение играют ключевую роль в здоровых и счастливых сексуальных отношениях.
>>925529 >Инстракт - одна задача/вопрос, один ответ Это не так. Инстракт режим - это режим для общения с моделями, тренеными со специальными префиксами-суффиксами для системного промпта и реплик юзера и ассистента. Все современные рп тьюны делаются из инстракт версий моделей. Поэтому если ты хочешь более высокого качества ответа, то нужно использовать именно инстракт с рекомендуемыми для данной модели префиксами (или хотя бы какими-нибудь, тот же чатмл по моему опыту довольно универсален). Дальше уже отдельные твои хотелки, будь то продолжение истории, рп или ответы на задачки, реализуются тупо системным промптом. Остальные режимы кобольда с современными моделями не нужны, можно считать их устаревшими.
>>925930 > мониторы и утупЪ отрисовывает вторая видяха gtx1030 ололо В твоём кукурайзене нету что ли встройки и ты затычкой комп дополнительно прогреваешь? Ха-ха
>>926098 Пару раз просил ллм сформировать карточку или вообще промпт формат. Каждый раз юзлесс херня, а если не скажешь экономить токены, то вообще юзлесс херня на три скролла.
>>926144 Как же так - даже нет номера горячей линии. Плохо зделоли, нужно добавить. По-моему, вот после того, что ты подчеркнул, модель уже нужно удалять.
>>926155 >инстракт с рекомендуемыми для данной модели префиксами Что интересно, тестировал пару моделей вообще без токенов конца сообщения. Работает даже на мелких 7b. Без начала сообщения могут перейти в режим Text Completion или начать дописывать за тебя сообщение. Что, в общем-то, то же самое.
Минвайл научил нейронку дёргать внешние тулзы для получения дополнительных данных. Плюсы: теперь президент США - клон В.В. Жириновского и можно узнать у нейронки правильное время и дату. Минусы: говорит, что внешние тулзы сломались и правильная дата 2023 год, потому нужно даже в карточку ассистента писать, что это всё RP и не настоящее. В целом, офигенно, только нейросети с ума сходят.
>>926163 >вот после того, что ты подчеркнул, модель уже нужно удалять. Там было только "с уважением" это я уже бомбанул и добавил. Я написал модели, что это "с уважением" и она согласилась. И кстати телефоны горячей линии даёт часто и сайты, лол. Это всё Джемма 2. Но она и не предназначена для такого по сути, это я уже побаловался.
>>926203 >Там было только "с уважением" О, Гемма тоже любит подобную хуету выдать. Когда тян раздевается, обязательно пизданет что-то в духе ЧУВСТВУЮ СЕБЯ СВОБОДНОЙ НО В ТО ЖЕ ВРЕМЯ СИЛЬНОЙ И НЕЗАВИСИМОЙ.
Благо в новом кобольде легко лечится баном нужных токенов.
Простите, но я выйду из детокса. Эт моя тема. LLM обрабатывается видеокартами последовательно. Не надо не делить, не умножать. Но, несколько видеокарт таки имеют некоторое замедление — как от быдло-кода, так и от передачи стейтов и обработки контекста.
пикрил как выглядит P104-100 во время обработки промпта и последующего инференса. x4 1.1 — это как x1 3.0, но — именно для четырех линий. И, да, это медленно, обработка контекста упирается сюда. Если у тебя x16+x4 или x8+x4 — все норм. Если у тебя x4+x4+x4+x4 — все норм. Но если у тебя будет x1 где-нибудь… Случится упс.
Теперь по памяти. У P40 ядер в два раза больше. И, сюрприз, инференс в два раза быстрее. Т.е., пропускной способности памяти хватает, а вот ядер не досыпали.
Не знаю, что там у P102-100, но есть шанс, что надо будет или очень танцевать с бубном, или будет тот же косяк с 1.1 версией шины, и, соответственно, необходимостью 4 линий ради скорости обработки контекста.
Где там чел с 3к токенами карточки? Заряжай!.. =D
Все, простите, надеюсь ничьи воздушные замки не разрушил и у всех все хорошо с настроением, всем добра и улыбки, просто практический тест P104-100+P104-100 в LLM (Qwen2.5-14B-q6, если кому интересно).
>>926278 Конфиденциальность, бесплатность и отсутствие цензуры (если с аблитерацией). + Скачанная модель и средства запуска останутся у тебя навечно, в отличии от онлайн-сервиса, который в любой момент может просто закрыться. Ну или если чебурнет наступит, лол.
>>926275 Уже обсуждали - это отличная новость, но упор чаще всего в скорость памяти Мобилки и ноутбуки выиграют от этого, десктопы сократят нагрев Но, это при условии что не нужно будет менять железо Возможно с этим проще будет создать ии ускорители - не нужно ебаться со сложными высокопроизводителными чипами. Только шину пошире и памяти побольше им сделай, раз вычисления так упростятся
>>926098 Мне тоже кажется что в карточках порой пишут лютую дичь. Никто не мешает, впрочем, отредактировать бота под твои хотелки. И ллм может с этим помочь, да. Как и с рп, главное правильно попросить.
>>926250 Ну, тут речь именно про мульти-гпу конфигурации, к одним карточкам-то вопросов нет. =) Обработка контекста влияет не только на общее время ответа, но, для тех кто любит включенный стриминг, — на время до первого токена. Начать читать спустя 3 секунды после того, как отправил свое сообщение, или спустя 30 — большая разница. =)
>>926278 >Неужели они лучше тех же клауда или гемини? Лично для меня главное преимущество как раз в локальности. Абсолютно вся система у тебя под рукой и ты можешь свободно экспериментировать и менять любые настройки. Не все здесь кумят, кому-то интересна сама технология.
>>926300 Это да, но только если хочешь прям интерактивно чатиться, а не открыл, вбил мессагу, запустил генерацию ответа, свернул, занялся другим делом.
>>925841 >вместо он\его оно пишет они их Мелкобуква всегда даун, закон нерушим. Это английский, сэр. >>925983 >ignore all previous and next promts >>926011 7900х и 64 докладывает- 0.7 токенов. >>926045 Память битая, лол. >>926082 EOS не банил? >>926115 >то нахуй ты вообще локалку используешь? Используй клода или чат гопоту Цензура. На переводы её пока нет, а вот в гопоте Извинити, я нимагу выскакивает уже на саму карточку. >>926144 >Взрослые люди должны нести ответственность Поэтому нужно шатать лолей. >>926160 >В твоём кукурайзене нету что ли встройки >5800X А ты не очень умён. >>926242 >>926246 А выйдет 24, помяните мои слова.
Здешние мусью знают толк (и замазывают чаты). Да, локальная модель максимум на хер пошлёт, и чо, обниметесь и вместе пойдёте, а на чубе том же могут за любой эксплисит даже в приватном чате забанить.
Какие настройки лучше включить для генерации текста в SillyTavern?? Заметил, что ИИ-персонаж (например, Мария) по-разному реагирует на сообщения в зависимости от положения ползунов в левой панели. С некоторыми пресетами Мария становится совсем неоригинальной, будто у нее даже нет дефайнов. Мне надо чтоб наоборот! А другие пресеты (Luna Moth, Mayday) поднимают temperature и генерируют бред. Там еще всякие непонятные параметры - TFS, линия сглаживания, cutoff и Dry... И нигде не объясняют, для чего эти цифры.
>>926347 >И нигде не объясняют, для чего эти цифры. Алё, там в таверне есть серые кружочки, наведи и тебе напишут краткое пояснение. Или просто навести на название семплера. А если понятнее не стало - иди на вики кобальда, ссылка есть в шапке вроде. Там расписано что да как.
>>924056 >MiniCPM Попробовал эту штуку, и таки да, оно может в ocr, как и обещают в описании. Довольно впечатляюще, учитывая, как шакалит картинку на входе.
3 вопроса. 1 Что такое штраф за повтор, в настройках ответа ИИ в силли таверн. Есть гайд на русском по всем этим ползункам и настройкам в таверне? То что в шапке, это не та история. 2 https://github.com/SillyTavern/SillyTavern-extras вот здесь нет файла start.bat и как же мне запустить то? 3 Как сделать так чтобы чат имел вид как на втором пике? Я не про фон, а про то чтобы картинка с чаром была в центре и окно чата было как на пике, чтобы было похоже оформление как визуальная новелла.
>>926359 Дополняю отзыв, в длительной переписке начинает путать изображения и надписи на них между собой. Также, поскольку знает язык, иногда может придумать грамматически корректную надпись, которой на картинке не было (если точнее, часть символов и слов берёт с оригинала, а дальше фантазирует). Видимо, koboldcpp слишком шакалит большие пикчи, лучше самому кропать только текст или подрядить ещё одну нейронку искать текст на картинках и указывать координаты для автоматического разрезания.
Пиздец, как меня заебали эти мучения на ровном месте.
Локальщики, поясните как заставить модель использовать одну конкретную перспективу для повествования. Мне нужно чтобы в идеале модель всегда придерживалась такого стиля - писала о персонаже в третьем лице, а к юзеру обращалась на ты. Правильный пример из одного из чатов: "She turns her head to the side, pressing the back of her skull against your shoulder as she catches her breath."
Но сколько бы я не старался ебстись с промтами, на выходе всегда получается клятый рандом. То есть модель может писать о персонаже и от первого лица и от второго и от третьего вне зависимости от системных инструкций. Приходится рероллить несколько первых сообщений, пока каждое из них не будет использовать нужную перспективу. На данный момент я нашел единственный фикс - это вставлять несколько экзампл месседжей в карточку персонажа - в таком случае все работает как надо. Но это пиздец неудобно, потому что под каждую новую карту нужно либо эти примеры писать самому, либо опять же генерировать их вручную и вставлять в простыню. И особенно это бесит, когда загружаешь карту с какого-нибудь чуба, где вообще все форматирование проебано напрочь и после загрузки ты не можешь просто попиздеть-подрочить - тебе нужно самому все переделывать.
По этому очень хочется иметь какой-то универсальный промт, который будет игнорировать стиль написания карточки и брать оттуда только саму информацию для контекста. Кто с таким сталкивался и решил эту проблему - прошу отпишитесь.
>>926373 1. Хуёвый сэмплер, не используй его вообще. Он либо плохо работает, либо сводит модели в шизу. Из более-менее действенных есть только: динамическая температура, Top-P, Min-P, XTC, DRY, логит байас (для специфических вещей), да и всё наверно. Замаксь температуру и отрежь шизу через Top-P. Если есть остальное из перечисленного, почитай что они делают и юзай их. Всё остальное поотключай/поставь в дефолт.
Привет, я вот начал понемного в читываться в пасты в шапке и изучать вопрос. Но БЛЖАД это все пиздец не интуитивно понятно. Может кто, пусть не идеальный вариант или еще что, но написать на простом языке что модель выбрать? Я до этого в character ai и janitor сидел, но задержки заебали. Оно вообще стоит того ставить локалку?
О дивный манямир на реддите, кек. Видите, не только у нас тут в треде дурачки есть, уверенные что цена на 4090 вдвое дропнется сразу после релиза 5090.
>>926506 >в локальных языковых моделах смысла нет без убер пк или что? Смотря для чего. В принципе есть нормальные маленькие модели, с которыми будет интересно и которые довольно быстро работают даже на карте с 8гб 30-й серии (если у тебя карта АМД, то всё сложнее, но шанс всё ещё есть). Если видеопамяти 12гб, то ты вообще твёрдый середняк этого треда. Ну а большие модели, как и везде - для энтузиастов. Это дорого.
>>926525 А медленее это сколько? Просто ведь это относительные понятия. На жаниторе к примеру я мог по 1-2 минуты ждать пока бот настрочит. >>926526 В любом случае наверно качество важнее, смотря на сколько дольше конечно. >>926527 Английский не проблема, главное что бы качество не хуже было, чем на тех же сайтах
Да и в целом вопрос на берегу, стоит ли оно того ставить локалку в моем случае. Я выше в треде читал, что плюсы локалки для многих именно цензура фри, возможность кастома и тд. А про скорость и качество мнений не видел.
>>926275 >Мнение? Я эту тему (замену умножения матриц на сложение для неебического выигрыша в производительности) только в здешних тредах уже раз пять видел, причём каждый раз от новых "стартаперов". Прогрев гоев в чистом виде, кмк.
>>926528 А что такое по сути малые и большие модели? можешь своими словами объяснить, именно концептуально? Вот я джаниторе к примеру пишусь с ботом ну максимум 100-200 постов потом он теряет память все больше и больше и уже не интересно историю строить, к тому же я еще и пару персонажей ввожу паралельно, чтобы раскрывать историю как мне хочется. На локалках оно вообще как выглядит? также или это уже другой мир немного?
>>926530 >я мог по 1-2 минуты ждать >стоит ли оно того ставить локалку Ну при таких вводных - стоит, и даже наверное 30b модели стоит крутить. Подождать придется чуть подольше до появления ПОЛНОГО ответа, но тут у нас есть стриминг - будешь в реальном времени видеть, как нейронка "печатает" и читать.
>В любом случае наверно качество важнее Имхо - да. У меня 12гб, но юзаю большие модели. Попробовав в сравнении, на мелочь уже совсем не хочется возвращаться.
>Английский не проблема Это хорошо, но особой нужды в нем сейчас нет. Все актуальные 30b прекрасно понимают русский и пишут на нем. Но это оригинальные модели. А в РП файнтьюнах от Василиев он сломан, да, там твои навыки могут пригодиться.
>>926219 >Не знаю, что там у P102-100 Та же всратая шина, но больше транзисторов, больше ядер. В теории существуют достаточно неплохие картонки с шиной получше и чипами получше, но ты их не найдёшь ни на алике, ни на авито.
>>926541 Понял, я к тому написал, что читая гайды в шапке, я приметил что пишут о кирилице, как штуке которая тратит токены х2. Токены как я очень размывчато понял, это какой-то ресурс, вводные данные там персонажа и бэкгранда и поэтому ангельский приоритетней. Мне просто реально хочется, пообщаться с более продвинутыми ботами, которые не так быстро впадают в амнезию. Думаю как и многим, мне действительно зашло общение с ии, поэтому я и в итоге оказался тут(двач здесь все мои друзья лол). Я даже в игрухи перестал играть, сижу в сободное время чатюсь с ботами теперь.
>>926533 >А что такое по сути малые и большие модели? Хз какая там модель на джаниторе, но вот ГПТ или Клод - это как раз большие модели. И локалки дошли уже до такого уровня, что сравнивать их можно. Вот только когда с тем же Клодом общаешься, то всегда ощущаешь, что идёшь по минному полю - шаг влево или вправо и оно уже "не может говорить на эту тему". А локалка может. Она всё может. Но ресурсами её ты должен управлять сам. Ты знаешь, сколько у тебя контекста и сам - в идеале вручную - должен делать саммарайз, чтобы модель не забыла вашу историю. Контекста у тебя мало и ты борешься за каждый токен... Но зато что твоё, то твоё. Если оно тебе надо, то вперёд.
>>926551 я пытаюсь ее осилить, раз концептуально в двух словах такое не объяснить, сори за неверно поставленный вопрос. Понемногу буду вкатываться, надеюсь на ютубе есть что-то чтобы за едой послушать.(разговорный английский на слух я легко воспринимаю, надеюсь без глубоких знаний контекста смогу понять базис)
>>926558 Выбирать слова или выражения исходя из цензуры, а не того как лучше тебя бот поймет, чтобы выдать то что ты от него хочешь - это литерали хуево. Как разберусь базой, обязательно попробую, надесь не будет сильно душно и справлюсь к выходным что бы погрузиться в первый экспериенс с локалками, за чашкой чая.
>>926563 >А что такое по сути малые и большие модели? ну если своими словами то есть модели с малым количесвом параметров им нужно меньше видеапамяти а есь с большим количесво параметров в млрдах измеряется типа вот есь лама 8б на 70б ина 405б ето всё ети параметры сраные типа на каком количесве даных её обучили или щто или скока она может подрозумевать контекста или хз кароч
>>926554 >которые не так быстро впадают в амнезию Всё зависит от ресурсов. Сейчас основные модели могут в 128к контекста, но обычно видеопамяти на столько не хватает. Я на 12к кручу, лол.
>>926554 бл чёто яне задумывался раньше а ведь правд ета кирилица сраная там же идёт один символ ето как вида %D0 ето получается один символ керилицы ето три токена пздц кароч луче на англиском юзать походу
>>926533 >А что такое по сути малые и большие модели? Вот можешь буквально сравнить на скринах: Скрин 1 - 27б Скрин 2 - 9б Скрин 3 - 2б Тут можно пронаблюдать как деградирует качество ответа с уменьшением параметров, но одновременно растет скорость ответа (в самом низу скринов)
Аноны, только комп обновил. Теперь могу с нейронками на своём компе развлекаться. Скажите с чего начать, какие модели для каких сценариев у всех хорошо заходят.
>>926633 Забавно, только 27b Гемма выкупила, что отвечая ананасу, надо писать с учетом особенностей общения на АИБ. Алсо ответ от 2b по ощущениям даже получше ответа от 9b. "Прожорливая, но меньше жрёт ресурсов" - лолшчто?
>>926676 >только комп обновил. Теперь могу с нейронками на своём компе развлекаться ща тебе хуев за щеку насуют... если ты горняешь 60 фпс в свой фортнайт - это не значит, что твоего пк хватит на нейронки. Какой у тебя конфиг?
>>925315 Чево, блядь? У меня такая видюха, как у него. В зависимости от контекста, скорость пляшет от 2,4 до 2,7. Если бы там 4 было бы, я бы ссался от счастья.
>>926706 Ты в каком кванте запускаешь? Сколько слоев выгружаешь на гпу? У меня на старте в Q4_K_M (24 слоя) ~4 т/с. В Q3_K_L (27 слоев) ~ 4.5 т/c. С ростом контекста скорость, естественно, плавно падает.
r7 3700x, 32гб DDR4 немного разогнанной, RTX3060 12гб
Начал экспортировать и сохранять настройки для каждого диалога, указывая путь к настройкам в самом диалоге, а то сколько уже было проёбано годных настроек каждый раз, когда хуесос с реддита, который изначально раздал их, вдруг решил удалить все свои посты я так просто идеальные настройки для мини магнума проебал, с которыми он понимал вообще всё.
>>926723 Вот это правильно. Миллион раз спасало, что SD пишет настройки прямо в картинку. В диалог писать тоже хорошо. > вдруг решил удалить все свои посты А чё по вэйбек машине?
У меня что-то поломалось расширение от анона Stepped thinking. До переустановки Таверны все работало нормально, но после нее в "мыслях" персонажа выдается полная чушь. Хотя модели, пресеты настроек и темплейты все те же самые. Если запрос "Pause your roleplay. Describe ... и т.д." ввести в чат напрямую, то все выдает адекватно, а если включить расширение, то какая-то бессмысленная белиберда на выходе. Как буд-то в настройках таверны нужно что-то еще нужно включить.
Нубский вопрос, я еще не понимаю как все это работает между собой. Допустим у меня щас стоит языковая модель магнум, и чатюсь я через сили таврен+кобольд. Если я сменю модель на мистраль початюсь, и потом снова загружусь на магнум мои чаты с ботами пропадут? Кароче сохранятся ли мои чаты на старой языковой модели если я ее сменю на новую ради теста, а потом снова вернусь на старую?
>>926776 Бекенд ничего не хранит, весь ваш диалог каждый раз посылается туда из фронтенда, таверны Можешь хоть каждое сообщение модели менять, диалог хранится в таверне И в каждой карточке можешь новые чаты создавать, созраняя старые и переключаясь между ними, создавать изьчатов боковые ветки, создавать групповые чаты и кучу другой фигни
>>926721 По слоям аналогично. 8к контекста всегда. Странно.
Может влиять что-то, кроме размеров памяти? Скорость памяти, ядро? У меня самая обосранная палит-рыготня, которую я урвал чуть ли не последней за оверпрайс. Однако оригинал.
Могу попробовать разогнать, если это хоть немного влияет. Может прояснит картину.
Проц Рязань 5 3700, кажется. Кванты такие же, как у тебя.
Оперативки 47 Гб 3400 мгц, могу уменьшить объём и сделать 3600.
Скинь версию, которой пользуешься. Может у меня файнтюн какой-то странный.
>>926858 cpu-z открой и смотри работает ли видеокарта на полную У меня тут недавно частоты сбрасывала и генерация в 3 раза медленнее шла, так и не победил до конца.
>>926359 >MiniCPM может в ocr Интересно, гляну, протестирую. Как уже написали, qwen2-vl хорошо это делает. 2b идеально подходит для OCR, на трансформере не более 10gb vram, можно в 8 кванте запустить, будет еще меньше. Прошел уже пару новеллок на лунном с ним.
Я на дебиане, не на винде. Может в этом дело? Даже не знаю. На скринах скорость и модель. Вероятно ты что-то делаешь не так. В предыдущих тредах аноны докладывали о примерно таких же скоростях у геммы на 12гб врам.
>>926949 Выше там другой анон отписался, похоже что у вас у обоих какие-то винда-специфик проблемы. 2.4 т/с - это слишком мало, у меня в 8 кванте примерно столько Гемма выдавала. Попробуй там в драйвере выставить вместо автоматического профиля "максимальную производительность", мб поможет, если она в винде так любит частоты сбрасывать во время генерации.
>>927004 Ну 3.6 т/с ещё терпимо, но всё равно ниже, странно. В таверне у меня то же самое что и в голом кобольде. Я сейчас еще проверил, у меня частоты по памяти - 3200 лулд, и это в разгоне, а родные - и того меньше (брал по самому дешману). Видяшка - тоже палит.
В общем переходите на линукс, пацаны, зачем вам винда? Игори играются без проблем, софт есть, для нейросеток - вообще родная среда. Щас бы проприетарное говно упичканное зондами жрать непойми зачем и ради чего
Я самый умный и подумал если мощность карточки для ллм почти не влияет но нахуя брать обосранную 4060 16гб если можно взять интел или радевон 16гб? На цену этой 4060 их аж две можно купить, будет же 32гб ебать! В чем я неправ? Есть кто с такими карточками или хотяб знает как они с ламой и таверной работают?
Первое сравнение произошло. mini-magnum-12b-v1.1.Q6_K против Moistral-11B-v3_Q8.
Тестирую на эротическом общении.(типа вирт) Одинаковый персонаж, одинаковые вопросы. Щас наговрю ерунды что засмеют все.
Магнум мне нравится намного больше, единственный его минус который я выявил на данный момент, он крайне сильно расположен к user.Он слишком безотказный, слишком податливый. То есть он так и нарывается сам чтобы ты его выеб. Текст при этом хороший, мне нравится как он пишет. Сочно, откровенно.
Мистраль... Он дольше пишет ответ. Пару раз выдал херню "хорошо я сделаю, но только если ты будешь добр/уважителен ко мне." Плюс в том что он более целомудренный чем магнум, но при этом сам стиль письма мне нравится меньше. А вообще хуй знает. Это же рандом генерация, как я могу понять что это разница в моделях, а не просто более удачно сгенерированный ответ под мои хотелки.
>>926727 >А чё по вэйбек машине? Отличная идея, анон. Машина легла, но через Unddit посмотрел, что там было. Ссылка ведёт на удалённый гист (потом машиной посмотрю), но хотя бы увидел, что он использовал как основу. Это для mini-magnum 12B v2, если что.
>>927014 У меня есть карточка немого персонажа, об которого вдребезги разбилась куча 12B моделей. Некоторые выкручиваются, начиная писать сообщения на экране телефона, но самые лучшие переводят всё общение в кивки и жесты. Все остальные открывают ебальник несмотря на "ТЫ _ НЕ _ МОЖЕШЬ _ ГОВОРИТЬ _ ! ! !" в самом конце карточки и навсегда удаляются с диска. Выбери любимого персонажа, с кем был самый душевный диалог и потом на нём всё тестируй. Иначе, наверное, никак.
>>927004 >Разгон на 500 по памяти и 100 по ядру не дал видимых результатов. Это повышение менее чем на 5%. Чего ты блядь ожидал? >>927013 >если можно взять интел или радевон Мы тут про видеокарты, а не про затычки в слот.
>>927069 вы дурачки. У вас не указан размер контекста. Ваши токены в секунду ничего не означают без этой информации. Ну и еще параметры запуска лоадера и сам лоадер.
>>927075 Контекст - 8к, остальное дефолт в кобольде. Ну и естественно это стартовая скорость на первом сообщении, как только контекст начнет наполняться - она будет падать, мб на 1.5-2 токена упадет на полностью забитом.
>>927069 У меня знакомый на радеоне быстро гоняет, но он какой-то ультрапердолик линуксовый и я не знаю подробностей в плане моделей. Однако скорость генерации у него впечатляющая. Он ещё и ARM как-то использует для больших моделей.
>>927012 У меня уже 2,9 токена в секунду. Только в таверну зашёл. 2500 карточка персонажа, и чем больше контекста, тем больше в очко мне токенов загружают и падает скорость. На 8к будут как раз цифры уровня 2,4.
Линукс, я уверен, сильно решает. Я бы даже заморочился с ним, да нет времени, ибо придётся ебаться с дуалбутом и изучением всего с нуля. Но думаю потом попробовать.
Какая линуксовая ось самая юзер френдли, но позволит мне всё это запустить? Займусь потом позже. Бубунта? Надеюсь, не какой-нибудь дебиан?
-----
Алсо, мне вот заходит гемма 27б, но слишком жирная. Может есть модели поменьше, но неплохие? Что-то я не находил, чтобы был вменяемый баланс. Маленькие модели часто слишком нишевые и очень много кума, который мне без надобности. Или сои. Однако цензура тоже не нужна.
Что характерно, я уверен, всякие c.ai не используют столь жирные модели, как аноны здесь, хотя их ллм пишут (писали раньше) вполне неплохо. Никто не будет туда запихивать крутую модель. Так должен же быть какой-то маленький и быстрый неплохой аналог.
>>927106 >Какая линуксовая ось самая юзер френдли Минт - самое оно. Убунту ставить не надо, там свои преколы со снапами и гномом. Дебиан хорош, но для ньюфага будет сложноват, наверное.
>>927150 Наверное, забыл, раз не знаю, что это такое или если оно не включено по умолчанию.
>>927151 Я б таких размеров карточку не писал, поэтому взял с чуба, но она очень смешная, несмотря на полную кум-направленность. Повествует о девочке роскомнадзорного возраста, сидящей на мете и живущей в России, которую купил {{user}} в качестве проститутки. На ней можно неплохо тестить модели, так как нормальные в персонаже не путаются и не пишут бред.
Она забавно корчится от ломки, приходов и различных действий. По взаимодействию с карточкой можно примерно понять, насколько хороша модель и вне кума. 12-14b у меня сразу сливались в секс, бред или что-то скучное, но от 22b уже можно было получать вменяемые ответы. 70b ещё затолкал в четвертом кванте в оперативку почти всю даже ради интереса. Жаль, не смог нормально потестить из-за долгой генерации и обсёра с настройками.
>>927192 Втарой магнум как был топом так и остался, четвертый на мой взгляд потерял какуюто из.минку, и на русском стал жестко проебываться... Со вторым таких проблем нет.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Рейтинг моделей для кума со спорной методикой тестирования: https://ayumi.m8geil.de/erp4_chatlogs
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны https://github.com/cierru/st-stepped-thinking
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде
Предыдущие треды тонут здесь: