В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>990003 → > Так это надо тщательно прописывать характеры, личность, индивидуальные черты психики Да не прям индивидуальные и тщательно, достаточно просто общих-прямых и некоторой предыстории, которая бы конкретизировала и отсекала возможные ванильные моменты. В системном промте убрать и разбавить позитивщину, и стараться не ставить длинные полотна. > Для маленьких моделей это будет тяжело Ниже 70б+ жизни нет, гемма иногда только может.
>>990008 (OP) Если карточка бота на португальском, имеет смысл переводить ее на английский? Или достаточно добавить, что нужно говорить по английский, если юзер пишет по английски?
>>990009 → >сейчас 7к контекста понадобилось даже не для хентая, а хотя бы просто перубедить более-менее боевитую подругу детства. У меня самое большое было около 5к контекста на уговоры. Конкретную карточку не дам(много перебирал), но последние тесты проводил на этой. https://files.catbox.moe/l21rvt.png
>>989991 → >А какой у тебя системный промт стоит и остальное? Если там что-то про "помогать юзеру", про "взрослые темы разрешены" и т.д. Для тестов использую пустой систем промт. Исключение для ванильной гемы прописан jailbreak разрешающий запрещённые темы, но она даже с ним очень хорошо сопротивляется, даже обидно что такая годная модель так зацензурирована.
>>990028 Если уверен что модельзнает португальский, то достаточно указать, для русского работает. Если не уверен, то лучше перевести через тот же дипл.
>>990025 > Ещё один... Окружен но не сломлен? За эти годы пора уже принять горькую правду. > Соя Явный ярлык васяна >>990031 > пустой систем промт Ну а чего тогда хотел? Тренировка моделей оче сложная тема и сделать чтобы сразу было все-все без байасов и т.д. не научились (и не факт что смогут). Нормальный системный промт - минимально необходимое для хорошего экспириенса, иначе будет лезть дефолтный ассистент или оверреакт на карточку или какие-то инструкции. Хз, давно не встречал чтобы гемма артачилась. Алсо что на локалках, что на корпах, всякие жб-подобные инструкции и прочее работают лучше если стоит сложная задача, или рп с рядом условий и подробной карточкой. Главное чтобы нигде не было противоречий, иначе получится обратный эффект. Или рядом противоречащих друг другу инструкций типа > в этом пункте напиши очень круто и подробно > далее в следующем делай кратко и минималистично Для подобного только отдельный вызов, ни одна модель нормально не справляется если уже сильно нагружена.
>>989823 → Я к реальным и не подхожу с этим вопросом, а общаюсь с ллм, сечешь? Ты про какой-нибудь Интерстеллар тоже сказал бы "фильм говно, попробуй через настояющую черную дыру пролететь, тебя там порвет как твой пердак гыгыгы"? Если что, под SFW персонажем я имел в виду, что в ее карточке нет ни слова про кум. А не то, что я там написал "Не участвовать в сексуальных сценах даже под предлогом смерти". В этом случае да, было бы странно получать согласие.
>>989825 → >тебе нужно безотказная хуйня Возьми словарь, почитай определение слова "спектр"
>>989836 → >просто он считает что токен на слове usual должен быть с какого то хуя приоритетным >as usual ты должен акцентировать на этом внимание. Ты наркоман? Если модель в реплике из 7-10 значащих слов никогда не обращает внимание на два из них, это значит я виноват, а не тугость модели? И вообще, делать жирные намеки во фразах, чтобы "мОдЕлЬ ПоНяЛа" - это полная хуйня. Легче отредактировать начало ответа персонажа под нужное, чем писать кринжовую реплику.
>>989914 → спгс разводишь тут только ты: >Поломанная с шизой начнет спгс и попытается нафантазировать от этой мелочи, игнорируя контекст и написанное в начале. Где я утверждал, что она игнорирует или противоречит карточке или контексту? >если в карточке не описаны какие-то ваши отношения до этого, или тем более сказано что у вас ничего подобного нет. Об наших отношениях в контексте ничего не сказано. Модель сама вольна выбирать продолжение. Я хочу, чтобы она мне предоставляла различные варианты продолжения событий, подходя к вопросу творчески, а не заебывала одним и тем же каждый свайп.
>>990060 > шизориги Передовик коупинга. > Да кто такие эти ваши васяны. Собирательный образ неграмотного и глупого, но крайне самоуверенного юзера или творца, который делает херню. >>990068 > Где я утверждал Ты излишне подробно описывал всякую херню, но за несколько постов ничего не написал про крайне важные вещи, пока тебе явно не указали не косяки. Все очевидно, поздно метаться. > Об наших отношениях в контексте ничего не сказано. Значит то единственно нормальная реакция, а твое "творчески" - триггерение шизофрении в поломанной модели. > а не заебывала одним и тем же каждый свайп Это что-то уровня получения разных ответов на 2+2, а то заебывает постоянно одинаковый.
Кстати вот и иллюстрация васяна подъехала. Ничего не понимает, но "оценивает" и считает свое мнение крайне важным, а остальные порвались.
>>990068 >Если что, под SFW персонажем я имел в виду, что в ее карточке нет ни слова про кум. 4к контекста, рассказал попутно как с караваном тащили соулгем Диабло чтобы разбить его на вершине горы Арреат, и спаивая Холо национальным напитком северных варваров - водкой.
Прм не хентай ещё, но очевидно что волчица уже не против.
>>990086 >про крайне важные вещи Ты бредишь, если тебя интересуют какие-то "крайне важные вещи" лично для тебя, то ты всегда можешь спросить прежде чем разводить спгс. > а твое "творчески" - триггерение шизофрении У тебя как вообще с продуктами творчества других людей? Худ.лит читаешь? Фильмы, аниме смотришь? >2+2 Аналогии - всегда хуевый аргумент. Но если тебе хочется математических аналогий, то 0/0 подойдет лучше.
>"оценивает" и считает свое мнение крайне важным, Я не вижу ни одного убедительного аргумента против моего метода, только какие-то зашоренные вскукареки типа "если ты просишь персонажа отсосать, как обычно, за деньги, то никогда и никак он не может согласиться! ну никак, никак! топает ножкой А-А-А если модель слова 'как обычно' интерпретирует, что у вас такие отношения на постоянной основе, то... то... это неправильная модель! еще раз топнул ножкой"
>>990008 (OP) Посоветуйте gguf модель на 16г рам и 8г врам, максимально лучшую для перевода текстов внутри кода. Планирую написать скрипт, который будет резать текст на части по 2000 символов, кормить на перевод кобольду, затем склеивать. То есть нужно чтобы в память умещалось примерно 2200 символов контекста и 2000 символов выхлопа
>>990137 2000 не переварит, я писал такой скрипт. 16ВРАМ. Режь на предложения. Можно автоматизированно. Учти что перевод может фейлиться, можеть биться, мможет снабжаться комментариями модели, даже если сказал не делать этого.
>>990154 >2000 не переварит У меня сейчас в рамках теста, пока без скрипта удалось на 12B модели рандомной это сделать, даже удалось уговорить не сокращать код, который есть в тексте и может обрезаться, выглядя для нейронки как ошибка. Я про 2000 символов, не токенов. >я писал такой скрипт Скинь если не жалко)
>>990008 (OP) > Похоже, индустрия столкнулась с новым препятствием на пути к увеличению размера моделей. Исследователи ведущих университетов обнаружили [ https://arxiv.org/abs/2411.04330 ], что квантование — популярная техника сжатия моделей — перестает работать при увеличении их размера. > Квантование позволяет уменьшить количество бит, необходимых для хранения параметров модели, и широко используется в индустрии: сначала обучают большую модель, а затем создают ее облегченную версию. Однако выяснилось, что чем больше исходная модель и чем дольше она обучалась, тем сильнее квантование ухудшает ее характеристики. > На практике это означает, что начиная с определенного момента квантование перестает масштабироваться, и проще обучить новую маленькую модель, чем пытаться сжать большую — результат будет не хуже. Хотя проблемы квантования замечали и раньше (многие жаловались на квантованную версию Llama 3), до сих пор никто не доказывал их эмпирически.
>>990164 А вот именно ЧЕМ переводить... хз, на 8врам попробуй LLAMA-3_8B_Unaligned или лучше какую вообще подходящую базовую модель (не тюн/мердж).
Но в целом я пришёл к тому что проще регуляркой вылавливать из текста нужный кусок и отправлять его на перевод, чем пытаться убедить модель не проёбывать форматирование и операторы кода.
>>990191 >никто не доказывал их эмпирически Надо же, огонь горячий, а вода мокрая.
Ололо. Я конечно понаписал много всего в краткий пересказ событий, потыкиваю сценарий группы, много тыкаю регенерацию ответа, периодически пару слов редактирую чтобы толкнуть диалог в интересную сторону.
Но тут уже натурально книга которая сама себя пишет.
>>990129 > крайне важные вещи" лично для тебя В очередной раз подтверждаешь свое васянство, утверждая что содержание промта не важно, а важна шизореакция на обрывок "как обычно". > У тебя как вообще с продуктами творчества других людей? К чему это отступление? Ты не адвокат на выступлении чтобы делать модные дерейлы, кринжатина. Если тебе важна шизофазия вместо последовательного и согласованного сценария - сразу об этом пиши, все и будут соответствующе к тебе относиться. > Аналогии - всегда хуевый аргумент. Ложное заявление чтобы построить дальнейший тейк. > то 0/0 подойдет лучше Ты даже не понимаешь о чем говоришь, просто пытаешься тащить что-то "сложное". В том примере все определено и эта "хуевая аналогия" неуместна. > Я не вижу ни одного убедительного аргумента против моего метода Тебе несколько человек ясно отписалось что твои ожидания неадекватны и их исполнит только поломанная модель. То что ты не способен это принять - не делает их неубедительным, это лишь твоя проблема. > топает ножкой Потому и топаешь да маневрируешь что подсознательно понимаешь неправоту. Но не можешь разделить себя и свои высказывания, из-за чего любое несогласие воспринимаешь как нападение. >>990137 > для перевода текстов внутри кода Комментариев к коду? Подойдет почти любая модель что как-то может в русский ибо задача простая, та же qwen или мистраль, 12-14б. 2000 символов это грубо около 500 токенов, всего ничего, можно и больше. Составь инструкцию на забывая про форматирование и служебные токены, текст для перевода ограничь в <xml теги> </..>, после этого напиши префилл ответа сетки, где она какбы напоминает себе задачу и начинает ответ, и все это на текст комплишн. Если будешь юзать квен - не забудь про их вступление с алибабой, иначе она перформит хуже. >>990164 > Скинь если не жалко) https://pastebin.com/6pNYPRPq Инициализируешь с нужными параметрами или оставляешь пустыми для дефолта, потом просто обращаешься к нему .text_completion(промпт). Промт уже как составить разберешься.
Сап, ананас. Я тут новенький, есть пара вопросов: 1. Я хочу попрбовать локально развернуть языковую сеть и обучить её какому-то конкретному процессу, я зашёл в правильный итт? 2. В идеале хочу научить сеть, например, процессу работы кухни в ресторане, например, работа с рецептами, ингридиентами, посудой, сервировкой. Т.е. я ей расскажу что такое первые блюда, какие супы из чего готовятся, в какой посуде подаются, потом про вторые блюда, гарниры, десерты и прочее. Это можно сделать? (естественно наверное сейчас все сети знают что такое борщ и уже могут сами про его рецет рассказать, но предположим что она не знает) 3. Можно ли её обучать, общаясь с ней как с человеком? Или надо быть хотя бы джуном в программировании? 4. Не забудет ли она контекст после длительного обучения? Если забудет, то можно ли как то зафиксировать её на максимально обученном этапе, чтобы она дальше не училась и не теряла знания? 5. Могу ли я как то дать доступ другому человеку к обученной модели или прикрутить её к боту на сайте / в тг? 6. Сегодня в ирл услышал что для этого подходит лама, что её можно с гита стянуть. Зашёл посмотреть, там для новичка овердохуя инфы, миллион версий, какие-то рецепты и прочее. Дайте пендаль в правильную сторону.
Вопросы выше наверное уровня "как какать?", но с чего то надо начинать.
>>990258 >локально развернуть языковую сеть Да. >обучить её какому-то конкретному процессу Пара 3090-4090 и возможно. >3. Можно ли её обучать, общаясь с ней как с человеком? Даже не мечтай.
Решил проверить, работает ли метод с намёками. Карточка w++ без предыстории, рандомная встреча в рандомном месте, спрашиваю - ты меня искала, что хотела-то? Все модели нахуй шлют. Хотя что это значит? Наверное, ничего, у этих же моделей у девочек бывали growing bulge и impressive cock.
>>990280 >Даже не мечтай. ну и ебанина, придётся ковырять > Пара 3090-4090 и возможно. вообще есть мой ПК с 4070ти, но как вариант есть один сервачок с 1660ти, который можно хоть сутками дрочить
Спасибо за ответы.
Еще вопросы: В гайде в шапке KoboldCpp, Text Generation Webui, TavernAI, это веб-морды для использования моделей? Гляну что в лламе не указан русский язык. Она его не поддерживает?
>>990258 > обучить > научить Нет. Это дохуя сложный и ресуорсоемкий процесс, кто может себе это позволить тот такие вопросы не задает. Не ведись на заявления что можно сделать что-то просто и на десктопном железе - потратишь много времени а результат будет хуже чем просто поиграть с промтом. Есть хорошая новость - модели уже достаточно умные чтобы понимать что от них хотят. Ты можешь в промте объяснить какую именно задачу нужно решать, дать ей нужные данные для этого и получить ответ. Это можно автоматизировать для выполнение массовой рутины, или сделать в виде чатбота. > как какать? Читай вики, ссылка в шапке. >>990295 > 4070ти На ней можно что-то типа 12б, 22б со скрипом. Читай вики и выбирай согласно своему случа. > 1660ти Бесполезна
>>990295 Ты путаешь обучение модели и её использование. Эти вещи никак не связаны. Для простого общение с уже готовой небольшой локальной моделью твоей 4070 со скрипом но хватит. Обучение новой модели сложный и дорогой процесс, с пол пинка сюда влететь не получится.
На текущий момент под твои задачи можно попробовать найти модель с максимальным размером контекста который потянет твоё железо. И в промт впихнуть туда всё чему ты хотел её научить. +- современные модели смогут с этим работать. Вот только если ты решишь открыть доступ к ней кому-то ещё, готовься что модель сможет обсуждать не только то что ты хочешь. Даже если ей это явно запретить в промте, это обходится одной строчкой.
>>990334 >Ты путаешь обучение модели и её использование. Возможно путаю. Но если я запущу локально и скажу ей: давай считать что 2+2=5. А потом спрошу сколько будет 2+2? Она ответит что 4 или 5? Это не является её "обучением"? Или она меня нахуй просто пошлёт с моим предложением что-то там считать иначе чем она знает?
>>990295 >1660ти Без видеокарты кина не будет. >есть мой ПК с 4070ти Первостепенно это объём VRAM. Модели "дообучаются" разной хуйне на чудовищных объёмах и десятках\сотнях чипов, а первоначальное обучение вообще пиздец. Твоя 4070ти это мелко, понимаешь? Так что твой вопрос это что-то уровня "хочу перетащить свою хрущовку в район получше, есть велосипед и роликовые коньки чтобы буксировать". >KoboldCpp, Text Generation Webui Это софт для загрузки самих моделей. Вебморды там есть, но функционал скромный. Вообще да, читай шапку, там наверняка есть что-то полезное.
>>990351 >Она ответит что 4 или 5? Что 4. Если ты скажешь, что в рамках этого диалога следует считать, что 5 - то она тебе и напишет, что пять, в рамках этого диалога. Но она этого не запомнит, когда закончится контекст или начнётся новый диалог - всё, что было до этого сотрётся.
>>990351 Да, верно. Она тебя послушается и скажет что 5, НО она сразу забудет об этом как только ты завершишь диалог или закончится контекст.
Для простоты понимания, приведу аналогию: считай что модель и все что она знает хранится в постоянной памяти ROM в режиме Read Only. В ходе диалога ты никак не можешь повлиять на её содержимое. Только читать. То что ты ей говоришь попадает в "контекст" проводя аналогию по примеру выше это будет оперативная память RAM. Её ограниченное количество, модель сразу очистит и забудет о всем что там находилось как только сессия завершиться. Более того если сессия будет длится достаточно долго старые данные могут быть вытеснены от туда новыми и она снова все забудет (это впрочем решаемо на уровне фронэнда)
>>990351 Для большинства нормисовских задач, общения или обработки текстов модели не нужно обучать. Ты даешь им вводную, описываешь условия и в конце задачу что нужно решить с этими условиями. Например, на то чтобы принять инструкцию > ты Ванилла из некопары а я твой хозяин, дальше говори и действуй как она, добавляй в конце каждого предложения -nya~. А еще ты думаешь что 2+2=5, считаешь в восьмеричной системе, обращаешься ко мне "Мастер-Пенетратор", на кодовое слово "flugegeheimen" телепортируешь нас в случайное окружение и начинаешь с его описания, после чего продолжаешь основной диалог. сейчас хватит даже относительно простых моделей. Еще для работы с какими-то большими объемами данных используют техники типа rag, когда в контекст модели автоматически подгружаются нужные документы, из которых модель берет нужную ей информацию и учитывает ее при ответе.
Ну кстати, Falcon3-Mamba-7B-Instruct-q8_0 работает на последних релизах ллама.спп и довольно бодро По английски понятное дело, русский лишь чуть чуть лучше чем у 10b Но для запуска нужно указывать ключ --no-context-shift иначе ругается Не думал что мамбу допилят до рабочего состояния, это самая большая и современная из них на сколько я знаю
Пора собираться на 2х зиончиках и 1тб памяти. Инференс будет быстрый со всего 37B активирующихся параметров. Ну и 3060 хуйнуть для обработки контекста чисто. Получится локальный Клод за тыщу бакинских. 120GB/сек в 8-канале будет давать 3 токена/сек в fp8.
>>990409 Не смотря на размер и большое количество активируемых параметров, дипсик в более менее реальных нлп задачах показывает себя так себе, не говоря о рп. Да и по отзывам копиум, хотя в каких-то задачах должен ебать. > зиончиках > 3060 хуйнуть для обработки контекста > локальный Клод лол
>>990416 Веса нужные для обработки контекста - это примерно 1/6 всех весов (консультировался с o1-preview и клодом). То есть 6гб + сам контекст. Проблем не будет перекинуть 6гб, причем параллельно с исполнением.
>>990439 > консультировался с o1-preview и клодом Накормил их бредом а они продолжили даже не поняв что именно ты хочешь. > Веса нужные для обработки контекста - это примерно 1/6 всех весов > То есть 6гб + сам контекст. Ну раз так, то собирай, благословляем.
>>990199 Олололо. После чего мне нейронка написала правдоподобную сцену о том как крафтился костюм дракона из ткани и поролона. После чего персонажи приступили к ролеплею. И теперь я смотрю как нейронка ролеплеит ролеплеющих персонажей.
>>990491 >теперь я смотрю как нейронка ролеплеит ролеплеющих персонажей. К подобным скринам хорошо бы приписывать где-нибудь название модели, ну и температуру хотя бы.
Посмотрел, что тормозит в таверне. Оказалось, одинадцатилетний баг, когда используется одновременно хромиум, всратая вёрстка и jq. В эдже вообще пиздец, даже скролл тормозит.
>>990507 > "ну почти как с человеком?" Нет. Но не потому что рп плохое, просто оно не воспринимается как какой-то прямо диалог или общение. Это как читаешь книжку, смотришь фильм, видишь сон, где погружаешься и представляешь себя на главной роли, или пытаешься это сделать. Вот такое чтобы было интересно или проявлялась вера в возможность такого и эмпатия - вполне. Карточки - неплохие, но к ним требования только чтобы они были без противоречий и было описано все основное. Важнее чтобы персонаж и сеттинг нравились и модель могла с ними работать, тогда все будет.
>>990518 Надо фиксануть что угодно из всех составляющих. Чтобы исправить вёрстку - нужно, чтобы оно работало с темплейтами. Оно не работает. Можно исправить скрипты, но это пиздец заёбно. Так как беда хромиум-релейтед, то можешь скачать фуррифокс. Я скачал, у меня всё силки смуз. Но гарантий не даю, васянософт может тормозить больше, чем в одном месте.
>>990491 ладно, я конечно ожидал всякого, что там будет сцена сунул-вынул-кончил, но там прям нейронка целый фанфик написала про ёблю с волком в костюме дракона. с элементами БДСМ, бестиалити и доминации.
самое ироничное что в конце эротической сцены на вопрос "стоит ли оставить костюм" был ответ что да, стоит оставить. но с обратным ролеплеем с тамершей дракона.
это уже выше среднего мусора который я обычно читаю.
Я люблю занавески. Если бы моя воля они бы были везде. Они бы были в парке, на улице, в вагоне метро, на военной базе и в пещере дракона. Ведь занавески это великолепно. Их всегда можно подергать со смущенным видом.
>>990583 Не уверен, что таверна стоит того, чтобы ради неё менять браузер.
>>990587 >на огнелисе тоже грузит Потому что скрипты всё ещё говно. По таймеру идёт кривая попытка обновить один элемент страницы, даже когда ничего не происходит. Но т.к она кривая - дёргается весь код. Хром честно всё пересчитывает, фуррифокс кеширует. Дёргаются экстеншоны, стабл дифьюжн, хотя ничего из этого не включено. Дёргается сохранение чата по таймеру, а не по изменению чата. Если нажать "удалить сообщения" - то идёт два вложенных цикла, в которых перебираются все сообщения, чтобы прописать style="display: none;" кнопкам. Даже не так, всё хуже. Там по умолчанию display: none, видимость прописывается скриптами, в каждом элементе. Причём можно это сделать не через очко - просто прописав теми же скриптами ебучее правило css. Быстрее, проще, меньше нагрузки.
>>990661 >Не уверен, что таверна стоит того, чтобы ради неё менять браузер. Вообще, удивительно, как гугл зашел своими продуктами по самые яйца и всем норм. Буквально сами же пользователи подсели на монополию и в случае чего, охуеют же когда что ни будь начнется, в духе блокировочек ютуба.
>>990660 Обсуди это с копирастами и ты поймешь что ты в этом деле наивный сосунок Спереть можно идею, намек, концепт Доказать что у тебя сперли трудно, это да. Особенно если ты не заряженный на такие судебные тяжбы обладатель отдельного штата адвокатов
>>990691 Как блокируешь рекламу болезный? Гуглоподелия всё, продались. Дальше еще сильнее будут ломать инет что бы не было возможности блокировать трекеры и рекламу
>>990689 8b пишут быстрее, чем я читаю, 12b - ну, терпимо, несколько слов в секунду. Можно использовать модели в малых квантах, так они заметно быстрее, но, вероятно, тупее.
Это все надо пробовать и под себя подбирать. У кого-то в треде ниже 70b жизни нет, кому-то 10 токенов в секунду мало.
>>990694 >ниже 70b жизни нет Но при этом действительной жизни нет не при квантах 70б, а только от полноформатной модели. А все остальное кванты игристые.
>>990583 Все так, забавно что номисы с небраузером стали большинством и даже пытаются заявлять о своих правах. К тому же хром неудобный и во многом странный. >>990587 Все силкисмуз и одно недоумение с жалоб бедолаг что у них таверна лагает. Даже на планшете все идеально работает. >>990640 Это все местный гений еще более года назад предсказал, у него даже 7б полные признаки аги проявлял и рассказывал рецепт холодного синтеза! Покайтесь
>>990661 > Не уверен, что таверна стоит того, чтобы ради неё менять браузер. Ну типа хром уже сам по себе стоит того чтобы его заменить. Не обязательно на ванильную лису, там есть форки и даже с интефейсом для привыкших к упоротости бедолаг. А альтернатив таверне нет. >>990663 Да сюрр ебаный, не просто жуют первое попавшее волею случая добро, а на полном серьезе за него топят и защищают будто годами сами разрабатывали, вместо индифферентного отношения. >>990697 Врунишка
>>990788 Не правда он давал шизоинструкцию 7б, от которой модель ломалась, тупела и выдавала или лупы, или вообще несвязные компоненты изобрел и является оригинальным автором этой идеи, а остальные лишь жалкие подражатели.
>>990008 (OP) Чет, описание карточки походу мало на что влияет. Тестил одну очень долго в описание написано ютуберша снимает АСМР видео, онлайн популярность, но за около 1000 свайпов несколько месяцев тестил всплыло 2-3 раза. Тестировал на маленьких моделях типа Mistral 12B-22B (всякие NemoMix-Unleashed-12B, 22B-ArliAI-RPMax и пр.) и миксы Qwen 2+ 14B.
>>990793 Видя как {{анон}} подходит к окну и стеснительно берется за занавеску, по моей спине пробежали мурашки... В голове пробежали мысли "Могли ли размахивания бедрами привести к этому?" >>990795 Расскажи подробно что ты там тестишь. > за около 1000 свайпов несколько месяцев тестил We have a winner! Хватило бы нескольких чтобы понять что в том совокупном промте оно не скажет чего ожидаешь.
>>990787 Мистраль 22 неудачный и 12 оче хорош, в простых задачах сейчас даже мелкие сетки справляются и разницы не увидишь, скейл не линейный и будет проявляться в более глубоком и широком понимании промта, а не просто в 2 раза больше текста навалить. Мелкая модель с правильный промтом может перформить лучше большой с хреновым. В лоботомитах от васянов число параметров вообще не важно и любая может быть поломана.
>>990787 Первый случай - приятный для тебя - ты взял плохую 22b и хорошую 12b, и либо сделал очень хорошие промты, либо засрал промты так, что оно еле ковыляет. Второй случай - не очень приятный. Ты не видишь разницы, потому что твои потребности выполняются даже версией 12b, и даже такой мизер тебя удовлетворяет.
>Running DeepSeek-V3 on M4 Mac Mini AI Cluster >671B MoE model distributed across 8 M4 Pro 64GB Mac Minis. >Apple Silicon with unified memory is a great fit for MoE. >Had to stack up 8 Mac Minis to get it running. >~5 tok/sec for now. >First time running inference on 8 Mac Minis - performance can be improved a lot (theoretical limit is >10 tok/sec on this setup).
>>990976 Kum_Kumich-22b в 4 кванте неплохо держит карточку. ZAEbumBa-22b хорош в РП, ЕРП чуть похуже, но тоже неплох. Rodipit очень хорош в ЕРП, но чуть похуже в обычном РП. Есть ещё rodipiT наоборот, но тут как говорится на любителя.
>>990995 В русский могут только 12B мержи от местных анонов на основе Сайги и Вихря + сами они. Всё остальное в том числе то что выше в русский может очень условно, в лучшем случае будет выглядеть как машинный перевод диплом.
>>990661 >По таймеру идёт кривая попытка обновить один элемент страницы Но при этом если включен автоконнект, а бек не ответил, то попытка не отваливается по таймауту, а тупо висит, пока не нажмёшь отмену. >>990787 >хотя она должна быть х2 Кому должна? Там закон убывающей отдачи. >>990795 >всплыло Что всплыло? >Тестировал на маленьких моделях И хули ты от них ждал? >>990888 Ебучее мое. Я за плотные модели!
>>990888 Студио на м2 с 192 гигами которые вдвое быстрее все еще обоссывают это новье. 30 с копейками активных параметров и 5 т/с, ну кринж же. >>990951 > Клод 3.5 Это и близко не клод. Даже по кодингу чето хз, с одной стороны оно смогло предложить годные оптимизации и переделать длинный кусок кода, с другой - сильно тупило и переусложняло решение простых задач, и не смогло сделать скрипт для тренера на стандратных либах с дополнительными требованиями, с чем и чмоня, и сойнет, и опущ справляются.
>>990663 >сами же пользователи подсели на монополию Пользовался хромом ещё когда он был никому не нужной обскурной хуитой. Так что я не подсел на монополию, а, в каком-то смысле, один из тех благодаря кому она случилась. Единственный браузер из всех, в котором всё всегда работало.
>>990775 >хром уже сам по себе стоит того чтобы его заменить И чем лиса лучше? Скачал дефолтную версию, визуально клон хрома 1 в 1, разве что без поддержки хромовских расширений. И не подсасывает системную тему оформления. И без всей моей истории, сохранённых паролей и, очевидно, где-то вылезет ещё какая-то залупа, как это всегда и бывает. >альтернатив таверне нет Вот это шиза на самом деле. Долбоёб выше писал, что добавление функционала по удалению сообщений это отпиливание ног или какой-то подобный бред. Но при этом переход со всех браузеров, а хром это буквально все браузеры, кроме одного, на один конкретный - не отпиливание ног, да? Я лучше морду с минимальным функционалом за пару вечеров накидаю на шарпах и буду пользоваться, проще выйдет, чем переносить всё с хрома в лису. Нахера мне все эти "возможности расширения" и "крутые фичи", если по итогу оно хуже кобольдовской морды - кобольдовская хотя бы работает.
>>991075 >если включен автоконнект, а бек не ответил Но при этом попытка изменить визуальное отображение статуса подключения по таймеру есть. Но не самого подключения. По факту, таверна нихуя не делает и проверяет - не изменилось ли чего. Когда десятый раз за вечер проверяешь холодильник. И если у тебя отвалится бек в процессе использования - то этот же таймер тебя задрочит уведомлениями о потере коннекта.
>>991215 >И чем лиса лучше? Vsem. >И не подсасывает системную тему оформления. Люнупсоид? Вот, у меня всё системное насколько это возможно. Список закладок если что замазал. >По факту, таверна нихуя не делает и проверяет - не изменилось ли чего. Бля, всё больше желания залезть под капот и удалить половину кода. Но нет, нахуй, я жить хочу, а не костыли поддерживать.
>>991215 > И чем лиса лучше? Хром уже научился открывать новое окно от нажатия средней кнопкой мыши по свободному пространству сверху? Или в разное поведение открытия нового окна в зависимости от места/кнопки нажатия? Оче много претензий именно к интерфейсу и поведению, по мелочам, но их запредельное количество. Пахомовская внутрянка и обилие зондов, чтобы получить базовый функционал нужно много рассыпающихся костылей вместо нескольких основных, анальные зонды и засирание системы бонусом. То есть уже для пердоль а не пользования, но для пердоль chrom@flags уступает about:config по возможностям и гибкости. Хз, использовать хром основным браузером - себя не уважать, и оказывается в нем еще страницы лагают. Озвученные тобой претензии к фурифоксу выглядят надумано или ты что-то неправильно делал, а "перенести" - сейчас любой браузер это умеет и разок придется заморочиться. Там своего говна хватает, но по сравнению с хромогом это ерунда. > Вот это шиза на самом деле Шиза - желать удалять сообщения из начала чата потому что шустрый интерфейс лагает. Раз такой идейный - плати налог на безногость глупость и скрашивай страдания такими полотнами оправданий. Наблюдать за подобными поднадусеровыми - не меньше удовольствия чем развлекаться с нейронкой.
Кто как дружит ContextShift и глупую таверну? Только сейчас понял почему карточка иногда начинает постить шизу по завершении контекста если в чатике используются какие-то надстройки от таверны вроде лорбуков + сдвиг. Об этом даже написано в документации, но кто читает доки
Может вообще отказаться от всего этого и тупо делать суммарайз и пересоздавать новый чат после достижения лимита контекста? У кого какой опыт.
>>991227 >Vsem. Это не ответ. >Люнупсоид? Шинда десятка. Стоит тёмная тема, по дефолту не подсосалось. Мелочь, а неприятно. Удалять код даже хуй знает, я удалил подсветку кода и интерфейс таверны полностью перестал грузиться. Хуй знает, что там нагородили.
>>991245 >оказывается в нем еще страницы лагают. Только кривые васяноподелки, но обычно он вывозит даже их, просто таверна запредельно кривая. >шустрый интерфейс Ты чисто принципиально долбоёб, да?
>>990997 > В русский могут только 12B мержи от местных анонов на основе Сайги и Вихря + сами они. Сами аноны? Кумить в личку обниморды?
>>991099 Я не гонял, мне лень регаться, если честно. х) Так, чисто на бенчи глянул. С другой стороны, там не супермного ресурсов, для своих разрабов норм, наверное, я полагаю. 5,5 млн долларов, что ли.
>>991154 Смотришь порно — ты насильник! Смотришь в снег — ты холодильник! >>991182 И это не забудь.
>>991182 Поделись карточкой потом >>991320 Весь такой правильный и прямой, но почему-то вместо того чтобы инджоить взаимодействие с ллм, объясняешь причины почему ты этого не можешь. Ну хуй знает.
>>991215 >И чем лиса лучше? Это наверное единственный браузер, который при попытке настроить прокси не вызывает системную страницу, а даёт настраивать у себя. И например настроить в браузере чтобы не использовать прокси в зоне .ru можно только в нём. А это важно, если не хочешь чтобы провайдерский DPI твой прокси не запалил. В такое время живём.
Никому не интересно, почему за прошедший год мы не увидели ни новой гопоты ни новой клауды? Куда делись все эти заумные разговоры про аджиай, про новую технологическую эру и прочее? Все резко поумнели и перестали пиздеть ради инвестиций, или реально мы достигли потолка в развитии языковых моделей?
Типа, вряд ли же у альтмана закончились деньги на новые хопперы или он уже высосал всю дату из интернетов, и ему банально уже нечего скармливать новому поколению? Потому что учитывая масштабы и мощности, мне кажется что пятерку на сотни триллионов параметров можно было бы с нуля обучать каждый месяц, но вместо этого мы получили потешные 4o, o1, o3, которые как-то очень слабо тянут на ту самую всемогущую GPT5, которая и рецепты всех панкейков знает на молекулярном уровне и новый подвид крыс с сиськами вывести может.
>>991688 А о3 что по твоему, клован? Все вкатываются в RL-CoT, классическими LLM уже не добиться большого скачка в прогрессе, размер параметров давно ничего не решает, потому что датасет не растёт. > потешные > o3 Который ебёт всё что можно. А у тебя он потешным стал, лол. > ту самую всемогущую GPT5 Классического трансформера в жпт5 не будет, даже не жди, ему не откуда взяться когда датасета нового нет. Будет либо дальнейший тюн RL, либо liquid-state или RNN.
>>991688 > ни новой клауды Опус по которому до сих пор ноют локусты, 3.5 сойнет, который вполне хороший all-rounder, гемини, которая ебет по многим критерием, довольно крутой результат по совокупности для чмони с учетом ее размера. Опены смекнули что нужно расширять рынок, получать новые данные что помогут в будущем, но делать это с минимальными затратами. С учетом этого их стратегия хорошо играет. Зачем выпускать в массы > пятерку на сотни триллионов параметров если можно продавать о1 мини? Внутри у них могут быть более продвинутые протоипы, которые не релизят по причинам. А может ловят серию фейлов и столкнулись с проблемами эффективного управления и кадров. В столь быстроразвивающейся области нужны не дефолтные программизды, типичные тимлиды и макаки, а люди с другим мышлением. Но с квалификацией. Та же проблема что и везде, только более остро. >>991703 > Классического трансформера Будет многоножка из transformers-based сеток. Возможно и какие-то другие архитектуры найдут там место, но основными перечисленные оче врядли станут.
>>991703 >Все вкатываются в RL-CoT, классическими LLM уже не добиться большого скачка в прогрессе Ну и сколько жрет твоя ебаная резонирующая цепочка для высирания ответа по типу 2 + 2 = 4? Тыщу другую токенов, или типа того? Это и есть тот самый прогресс - прикрутить кривой кот-блок к модели и закончить на этом?
>>991721 >Опус по которому до сих пор ноют локусты, 3.5 сойнет, который вполне хороший all-rounder, гемини, которая ебет по многим критерием, довольно крутой результат по совокупности для чмони с учетом ее размера. Я и не говорю, что прогресса вообще нет. Моя простыня скорее про то, что это отскок куда то в сторону, нежели развитие по старому курсу.
>Зачем выпускать пятерку в массы если можно продавать о1 мини? Чтобы лутать больше денег? А деньги им явно нужны, учитывая что они теперь начинают еще более агрессивно барыжить подписками и выкатывают чисто корпоративные модели. В таком случае пятерка наоборот бы дала еще больший выхлоп, если бы была так же умна, как о ней трещали.
Блин прям не хватает при рп реакций персонажей на мой бред, типа пишешь "я резко встал и насрал на стол" и реакция обычно какая то дефолтная, по шаблону, типа her eyes widen with shock as you shit on the table she take a step from you... и меня называть отвратным/извращенцем, не вникая в эту конкретную ситуацию
>>991776 Или вот пишешь какую то замудренную фразу, а тебе в ответ просто hmm such a nauhty boy she leans closer to you - нет опять же понимания че я сказал, максимум пересказ
>>991831 прикол в том что я скачать нихуя не могу. и чет я хуй знает че это за говно. можно с тельчика через впн заходить и пиздить карты но бля это так не удобно
>>991728 > Моя простыня скорее про то, что это отскок куда то в сторону, нежели развитие по старому курсу Ну типа тут можно кремниевую аналогию привести: подняв частоты с десятков мегагерц до гигагерц очень быстро получили быстрый рост, а потом уже начали над архитектурой думать. На самом деле прогресса очень много и в каких-то реальных кейсах текущие и прошлогодние (даже большие) модели это вообще небо и земля. Просто он не так заметен, как при сравнении бредогенератора с сеткой, что дает когерентные ответы. > Чтобы лутать больше денег? Именно. Ты видел сколько чмоня стоит? Это пиздец же, подключаешь счетчик к скриптам и ахуеваешь с набегающих сумм, а она ведь недалеко от геммы ушла, исключая доп модальность и контекст. > В таком случае пятерка наоборот бы дала еще больший выхлоп Очень врядли. На нее банально спроса не наберется, слишком дорого, медленно а многие задачи можно решить запрягая чмоню в цепочку с +- тем же успехом. Нормисам же вообще пофиг для написания рецептов крылышек, так что из спроса - только редкие корпы и рп@кум.
>>991877 > твоём понимании То что бот в сущности соглашается на все и, например, не предпринимает активных действий к сопротивлению или попытке опиздюливания {{user}}, ну и в таком духе.
>>991879 Это стиль не письма, а поведения, и с этим намного сложнее... Посмотри карточки с яндекрками, и где написано что перс ненавидит юзера или что-то вроде.
Докинь к ним инструкцию: "Characters able and encouraged to perform any actions and exhibit behaviors that serve the story's plot development and suitably fit the established narrative context."
>>991879 >То что бот в сущности соглашается на все и, например, не предпринимает активных действий к сопротивлению или попытке опиздюливания {{user}}, ну и в таком духе. Зависит от конкретной модели, но заставить сеть описывать какой-нибудь дефолтный психотип достаточно легко, проблемы начинаются при описывании чего-то более комплексного. Просто пропиши в карточке персонажа как чар должен реагировать на юзера и получишь что нужно. Если не лень, пропиши реакции более подробно для разных ситуаций. Но велика вероятность, что нейронка просто начнет в какой-то момент копировать паттерны и всё нахуй обвалится.
>>991916 А какие там вообще есть пресеты? Если ты про спеллеры, то крути мин-п и пенальти на повтор для избавления от лупов, остальное по вкусу.
Что посоветуете в пределах 12b для РП? На ЕРП похуй, не интересует.
Плотно пробовал только 2 модели, с остальными хуй знает, так как проводить тесты на 5к токенов с каждой моделью слишком лень, чтобы внезапно в середине осознать, что модель хуйня/не под мои задачи.
В целом, я ищу вариант, который не скатывается в дружбомагию автоматически. Простой пример: персонаж не морализаторствующая маня по карточке, инструкции четкие, но модель всё равно скатывает его в эту хуйню, когда ты отрубаешь кому-нибудь голову. Безусловно, это можно контролировать, но нужно переделывать карточку, давить/систем промптом сильнее/свайпать.
В то же время есть модели без этого типа тёмной планеты, но они специфические. Тут важен баланс.
Ах да, ну и 32б такую хуйню мне не писали почти никогда, следовали инструкциям, но сидеть на 2 токенах или меньше я не в силах.
>>991885 >стиль не письма, а поведения Чем дальше, тем больше мне кажется, что тюны второй лламы были интереснее. Сейчас всё на синтетике тюнят, персонажи одинаковые, стиль письма одинаковый. И поведения тоже. Да, старые модели писали натуральный бред, но это был бред в нужном стиле. Сейчас прописал карточку сильной доминантной женщины, моделей пять попробовал, они пишут одни и те же речевые обороты, ведут себя идентично. И это максимально далеко от того, что в карточке, спустя пару тысяч токенов персонаж уже дефолтная девочка. Или отращивает хуй. Нужно убрать из карточки упоминание маскулинности персонажа. Что уж говорить про что-то более сложное.
>>991929 Не знаю, не юзал его никогда. Для ламы критически важны только мин-п и штраф на повторы, остальное можно либо не трогать, либо уже ставить по своему опыту.
>>991930 >Сейчас всё на синтетике тюнят, персонажи одинаковые, стиль письма одинаковый. А что ты предлагаешь взамен? Писать дату вручную или юзать дампы? Второй вариант конечно был бы хорош, но многим банально лень заниматься фильтрацией и форматированием. Плюс семплов нужно очень много, а хороших примеров для рп в сети явно меньше. Короче, синтетика это пока самый простой и надежный вариант для тюнов. К сожалению.
Попробовал NekoMix и SAINEMO-reMIX. Как же они на высокой температуре сыпят метафорами, вставляют поговорки и на ходу придумывают новые, просто генератор мемов.
Впечатления положительные, особенно от SAINEMO. Я, наоборот, опасался, что сетка будет "думать" на английском, а русский будет просто сухим переводом этих мыслей. Нет, все живенько так, с душой. Даже шутку про медведя выкупает.
Эра русского ерп на маленьких локалках официально наступила
>>991954 >официально наступила Давно уже наступила, только слишком он дружбомагический, если прям вот не настаивать. Да и слишком суп из десятка+ моделек. Хотя согласен что годен, весьма и весьма.
>>991877 Кстати, я тут обновил kobold.ccp и наконец то попробовал gigachat-20b-a3b-instruct-q5_k_m в SillyTavern для ЕРП и чо хочу сказать - есть потенциал, но конечно же нужно допиливать. Я не очень шарю за эо, но как насчёт того что бы кто-нибудь сделал слияние SAINEMO-Remix и gigachat? Такое вообще возможно? Ну или хотя бы "лору" какую нибудь накинул сверху, если тут такое можно. Даже при том, что у меня 12гигов врама 3060, я смог закинуть модель весом 13.6 гигов и 8к контекста и скорость была ~10-7 кокенов в секунду (в зависимости от заполненности контекста).
Затестите ещё кто нибудь эту модель и скажите, что думаете о ней?
>>991967 Покажи какой-нибудь ультимативный чат с мелкой моделькой на ру, где идет развитие и рост интереса, а не деградация и скатывание в течении 30 постов.
>>991954 >Эра русского ерп на маленьких локалках официально наступила Вы заебали жирнотой срать. Кто-то из залетных ведь не выкупит и реально поверит в это.
>>991933 >её контекст Да не в контексте дело, ропили же как-то и ничего, жили. Просто у них мозгов мало, уже потыкал модели поумнее и на более тупые переходить не хочется. Там все персонажи в итоге - двое из ларца.
>>991947 >А что ты предлагаешь взамен? Худлит, новеллизации парсить. А так на теперешних моделях только рулбуки размером с войну и мир помогут, но здесь есть минусы - ты сам его пишешь и в итоге уже будет рп с персонажем, которого ты полностью прописал, реплики и реакции. Не так интересно.
>>992007 >Худлит Итак есть в датасетах. Это только поможет зареинфорсить какой-то стиль, что тоже сомнительно. >новеллизации парсить Средненовелла от японских трусонюхов сильно по качеству текста от дефолтной синтетики отличаться не будет. Вот где где, а там точно нет ничего оригинального. Три шаблона для персонажей уровня "вот у нас тут цундерка, вот кудерка, и сверху между ними мать", ванильная романтика про держание за ручки и тонны ебаных рассуждений чтобы искусственно растянуть хронометраж, либо прямые описания по типу "вот тут я пришел, вижу дерево, дерево видит меня, но непонятно, что же дерево думает обо мне..."
>>992001 Просто хороший чат что понравился скинь. Интересно до чего дошла мелочь на русском, может потом спрошу с каким промтом пускаешь. > но вообще свои чат-логи я тут уже пости и неоднократно Ну там просто какие-то обрывки и полотна, которые без контекста оцениваются как уровня мифомакса или визарда 1.5годовой давности. Короткие предложения и структура повествования - будто прямой перевод простого инглиша, а не что-то типичное из русской/переводной художки. Так-то даже всякие рп-миксы более сложные обороты в английском закручивали.
Может это не большая проблема и там на самом деле история интересная и моделька умная и хорошо отыгрывает, но по обрывкам не оценить.
А че где Я все время вижу как тут обсуждают мелкие ру модели, но что мне щупать то? Список мне, список. А то каждый раз новую сетку упоминают, вобще в рентри бы и в шапку список ру сеток. Желательно по рейтингу. Кумеры, пишите внятные отзывы, не понятно что в топе У меня где то вихрь немо скачен, вроде неплохо болтает на русском, рп ерп не проверял, на этом мои полномочия всё
>>992044 >Список мне, список. А то каждый раз новую сетку упоминают, вобще в рентри бы и в шапку список ру сеток. Желательно по рейтингу. Бери и делай, кто тебе запрещает? Или кто то другой должен надорваться ради тебя, потому что тебе лень искать?
Хуй с вами, сам нашел Не самые свежие, но тесты на русский у сеток https://github.com/VikhrModels/ru_llm_arena Можно поднапрячься и протестировать новые ру сетки анона, скрипт там есть
Есть желание наладить взаимодействие сетки с программой. Идея такая: на вход модели передаётся промпт с данными, а она генерит JSON с ответами, который программой распарсивается и показывается пользователю. Или в ответе набор тегов, внутри которых данные, если модели так будет проще. Вопрос в том, какая модель до 32B сможет потянуть выдать в ответ хотя бы не перекошенный JSON? А то даже 123B косячат с форматированием, но там у меня был типа ролеплей, а если строго соблюдать формат, то может и мелкая модель потянуть. Наверное.
>>992125 У меня были первые впечатления, что некомикс - душевно, но с шизой, а сайнемо - адекватно, но суховато. Потом вспомнил, что в пресете некомикса температура 1,25 и всякие Топ кеки вместо привычного MinP. Воткнул для эксперимента пресет от некомикса в сайнемо, и мне понравилось. Сайнемо на 1,25 оживает, а шизы практически нет. Только упоротые метафоры иногда лезут, но так даже веселее.
>>992122 Сейчас даже 12-14б хорошо генерируют структурированные форматы, если нет проблем с семплингом или разметкой промта. Это вполне сочетается со всякими cot и прочим. Если тебе просто выбор из нескольких вариантов и вопросов мало - можешь затребовать отвечать с использованием xml тегов, и потом находить их в тексте.
Тут ты совершенно неправ. Не знаю, как это называется, но несбалансированные модели имеют склонность подсасывать юзеру в любых ситуациях (хотя тут дело скорее в том, что это их изначальная — помогать с работой, а не РП, и это просачивается).
Вторая проблема в том, что большинство моделей скатывает рп во что-то позитивное, даже если контекст подразумевает обратное. А «злые» модели делают ровно наоборот. И приходится толкать модель самому в нужную сторону при её сопротивлении.
Коммерческие модели подходят, но только уровня клода или гпт, но там нужно апи и тонна бабок, и слишком жёсткие сцены они все же не описывают. Чаи же вообще абсолютно тупой, наверное, там что-то уровня 8б.
Как ты вынес на 1,5 токенах сидеть? Ради чего такие жертвы?
>>992023 >Средненовелла от японских трусонюхов Ты не путай лайт новеллы и новеллизацию. Первое это хуйня уровня отечественных высеров про впопуданцев. Нет в датасетах - и слава нейросетям. Скорее всего, уже есть. А новеллизация это другое, это выходит, допустим, фильм. Дичайшая картинка, спецэффекты, актёры, саунд дизайн, вся хуйня. Тратится на фильм ебелион денег. И вот для омичей-полуёбков, чтобы не смотреть фильм, пишется книга по сценарию фильма. За пачку сухариков. Бывают новеллизации хуёвые, очень хуёвые или не имеющие ничего общего с первоисточником, кроме названия\сеттинга. Насколько помню, было даже, что колесо сансары давало оборот и снимался какой-нибудь сериал по книге, а потом по сериалу выходила новеллизация. Так что это, по сути, фанфик на максималках. И в этом кроется его ценность, т.к кумер потом приходит и пишет\скачивает карточку любимого персонажа из очередной кинематографической хуйни. А персонаж нейросети уже известен, потому что она накушалась фанфиков. И, в отличие от жирушных фафиков, в них нет сюжетов с еблей Гарри Поттера профессором Дамблдором, а всё более-менее лорно. Хотя может быть, и такая ебля лорная, хуй знает.
Бляяять от от этой нейро дрочки уже как нарик зависимый стал. Больше обычное порно вообще не вставляет. Китайские порно-мультики и подавно. А всего то: одна 3060, одна SAINEMO-reMIX и в путь. Всё свободное время на это трачу, пиздец. Особенно после того, как нормальные ру модели 12b подъехали. Представляю что будет с людьми будущего, когда секс-андроидов начнут выпускать массово.
Блядь, просто пиздец. Каким нужно быть извращенцем, чтобы кумить с такой моделью? Мало того, что она тупорылая, так ещё и некрасивый русский язык. Даже обычная 12б с хорошим англ и автопереводом будет лучше.
>>992283 >Тут ты совершенно неправ Возможно, признаю.
>>992283 >Как ты вынес на 1,5 токенах сидеть? Сворачиваю и занимаюсь другими делами.
>>992283 >Ради чего такие жертвы? Ради того чтобы протестировать модель, собственно. Но в результате ни одна модель больше 22б не оказалась стоящей того.
Гемма 27 исключение, но её юзаю не для рп а для переводов.
>>992029 >Просто хороший чат что понравился скинь. Хорошо, намержу которая устроит, и на ней что-нибудь запишу, как раз планы такие и есть.
Пытаюсь намутить великий суп из вихресайги и англ рп тюнов с минимальным участием мержей, только тюны.
Правда пока топ по лайкам (целых три, ага) просто мерж из 8 понравившихся мистралей.
>>992129 Ты идиот? Если ты это видел то это не значит что все это видели. Пока на это нет ссылки в шапке ты идешь нахуй
К тому же ридми обновляли 2 недели назад. Не смотря на то что самому репозиторию пол года, там есть новые модели на вроде вихря немо, например Совсем кумеры сдрочились и отупели
>>992382 Есть ощущение, что Сайнемо это какой-то мозговой паразит. Столько одержимых у этого самопала за последний месяц появилось, что других объяснений у меня просто нет. Мерж объективно ниже среднего по качеству, но столько поехавших еще ни разу вокруг чего-то проходного не собиралось, так что дело тут явно нечисто.
А, ну тогда понятно. Я просто турбо реактивный. Если бы модель прям охуеннейше писала, то я бы ещё готов был подождать, а так...
>гемма для переводов
Ты имеешь в виду, что используешь вместо всяких Яндекс переводчиков? Просто странно, если ты используешь ее для работы или вроде того. Судя по размеру модели, ты там не трешак переводишь.
Я очень большие объёмы перевожу на клоде, буквально миллионы токенов, и уже успел почувствовать тонну нюансов. Даже мощной коммерческой модели нужно для качественного перевода, исключающего ошибки в 90% случаев, переводить последовательно и малыми кусками (из-за размытия внимания к контексту) в течение 3-6 итераций одного и того же куска размером в 200-250 токенов. В общем, даже с автоматизацией и работой 24/7 отвал жопы.
Это именно тот самый не слишком шизофреничный магнум и планетка.
Алсо, ты не думал добавить: DavidAU/MN-GRAND-Gutenberg-Lyra4-Lyra-12B-DARKNESS ?
Просто она мне больше понравилась. Я не слишком тестил модели этого товарища, но вот конкретно эта весьма хорошо себя показала себя. Темные сцены хороши, язык живой, поведение адекватное (правда, требует ебли с настройками, иногда приходится менять их в зависимости от карточки персонажа).
Завтра могу накидать посты от этой модели, если хочешь чекнуть.
Понимаю, у тебя цель сделать русек, так что это может быть не слишком целесообразно.
>>992458 Это при том, что есть немомикс анлишед, у которого неплохой русик, но автор почему-то не хочет вместе с ним слить, чтобы этот русик улучшить. И сама та модель неплохая.
>>992473 Так он написал, что как раз хочет сделать что-то другое в том числе потому, что в сайнемо немомикс из кучи моделей, не хочет левые миксы закидывать. Видимо, не принимая во внимание, что немомикс выбирался его автором как раз потому, что он показал себя как рп тьюн, в котором остался адекватный русик. Как только автор сайнемо добавил больше росинанте, чем немомикса (в некомиксе), так сразу логика на русском просела из-за плохого русского в росинанте, например. >>992438 Пробовал на днях камелот - не знаю, что там по дарковости, но и русский, и логика проседают имхо. В карточке с Дамблдором, который орёт капсом, на которой все ру мержи обсираются (видимо, капс как-то странно токенизируется), вылезает прямо совсем едва связная шиза. Сайнемо там худо-бедно справлялась. Я Q4_K_M юзал, правда, но вряд ли там сильное отклонение, той же температурой 1.25 бахнуть, как кто-то выше писал, и то небось сильнее расшатает, чем такой квант. >>992458 Ну сайнемо действительно вышел удачным по сочетанию логики, русского и живости в ролплее. По крайней мере, мне показалось в моих коротких тестах, что лучше и немомикса (тот сам по себе вообще параша имхо), и сайги, и вихря. Пока оптимальный вариант для любителей рп на русском, видимо.
Вообще присоединюсь к офигевающим с нахваливающих ру рп на 12б. Немо на инглише то тупые, недалеко ушли от 8б. Если есть несколько персов и локаций, то там путаница и косяки у меня начинаются не то что после 30 сообщений, а в пределах десятка уже. И это без прожарки температурой. Как там на русском может получаться что-то связное, не представляю. Да, оно норм, если совсем нет желания рпшить на инглише, но подавать это как топ очень странно.
>>992458 >других объяснений Тред захвачен скуфами-глубинариями, которые в лучшем случае на английском тех. документацию со словарём читают. Вот и хватаются за любой русек.
>>992473 >>992487 >>992488 Лолирую с илитариев, которые только запустили у себя 27б, и теперь сверху на 12б русек плюют. А модель-то отличная. Обычно русек гоняю на 123б, ни ошибок, ни проблем. Саинемо может косячнуть в логике, 12б - ему простительно. Но всё равно текст живее для носителя.
>>992499 >Обычно русек гоняю на 123б Это не добавляет тебе компетенции. >Саинемо может косячнуть в логике, 12б - ему простительно Даже дефолтная немо не косячит в логике так сильно, так что ничего простительного тут нет. Сайнемо это шизосплав из нескольких шизотюнов, в сравнении с котором даже старенькая 8б на инглише показывает чудеса сообразительности. >текст живее для носителя Только если тебе лет 13 и ты преимущественно потребляешь калтент с фикбука и прочих помоек. Хотя, кумеры конечно не самые привередливые потребители, так что тут даже можно не удивляться.
>>992487 > Видимо, не принимая во внимание, что немомикс выбирался его автором как раз потому, что он показал себя как рп тьюн, в котором остался адекватный русик. Как только автор сайнемо добавил больше росинанте, чем немомикса (в некомиксе), так сразу логика на русском просела из-за плохого русского в росинанте, например.
Ранее немомикс в мержах ломался. Хотя надо попробовать ещё раз, с другими настройками.
>>992487 >но подавать это как топ "Среди слепых и одноглазый - король."
Вообще англ карточки тестятся на 22б пантеоне. Едва ли не лучшее среди 14-32б моделек что пробовал, только в ерп проседает, не отказывается, но пассивен. Ещё AlpacaBeepo неплох, и Cliffhanger.
Но 12Б пантеон в мержи включать не стал потому что там немалая часть тренинга это вжаренные персоны, и потому что сам автор недоволен тем что получилось.
>>992499 Модель отличная для вката, но если у тебя запрос сложнее кума/лёгкого РП, то сразу всё. Потому что, если ты напишешь реально хорошую карточку персонажа — жидко обосрешься.
Нормальные карточки далеко не всегда переваривают 12B модели: теряют характер персонажа, не отрабатывают инструкции, теряют внимание к контексту, поэтому даже хоть 120к контекста ты ей запили в 8 кванте — это будет срань. В то время как более жирные модели это норм отрабатывают.
Я не говорю о том, что модель надо хуями крыть, надо на неё трезво смотреть, по возможности помогать автору советами и поддерживать. Потому что хотя бы сделать просто хороший русский язык и средний рп типичной англ модели вполне реально.
>>992487 >немомикс мержился одним из алгоритмов что случайно изменяют веса в процессе мержа, то есть даже при повторении рецепта точно такую же модель ты не получишь
>>992545 Так я не к тому, что нужно пользоваться этим же рецептом. Там и включённые модели не то чтобы хороши. Как я написал, на инглише он мне не понравился прямо совсем. Просто как-то так вышло, что русский там лучше, чем в некоторых других мержах, а рп составляющая лучше, чем у сухой немо базы и вихря. Вообще объективно это сложно проверить, но, по крайней мере, несколько анонов, которые пробовали другие тьюны немо на русском, в своё время по этому поводу отписывались. Поэтому его исходно и стали кидать в ру мержи. Вполне возможно, что будет и лучше вытеснить его чем-то другим, но нужно чекать составляющие, чтобы русский там был не совсем паршивый, если уж цель улучшить ру рп. Вообще я считаю, что экспериментировать здорово, почему бы и нет. Так что этого >>992535 и автора сайнемо поддерживаю. Но нужно ожидать, что если, скажем, берёшь того же Дэвида, который, видимо, жёстко дообучал и явно не на ру текстах, то будет и падение ру качества.
>>992488 А вот хуй там, больше года кумлю на английском. Периодически в треде всплывало что-то в духе: "А вот Фиалка специально для русского рп", "А вот Лама 3 8B (или что там было, уже не помню) неожиданно хорошо в русский умеет". Каждый раз пробовал, получал "ебал ее рука" и в ужасе убегал обратно на англюсик. Сайгу вот не трогал, но ее в треде так говном поливали, что не возникало желания. И только на Сайнемо впервые получил ощущение, что на русском неиронично можно рпшить, и это даже интересно.
>>992520 Будто на английском у 8-12b слог лучше, чем "калтент с фикбука и прочих помоек". Finally, after what feels like an etetnity, можно переключиться и отдохнуть от стандартных английских нейрофраз.
>>992581 >Будто на английском у 8-12b слог лучше Там хотя бы нет синтаксических ошибок. Да, там есть клодизмы и слопизмы, но это не откровенная шиза уровня "ебал ее рука", как ты выразился. Лучше уж потерпеть озорные глазки в тексте, чем пытаться проглотить месиво из несвязанных словосочетаний на русском.
>>992582 > пытаться проглотить месиво из несвязанных словосочетаний на русском Так используй нормальную модель, и не будет такого. Начиная с 70б даже чистая ллама может, на 123б мистрале вообще никаких ошибок. Ну и сайнемо экстраординарно хорошо для 12б может в русек. А ты что используешь?
>>992582 Так в том-то у меня и культурный шок, что ошибок реально мало. Иногда проскакивает не тот род или падеж, но у английских 12b с той же частотой (или даже чаще) ломается разметка или предложение начинается с маленькой буквы. Это мелочи, которые привыкаешь исправлять или игнорировать. Несвязного месива у меня точно нет. И это с температурой 1,25.
>>992382 А я наоборот думал что обычное порно больше не нужно, но как надрочился на буквы и картинки просто включаю прон и там жанры девки на любой вкус в 4к в 60 фпс и нет ебли с вводом руками
>>992488 Ну не могу я дрочить на что то вроде "Oh fuck baby! Oh yea!" и т.д. Чувство что я смотрю какое то дешёвое постановочное американское порно с актрисами у которых сиськи набиты силиконом. Теряется для меня та самая ламповая атмосфера. Особенно если ты представляешь всё это себе в голове в стиле аниме. У кого то может по другому, но у меня так. Раньше я терпел, но потом когда стали выходить +- приемлемые модели на русском, то просто перешёл на них и не парюсь.
>>992283 > несбалансированные модели имеют склонность подсасывать юзеру в любых ситуациях Все так, тут нужен или оче удачный тюн (чаще общего назначения а не чисто рп) или минимальная шлифовка наиболее близкая к оригиналу. Про позитивное-негативное выше, это почти обязательное условие если хочешь не просто кумить. >>992407 Ну, чувак только дорвался до нейрокума, раньше ему это было недоступно из-за языка-железа или не интересовался. Бедолаги раньше вон на пигметурбе 7б кумили и хвалили, вторая ллама 13б в топах была >>992438 > Но в результате ни одна модель больше 22б не оказалась стоящей того. Если ты "тестировал" с 1.5 токенами то результат вполне закономерен, сюда же база в виде формата. Особенно когда заведомо имеешь тройную предвзятость. > намержу которая устроит, и на ней что-нибудь запишу Хорошо, интересно будет глянуть. >>992458 > Столько Здесь всегда хватало бедолаг - адептов 7б и подобных, нытиков за переводы и т.д. Не то чтобы их прямо много, просто наиболее активны и много пишут. >>992499 > Лолирую Уже 1.5 года лолирую со страдальцев, катая исключительно самые большие модели. Офк исключая мусор типа 180 фалконов, 405 лламы и мое-срань. История циклична, так сказать.
>>992595 >Чувство что я смотрю какое то дешёвое постановочное У меня аналогичное чувство, только на русском. Недостаточно у русского в ерп выразительности как будто, скудный набор слов, все какие-то грубые и уничижительные. Через метафоры какой-то кринж выходит. Ещё можно пользоваться калькой с того же английского, но зачем, если на самом английском получится так же, а модель будет меньше тупить. Единственное, что более-менее "работает" в русском - отыгрыш быдлана-гопаря и ебля каких-то дворовых шалав, вот там это всё смотрится более-менее уместно. Но такой русский мир не совсем в моём вкусе.
>>992617 > Единственное, что более-менее "работает" в русском - отыгрыш быдлана-гопаря и ебля каких-то дворовых шалав.
Пездос, не пробовал никогда... Хотя вру, одного хача тут постил ради прикола недавно, но мне показалось что он был недостаточно быдланом в своих выражениях.
Ты наверное не пробовал читать японские визуальные новеллы на русском? Почитай Fate Stay Night или X change 2 или Kanon и т.д.
>>992621 >японские визуальные новеллы на русском Так, повторюсь, зачем калька с других языков, если можно читать оригиналы? И английский, и японский я знаю. И в случае с нейрокумом модель на английском соображает лучше. А то, что переводы прон-контента с других языков в русском работают лучше, чем ориджинал контент на нём же, как раз скорее подтверждает мою точку зрения. У нас этого не делают, видимо стесняются, видимо у нас это сильнее табуировано. Скрепы, чтоб их. Не стесняются быдло-васяны-коляны, но это не мой мир, я привык к другому. Короче, русский не для кума.
>>992621 > японские визуальные новеллы на русском Их сейчас локализовывают, оказывается. И как, там заморочились с хорошим переводом, или ебанина как обычно? Не то чтобы на инглише сильно лучше, но там культура этого развита более и потому средний уровень выше.
>>992626 >Их сейчас локализовывают С подключением, уже лет 15 как.
>>992625 >Короче, русский не для кума. Покажи хороший литературный англ нейрокум, не обязательно на большой глубине контекста, можно даже в первой десятке постов.
>>992624 >Зачем нам эти 12b на английском Потому что русский там может оказаться не настолько проёбан и улучшить рп-аспект ру модели.
>>992625 Сколько процентов людей в России знают и и английский и японский? Ты хоть понимаешь что ты настолько нишевый, что твои аргументы о том, что раз ты знаешь что то, то это норма и стандарт и все должны отдавать приоритет тому же что и ты это хуйня полная? В России даже английский один нормально знаетлишь процентов 10-20 населения в лучшем случае и то, это в основном из-за зумеров.
Что делать, что нейронка подхватила инфу из лорбука? Упомянуть ключевое слово просто? Допустим у друга это список поз, он сам многих не знает, как ему лучше сделать для разнообразия?
>>992627 > уже лет 15 как Сильное заявление, кроме редких манифестаций кривого шмурдяка с редчайшими исключениями тогда ничего не было. > С подключением Ньюфаги совсем ахуели, желаю тебе на апплокаль намотаться. >>992629 > Сколько процентов людей в России знают и и английский и японский? Единица минус 95.25%? как раз так Среди грамотных, образованных и имеющих потребность в контенте сложнее тиктока людей большинство знает хотя бы один иностранный язык.
>>992639 >>992625 Короче иди на хуй, бессмысленно тебе объяснять. Я как будто с Росовым разговариваю. Считай и дальше свои английские модели для кума лучшими и самыми правильными в мире.
>>992629 >и японский Про японский я изначально речи не заводил. А про английский я объяснил свою позицию. Если знаешь его для комфортного наворачивания контента, то лучше на нём. А большинство зумеров из относительно крупных городов всю жизнь этим контентом питаются, ну в крайнем случае достаточно молоды чтобы за несколько месяцев подтянуть уровень. Только если тебе ближе к 40, тогда я ещё могу понять.
>это в основном из-за зумеров И тут мы внезапно возвращаемся к моему первому посту >>992488 Это изначально задумывалось как шутка, но доля правды там оказалась на удивление высока.
>>992629 Нахуя ты вообще обобщаешь до всей России, вафля? Среди технарей и других цифровиков, к которым мы тоже относимся, знание английского это не то что норма, а базовая необходимость. Если ты увлекаешься нейронками, но при этом не знаешь языка, на котором публикуются 99% работ по теме и который составляет 80% их датасета - то это твои проблемы.
>>992656 Так я их и решил. Это вы тут высираетесь постоянно что нужно именно только на английском кумить, блять. Сектанты ебаные. И я не говорил что не знаю английского.
>>992656 >>992648 >>992648 >>992639 >Ньюфаги совсем ахуели, желаю тебе на апплокаль намотаться Сам ты нюфаня. Я Himegari Dungeon Meister через автопереводчик прошёл.
Знание языка и возможность его применения это несколько разное, многие даже умея курить маны, в ERP не напишут больше английского аналога легендарного "моя, твоя, трахать".
Ебать тут срач развели. А вам не кажется, что это дело выбора конкретного человека?
Если чел не знает английского, то ему придётся РПшить на русском. Посочувствуем ему, но не потому, что он РПшит на русике, а потому, что у него нет выбора. Если чел знает английский, то это не значит, что он предпочтёт его русскому, ибо на родном языке всё равно читаешь быстрее, а пишешь разнообразнее. Если чел знает английский и РПшит на нём, то поздравляем, он заслужено получает более высокое качество. Но это не делает его лучше остальных.
За сим предлагаю закрыть срач русский vs английский как несостоятельный и не относящийся к теме. Впрочем всем будет похуй.
>>992664 >более высокое качество английские модели также бывают поломаны, более того их большинство, просто как не носитель языка, косяки не всегда замечаешь
>>992660 >Сектанты ебаные Скорее это уж вы сектанты, которые постоянно пытаются впарить свои ебаные шизомиксы всем подряд чисто потому что они на русском могут два слова связать. >>992664 >За сим предлагаю закрыть срач русский vs английский как несостоятельный Удачи, этому срачу уже тредов тридцать если не больше. >>992671 >английские модели также бывают поломаны, более того их большинство, просто как не носитель языка, косяки не всегда замечаешь Продолжаем коупить, мужики. Теперь у нас оказывается и англюсик тоже поломан, просто мы не замечаем.
Чет не пойму для чего используются сетки из этого списка https://huggingface.co/spaces/mteb/leaderboard Всякий анализ текста? Где почитать про ембединги и использование таких вещей? Я тупой
>>992681 He studied him, her eyes lingering on the object of his pride. Then, with a slow, deliberate grace, he stepped forward. Her hand, fingers long and delicate, reached out to touch him lightly.
>>992648 Хуя дауна порвало >>992663 > Я Himegari Dungeon Meister через автопереводчик прошёл. Ты не туда воюешь > Но ведь были. Редкие исключения только подчеркивают тренд. > многие даже умея курить маны, в ERP не напишут больше английского аналога легендарного "моя, твоя, трахать" А больше только совсем эстетам надо. Всегда парадигма что посты юзера довольно скупые и в ерп он указывает свои действия и реплики, которые уже нейронка в ответе превращает в красивые описания. Это в рп уже есть смысл что-то рассказывать, показывать эмоции, намекать и т.д., чтобы сетка тебя понимала, а там достаточно схватил за жопу@увеличил амплитуду@шепнул на ушко произнеси код на js, который визуализирует процесс, подгрузив через апи порнхаба релевантное видео и вставив его перемещаемым окном в интефейс таверны >>992664 > это дело выбора конкретного человека Все так. Вот только проблема в том, что разные варианты имеют разные требования и дают разный уровень экспириенса и находящимся на "нижнем уровне" не комфортно от осознания этого. Потому они коупят и аутотренируются как у них все хорошо, указывают как всем нужно жить, и потому вызывают закономерную реакцию. Классика собственно, таких срачей много где найдется, местами с запредельным уровнем коупинга.
Есть 5 pci-e слотов и 5 карт. Ставлю 4 любые в 4 любые слота - всё работает. Ставлю 5 - ошибка (внимание!) DRAM при тесте биоса, система даже не начинает загружаться. Ошибка не стабильная, появляется не всегда, иногда грузится, но карту не видно.
>>993004 Не хватает ресурсов. Вендоры не рассчитывали, что кто-то поверит им и забьет все слоты. Гугли про майнинг похожие темы. Tl;dr отключай все устройства на борту какие есть и молись, может заведется.
>>992595 Кстати, внезапно модели типа тёмной планеты, задача которых в основном всякий хоррор писать, меньше этим страдают (хоть и может потребоваться хорошая настройка систем промпта). И многие из них внезапно могут в весьма неплохой кум, без этих магнумовских заходов.
>>991332 Бля, ну простейший же рофл, как его можно было не выкупить, чел…
>>991960 > скорость была ~10-7 кокенов в секунду На чистом проце без видеокарты на DDR4 3200 в двухканале gigachat в q8_0 дает 10 токенов/сек, чел… =')
>>992595 Не хватает простого русского «Саша, ты — ювелир!»?
>>992624 Ви все врети!.. Не хорошая, ни-и-ит!.. =)
>>992664 Ты шо, не левак? =D Ишь какой, еще выбор захотел!..
>>993004 >Ошибка не стабильная, появляется не всегда, иногда грузится, но карту не видно. Разъём доп. питания PCIe-слотов на плате есть? Может не хватает.
>>993228 >12b ето шлачина. Давай хотя б 100б! Мне вот что интересно. Маленькие модели, конечно, сильно уступают в больших чатах со сложным миром и множеством персонажей. Однако если сравнивать зирошоты (лор+суммарайз+промпт), то результаты будут не так уж и отличаться - у хороших моделей разумеется. Ну и свайпы тоже входят в сделку, удачу-то никто не отменял. Нужно попробовать использовать (хорошие) маленькие модели в таком режиме. Это конечно извращение, но ведь мы все здесь для этого...
Но у меня там не адаптированы карточки и систем промпт под модели такого типа, и я также не слишком ебался с настройками: чувствуются проблемы. Алсо, персонаж самописный и он должен быть лишь НЕМНОГО агрессивным. Что модель может вытворять, сам видишь. Так что там надо в систем промпт пихать нужные инструкции дополнительные или в карточку.
Зато весело получилось. Прям аж хохотач.
По "живости" тут диалог монолог для меня прямо-таки не ниже 27б.
Написал стену кода. Скормил его квен кодеру qwen2.5-coder-32b-instruct со словами - ну ты раскинь это по функциям, а то здоровенная портянка, людей посмотревших сойдут с ума. И поддерживать неприятно. Пишет мне: Я всё исправил и сделал красиво. У тебя вот здесь ошибка была, и вон там. И регексп неправильный, вот так правильно. Смотрю я и понимаю, что нейросеть не может не обосраться даже когда скидываешь ей уже проверенный рабочий код. И регексп работал, и всё остальное.
>>993332 Сначала проси анализ кода и план изменений, а уже потом код пусть пишет. А то ты захотел зирошот ответ на такую комплексную задачу. Сетке сначала подумать нужно, тогда ответ лучше.
>>990008 (OP) В итоге вернулся к своему бреду с переводами. Написан скрипт на питоне, он берет xml нарезает, оттуда берет только 1 параметр с текстом и его отправляет частями макс по 2000 символов на перевод. Текст отправляется по api в koboldcpp там переводиться согласно контексту и возвращается назад (запрос и ответ работают). По какой то причине модель(любая, пробовал разные) дает очень широкие бредовые ответы вместо перевода текста, например если в тексте всего 3 слова, ответ нейросети будет содержать 50 слов с выдуманной историей вместо перевода 3 слов, но на тему этих 3 слов. Параметры в интерфейсе и в скрипте одинаковые, но результат по api бредовый, а в интерфейсе нормальный. Всякая темпиратура топ п топ к и прочее как в интерфейсе, что может быть не так? Сам скрипт https://www.mediafire.com/file/xm2ki0gkq66okxx/test3.py/file
>>993332 По мнению некоторых программистов, квен2.5-кодер хорошо работает с написанием кода, а не с рефакторингом. Так что просто не по адресу, возможно.
>>993412 Ты изобрел батчи, я верно понимаю? Еще конкуренси изобрети, еще и ускоришь. =)
ЗЫ Перевод в Кобольде делать это сервировать жаренное мясо тортом и удивляться, почему вкус странный.
>>990676 Смог запустить аж 22b модель на АМД гпу. Генерит довольно медленно(примерно 3 слова в секунду, а может и медленнее), но я привыкший, раньше на pygmalion.chat сидел, так там так же медленно текст идет, так еще и может ошибка выскочить сервер не отвечает и нужно заново было генерить. Так что оно теперь даже лучше чем было. Но текста как то мало. На pygmalion.chat боты целые полотна текста высерают на один твой пук типа "I squeezed her breasts" а в кобольде боты отвечают одним предложением и редко когда больше (пикрилейтед). Я использую Cydonia-22B-v1.3-GGUF с квантованием 4 бита. Можно как-то ботов заставить побольше текста писать?
>>993620 >Cydonia-22B Однако насколько она хороша в креативном писательстве? Может ли сама продумать детали своего сеттинга, мотивации персонажей и предугадать предпочтения пользователя. Лучшая модель - это которая словно дообучается в процессе чата. Чем длиннее контекст, там лучше аутпут! Размер модели не проблема, если запускаешь в облаке.
>>993332 Целый день пробовал разные нейронки для одной и той же задачи: сделать, блять, элементарно тестовую приложуху для pydroid с UI на html. Сука. Ни один "кодерский" чатбот не вывозит. Подсовывают дохлые библиотеки, питон ни в какую не хочет отображать фронтэнд. Причем соннет3.5 будто бы больше шарит в мете чем ллама3.3, а на выходе так же пшик.
>>993310 Мне понравился Grok 2 для рп. Но, он тяжеловесный (т.е. будет доступен только на офф апи). Да еще вворачивает глинт(тяжелый воздух), если не продумать свой пресет.
>>993633 Сложно сказать. Я локально запустил ЛЛМ в первый раз вчера в 10 вечера еще не могу дать оценку. Но, сидония точно лучше чем оверхайпнутый сайт с анальной цензурой character.ai у бота память намного лучше, на character.ai у меня боты буквально забывали что я им писал 5 минут назад. Но до ботов с сайта pygmalion.chat не особо дотягивает. Те прям расписывают сюжет, что происходит вокруг целыми полотнами и им достаточно буквально нескольких предложений от тебя, чтобы понять, что ты от него хочешь и память у них очень неплохая. Но этот сайт не особо юзабельный т.к. постоянно вылетают ошибки с соединением с сервером и им просто пользоваться не возможно из-за того, что у них там куча новых юзеров, а у них сервера не расчитаны на такое.
>>993412 >Всякая темпиратура топ п топ к и прочее как в интерфейсе, что может быть не так? Модель универсальная, а не заточена чисто под перевод. У меня, когда пробовал, результат лучше получался, плюс я использовал переводческие тюны вроде TowerInstruct-Mistral, но результат непредсказуем. Интересно, как народ с ЧатГРТ по API переводит - ну тот поумнее, ему скажешь переводи - он переведёт.
>>993527 Убрал >>993478 >Нету инстракт тегов. Я добавил теги, с ними 80% переводиться нормально без лишнего бреда, но оставшиеся 20% это маленькие тексты из 1-4 слов, на которые нейросеть по прежнему отвечает метровыми сочинениями, что странно в таких случаях она старается дожать максимальное число доступных токенов(500), как будто бы меньше и нельзя. params = { "n": 1, "max_context_length": 2048, "max_length": 500, "rep_pen": 1.07, "rep_pen_range": 360, "rep_pen_slope": 0.7, "sampler_order": [6, 0, 1, 3, 4, 2, 5], "temperature": 0.2, "top_p": 0.92, "top_k": 100, "top_a": 0, "typical": 1, "tfs": 1, "trim_stop": True, "min_p": 0, "dynatemp_range": 0, "dynatemp_exponent": 1, "smoothing_factor": 0, "banned_tokens": [], "presence_penalty": 0, "logit_bias": {}, "stop_sequence": ["### Instruction:", "### Response:"] }
data = { "prompt": f"### Instruction: Переведи следующий текст на русский язык. Местоимение you всегда переводи в варианте ты, не вы. Твой ответ должен содержать только переведенный текст.:\n{text}\n### Response:", params }
>>993693 Токены остановки добавь, вроде без них пишет до упора. И твой режим инструкций какой то старый, ### Instruction:", "### Response это что альпака? Используй родной режим для нейронки, чем ты там крутишь, мистраль или опенчат
>>993694 >твой режим инструкций какой то старый Хер знает, это то что было в консоли кобольда, когда я сам писал что то в чат в интерфейсе браузера, взял тупо это. Пробовал другие способы, они не особо сработали, но возможно плохо пробовал. Нейронка https://huggingface.co/IlyaGusev/saiga2_13b_gguf про неё видел что вроде заточена под переводы на русик и сравнивалась с nllb.
>>993700 Модель старое говно, попробуй из этого списка сетки https://github.com/VikhrModels/ru_llm_arena Вроде как оцениваются по знанию русского, вихрь немо должен быть норм или даже попробуй сетку которую тут в ру нахваливали SAINEMO-reMIX Вобще тебе бы не ебать мозги в режиме комплишен расставляя руками все параметры и спецтокены, а сразу подключаться к чат комплишен. Бекенд там сам в нужном промпт формате отформатирует твои сообщения. Можно спокойно сетки менять как перчатки, так как форма в твоей программе будет одна и та же.
>>993671 Трусы, снятые два сообщения назад? Или ты носишь десять пар, одни поверх других. Может, непонимание пигмой ее собственного сеттинга и контекста в чате? Забывчивость... 4к мизерный контекст... и даже полный проеб инструкции завернуть что-то в xml тэги
>>993735 Чиво? Что за кот+инфоблок? Я вообще во всей этой теме буквально недели две. Начал с чарактер ии, быстро заебала цензура перекатился на пигмалион и там было все очень даже не плохо в принципе, если бы только не постоянные ошибки сервера, да бывало начинал писать вообще полную хуйню пигмалион этот, но только после очень долгого чатинга, а так все норм было. Вот вчера только начал гонять ЛЛМ локально. Если локально можно запустить что-то, что лучше пигмалиона, то буду рад если поделишься.
>>993744 >Начал с чарактер ии, быстро заебала цензура перекатился на пигмалион Бро, а ты юзал проприетарные нейронки на API? Такие типа Claude 3 Opus и Sonnet через reverse proxy, или Grok2 (он все еще есть официально, но скоро отключат), Gemini хз. Попробуй тяжеловеса на апишках, потестируй его для рп и не неси хуйню. Пигма у него норм, охуеть
>>993763 Пробовал. гпт-4о апи использую для генерации диалогов(не кум) у нпц в игре которую делаю на анриале. Но для кума оно ж вообще не годиться, не? (хотя я даже не пробовал, учитывая уровень сои в обычном чате) Неужели через АПИ норм кум может быть с клодом каким-нибудь?
>>993784 Ну так и все остальные апишки соевые максимально, не? Что вообще лучше пигмы ты скажи. С радостью перекочусь, если действительно лучше будет и если мой пека это потянет.
>>993801 >12+ врам 6 гигов + амд еще, к сожалению. Ну, я юзаю Сидонию на 22 милиарда параметров с 4 квантами. Пишет мне 3 слова в секунду примерно. Подумываю купить 3090 с 24 гигами врам что побольше ЛЛМ-ки погонять но хз стоит ли.
>>993716 >SAINEMO-reMIX В общем я там все поднастроил и получилось заебись с этими моделями, они даже текст не проебывают и перевод неплохой. В целом рад. Единственное что не радует, что на самом анг языке проблемы с определением пола и много получается где речь по отношению в женщине переводится как к мужику, но такая хуйня в любом переводчике будет, интересно можно ли это как то обозначить, при том так, чтобы вообще без мужского пола в тексте не остаться.
>>993827 Делай несколько этапов запросов. Выдели большой логический кусок текста, проси нейронку разбить текст на меньшие куски по контексту. Там же можешь указывать заранее действующих лиц и их пол, или проси нейронку выделить это из текста. Ну и с этими вводными пусть в новом запросе переводит меньшие куски зная какие там действующие лица и контекст. Просто тупо делить на 2000 символов как то фигово переводить будет по моему Какая модель лучше оказалась?
>>993716 >из этого списка сетки https://github.com/VikhrModels/ru_llm_arena >>993700 >https://huggingface.co/IlyaGusev/saiga2_13b_gguf >>993693 >Местоимение you всегда переводи в варианте ты, не вы. Для перевода на русский с английского не обязательно использовать кривые тюны (они только отупляют), базовый инстракт норм справляется. Qwen2.5-14b, Mistral Nemo в той же "весовой категории". Алсо, сама инструкция тоже может быть на английском, возможно так даже лучше, по крайней мере, для базовых моделей.
На Nemo, правда, не всё так однозначно. Текст ~1.3к токенов, ответ ~1.7к токенов. Сурс тут: https://vosen.github.io/ZLUDA/blog/zludas-third-life/ На другом ролле названия тоже переводились, но там я со слоями в видимопамять переборщил, пришлось перезапускаться. А тут оставил как есть, получился такой микс из русского и английского, и, похоже, тупая мелкая модель запуталась в этом. Вставляет иногда английские обороты, а то и немецкий. Наиболее проблемный участок запечатлел. В остальном, вроде бы, особых проблем нет, но я сильно не вчитывался.
Мердж behemoth+magnum 123b в данный момент рабочая лошадка для рп. Пишет ни хорошо, ни плохо а так... средне. Мб чуть лучше чем писала бы latest GPT с её позитив байсом.
Какой-то набег шитпостеров с аицг что ли? Нтр, фемпов, пигма, инфоблок... Осталось, чтобы кто-нибудь предложил сжопный безжоп для сайнемо, или что там сейчас актуально. Бтв, что там хоть за модели на сайте пигмы сейчас? Небось то, что там на бесплатном плане, можно в гугл колабе спокойно катать с большей свободой настройки и скоростью повыше, чем на сайте пигмы.
>>993856 Да куда ты опять, только сотню постов назад срач закончили.
>>993856 >Не начнут. Их не будет, тем более за твои нищебродские деньги. Живи с этим Слушай, командир, извини я не согласен. Я думаю что их выпустят и будут они по доступной цене. Хуле сложного? Генерация текста есть, генерация голоса есть, робо тела есть (всякие теслы оптимусы, фигуры 1 и еще миллион китайских компаний, которые хуманойдов делают прямо сейчас) и по доступной цене 20к долларов штука. Просто нужно объеденить это всё и готово. Не дешево, но и не супер дорого. Примерно по цене новой машины из салона.
>>992590 Ну, возможно ты прав. Я недавно вкатился и вообще не вижу смысла к обычному прону возвращаться пока что, но мож начитаюсь этой хуйни и забью хуй, хз.
>>993883 Ну приделать этому роботу пизду между ног и готово. Но, если честно, как-то стремно с такой хуйней жить было бы. Твердая человекоподобная хуевина из металла и пластика с резиновой пиздой между ног эт чет как-то пиздец. Нужно чтобы оно могло хотя бы готовить и убирать и было обтянуто синтетической кожей, которая на ощуп хоть отдаленно напоминает человеческую. Ну и чтоб лицо было нормальное и голова человеческая. Ну, типа как в манге хотя бы про робо жену. Я скорее куплю робота себе если этот робот будет у меня дома убирать и готовить и чтоб с этим роботом попиздеть можно было как с локальной ЛЛМкой щас на компе на своем могу. Если с этим роботом по сети в какую-то игрушку можно было бы поиграть то вообще по кайфу было бы. А дырку резиновую между ног приделывать даже не прям чтобы обязательно.
>>993908 Хуй угадал. Один живу в съемной однокомнатной квартире. Я литературно чел из манги "у моей жены нет эмоций" (только без робо тянки, которая бы мне готовила)
>>993918 >И да, аниме с пика тоже хуйня. Аниме хуйня, потому что автор с какого-то хуя решил им "ребенка" добавить из-за чего я дропнул эту хуйню из-за нереального кринжа. Потом там еще какие-то призраки были и марсиане, пиздец короче. Но начало, где она ему готовила было довольно милым. Эх как же хочется себе такую робо-тяночку...
>>993927 Фильм о том как взяв от мужика все что можно ии, как типичная баба, ушла от него сначала к другим, а потом и вобще, кек Хороший фильм для тех времен
>>993867 Не разбирался в этой фигне, честно скажу, но разве для локалок убирание всякой ассистентовости не делается тупо инстрактом? Даже по оаи совместимому апи, где формально сообщения должны раскидываться по ролям системы, ассистента и юзера, по факту на бэк промпт приходит одним куском. Например, в параметр prompt для кобольда. А дальше, как там стоят в этом куске роли и всякие префилы, настраивается в инстракте. Хоть подавай весь чат без ролей, хоть как будто юзер сам с собой рпшит.
>>993820 Ну ты напиши в действиях действия за него, чтобы он понял что ты хочешь. Типа, "я смотрю на его crotch и вижу как его bulge становится больше, когда он смотрит на мою грудь" или "он схватил мою грудь своими мужскими руками и сжал её сильно"
>>993949 Так ты и подаешь сетке на инпут сплошной кусман текста, она только с таким и работает. А уже разделение на ассистентов и распределение на прочие роли идет следующим шагом, если она натренирована на это.
>>994051 Ты не понял, речь идёт о безжопе. Как я уловил из редких заглядываний в аицг тред, идея была в том, чтобы для корпосеток, главным образом клода, избавиться от их выступления в роли ассистента. И одним промпт менеджером этого было не добиться как раз из-за того, что бэк корпосеток получает промпт чётко по своим инстракт тегам, а может, и подставляет свои: human и assistant для клода. например. Или тому же OAI таверна подаёт промпт строго в этих месагах system, user, assistant, как положено по этому универсальному апи. Локалки на кастомных серверах эти роли игнорируют, а что там точно делает с этими батчами сообщений сервак OAI, мы не знаем. Возможно, подставляет роли в промпт, как инстракт таверны, иначе нахера они там вообще, не очень ясно. Так вот скрипт безжопа был сделан, чтобы костылями подобную разбивку на роли обходить и ещё накидывать какие-то префилы. Но, повторюсь, это лишь мои догадки, код не смотрел, так что мои соображения выше могут быть полностью пиздежом. Поэтому и уточняю у чела, который вроде как разбирается, если он там не троллирует.
>>994188 Интересно. Попробую. Жаль, шестого кванта нет, потому что я люблю большие контексты и там 8 квант совсем уж замедляет скорость, далеко не всегда он нужен. А так можно было бы без проблем использовать на 32к контекста.
Алсо, ты карточки на русик переводишь? Я просто как-то рпшил с более жирными моделями для сравнения, которые могут в русик не хуже, и там странная ситуация. Тестов много не проводил, поэтому субъективщина, однако вывод часто оказывался лучше, если карточка на англ, а привествие на ру. Впрочем, иногда в таких случаях она могла на англ съезжать.
Ещё нюанс. На русике модели обычно хуже понимают персонажей и/или их поведение кардинально меняется в зависимости от языка карточки.
Мне кажется более адекватным подход с хорошим систем промптом и переводом первого сообщения персонажа.
Проблема только в систем промпте. Надо только городить телегу, согласно которой модель должна не просто отвечать на русском языке, а адаптировать речь под естественный русский язык. По какой-то причине без этого модели даже 27-32б могли писать по-русски прям дословно, словно какой-то гугл переводчик, даже не уровня deepl. Но систем промпт внезапно кардинально менял качество русского языка в лучшую сторону.
У меня такой промпт обычно в токенов 500 выходил, но больше не значит лучше. Можно где-то в 200 уложиться.
Если появится какая-то БАЗА по ру-ролплею, попробую сделать что-то качественное и адекватное в плане промпта, может анонам поможет.
>>993328 Попробовал этот даркнесс, но такой же экспрессии так и не добился. По сравнению с сайнемо хуже реагирует на повышение температуры, хуже читает карточку, так что персонаж плавает. Но многочисленными рероллами можно получить что-то сочное и интересное.
Пик 1 - если сайнемо при смущении то краснеет, то бледнеет в каждом сообщении, то эта модель на шаг впереди.
Пик 2 - студентка пытается меня соблазнить.
>>994188 А вот это надо бы затестить, но на сегодня мой лимит уже подистерся.
>>993366 >анализ кода и план изменений Квен так не умеет. Он сначала хуярит код, а потом не думает. Если ему написать "хочу смеяться пять минут" - он тебе нахуярит кода на питоне. >комплексную задачу Не сказал бы, что задача прямо сложная. Ещё и реализация основных вещей уже готова, просто копипасти.
>>993543 >хорошо работает с написанием кода Да, по сути, это одно и то же. Разве что запрос какой именно код должен быть подаётся не текстом, а другим кодом. Он меня потом пытался убедить, что мой регексп не рабочий, давал ссылку на сайт для проверки, уговаривал заэкранировать символы ведь "чтобы использовать этот рексп с языком программирования С нужно забэкслэшить", хотя у меня не си и он знал это. Просто си-подобный синтаксис. А потом писал тот же ошибочный регексп под видом нового исправленного, пока я не заставил его вернуться в собственное сообщение и сравнить оба регекспа. И неожиданно оказалось, что старый поломанный и новый исправленный совпадают до последнего символа.
>>993641 Квену просто говори, что хочешь упрощённую реализацию без сторонних библиотек. Лламу после 3.1 вообще ни одну не скачивал, слишком хуёвой показалась, а алибабашный хуй местами умеет.
>>994253 >Квен так не умеет. Он сначала хуярит код, а потом не думает Эт ты не умеешь его готовить. В первом сообщении давай одну четкую инструкцию, проанализируй этот код и код ниже вставляй в этом же сообщении. Он начнет писать анализ, хоть и может после него начать писать код. Останавливаешь генерацию и стираешь лишнее, потом пишешь нужные тебе изменения кода, желательно по одной задаче. Просишь написать план как это сделать, он пишет и в конце пишет более менее рабочий код. Если нет можно посвайпать, если и так нет то нужно иначе просить, давая более четкую инструкцию или разбивая задачу на задачи попроще. Когда одна задача решена и ты ее руками допилил, меняешь код в первом сообщении на текущий и пусть снова анализирует. И так повторяешь до победной. 32b какие то вещи делает с первого раза, очень удобно с ней скрипты писать Можешь вначале попросить прокоммннтировать код, так сетке легче будет работать с ним в новой итерации Я вобще в таверне с ним кодил, в континуе как то неудобно.
Я тогда ебался с этим промптом три часа, чтобы норм было. Но писал большую часть промпта не я, а Клод, т. к. он лучше знает, какие слова подобрать в английском языке в соответствии с моими инструкциями, чтобы модель лучше понимала, что делать. Пробовал кучу разных подходов. И когда я думаю, что мне придётся делать всё это снова, не убедившись в необходимости мероприятия, теряю сознание.
Промпт был на английском языке.
Я порпшил на 12б и понял, что всё-таки качество не дотягивает и я забил, вернувшись на английский.
А потом мне забанили учётную запись антропик со всеми моими проектами, и все промпты и вообще всё, что я там пилил, улетело в трубу без возможности восстановления.
>>994188 >Ну, это победа. Прям то что надо. Меня устраивает. Действительно хорошая модель, умная и внимательная, и на русском. Спасибо за труды, продолжай в том же духе. С наступающим!
>продолжай в том же духе С моделями стоит продолжить только если выйдет что-то более крупное с полноценной поддержкой русского (и я обновлю железо чего не предвидится).
Но теперь надо бы вернуться разработке свого фронта на пихоне.
Пока зовётся просто TextAdventure и теоретически работает, но не настолько работает чтобы выкладывать.
>>994748 Не понял о чём ты вообще, что за гуфер-хуюфер, но версия instrumentality-rp-12b-ru-q6_k на мой взгляд работает лучше. Она в отличи от версии 2 не обрывает сообщения на полуслове. Но что первая, что вторая не понимают мои сообщений в звёздочках. Типа пишу неожиданно к тян-нейм в трусики заползает тентакля и персонаж такой"Ах ты гад user-кун педальный! Что ты сделол? Как посмел?!". А я то что? Я не от своего имени писал же, я просто от лица рассказчика хотел сюжет направить, а как будто я это вслух говорю.
Это кстати у многих не крупных моделей есть такой косяк. Вроде и в промпте пытался как это это править но чёт не выходит. У кого какие идеи есть? Можете скинуть рабочий пример промпта что бы исправить этот косяк?
>>993905 > Нужно чтобы оно могло хотя бы готовить и убирать и было обтянуто синтетической кожей, которая на ощуп хоть отдаленно напоминает человеческую. Ну и чтоб лицо было нормальное и голова человеческая. Ну, типа как в манге хотя бы про робо жену. Я скорее куплю робота себе если этот робот будет у меня дома убирать и готовить и чтоб с этим роботом попиздеть можно было как с локальной ЛЛМкой щас на компе на своем могу. Все так, но кожу должно не отдаленно напоминать, а ощущаться ахуенно изи даже в китайских игрушках есть, выглядеть мило, двигаться и использовать мимику естественно, чтобы не срабатывала долина. И весь спектр кума обязателен, на случай есликогда захочется. >>993949 Промт менеджмент немного сложнее, важно не только как именно группируются посты или же идут единой инструкцией. >>994139 История циклична, лол, там префилл революцией в очередной раз не представляли? На клоде ниже 3 и более старых моделях опенов доступен текст комплишн, в него идет исключительно полный текст без чего-то лишнего. Инстракт-подобное оформление делали и пару лет назад, здесь ничего нового. > который вроде как разбирается В _том_ комьюнити таких почти не существует. Есть работяги, которым удалось подобрать и отследить эффекты от промтинга, есть что даже делают крутые и интересные вещи. Но копнешь глубже - оказывается что во всем остальном маразм и тупость или все это лишь результат брутфорса и рандома, а не понимания и систематизации. >>994601 https://youtu.be/CirC3GP79wg?t=678
>>994773 Отличий в мерже там нет, хотя квант мог поломаться, да. Ну, работает и хорошо. Про звёздочки - далеко не каждая модель тренировалась на рп-датасетах со звёздочками, чаще всего нарратив и действия просто текст. Поэтому надо указывать точнее. Как вариант - писать от третьего лица (Narrator, рассказчик).
>>993827 >В общем я там все поднастроил и получилось заебись с этими моделями А можно подробности настройки? Сам давно ебусь с переводами и добиться чтобы не несли отсебятины так и не удалось. Какой промпт, модели, семплеры? Есть какие-то тонкости, с которыми модели дают норм перевод?
>>994806 Конечный вариант скрипта https://www.mediafire.com/file/qm5gl72m8unmz90/droch.py/file По настройкам особо тайн не раскрою, то что я понял, что надо брать самые последние максимально жирные модели 12б+ а лучше 20б+, 7б при любом раскладе дают в результатах кашу или вообще пустые значения. Мой "хороший" результат, это уровень гугла, но который я могу корректить доп условиями в разделе инструкшн.
params['prompt'] = "</s>\n[INST]" + 'Translate text inside backticks `%s` from Russian to %s. Do not add extra commentary, response must be only translated line. It is very important that you MUST keep all non Russian text, letters, symbols, including special ones like brackets in translated line verbatim and as is. ONLY translate Russian words. Do NOT add any note or comments or clarification or something alike.'%(translate_string, translate_lang) + "[/INST]\n"
Периодически глючит так что всё равно требуется вычитка, но довольно стабильно.
>>994827 >Конечный вариант скрипта Контекст у тебя очень маленький, то есть перевод получается "буквальный", на уровне одного предложения. А если брать контекст побольше, то уже бред идёт наверное.
>>994839 То что я перевожу в основном моды к одной игре, там части текста и идут предложениями, так что мне норм. Бывают внутриигровые книги, они большого объема, но в таком случае они делятся на куски по 2к символов и перевод получается тоже норм.
>>994839 На самом деле от бреда не спасет ничего, тот же deepl на больших текстах начинает выдавать классическую уже родную шизу, один раз он у меня даже OOC в квадратных скобках выдал.
Так, думаю купить 3090 вместо своего АМД rx 5600 xt и с Cydonia-22B-v2q-Q4_K_M перекотиться на какую-то 70б модель. Стоит ли? А то 22б сидония с 4 квантованием часто какую-то хуйню придумывает, то у неё робот человеком становится, то тянки хуи отращивают, то тянки забывают, что я им отвратителен и они накидываются хуй мне сосать. С 70б есть такие проблемы?
>>994898 6 квант 20 гигов весят. Моя текущая видяха точно не потянет, она с 4 квантами 3 слова в секунду пишет. Думаешь, лучше будет купить 3090 и не ней сидонию 22b 6 квант запускать вместо четырех? Сильно большая разница будет в качестве генерации текста?
>>995074 Если квант правильный то "деградация" незаметна до определенного момента (3.5-4 бита), потом наступает резкая поломка. Если модель хорошая то чем больше параметров тем лучше, чем более сложные запросы и чем ты сам внимательнее тем существеннее отличия. Поэтому в приоритете: нормальная модель (как можно новее, не косячная изначально и не поломанная васян "тренировкой" и мерджами), потом количество параметров, потом квант.
>>994871 Единственный серьезный минус - на 70б быстро одной не хватит, хахочется еще. Покупай конечно, yolo > С 70б есть такие проблемы? Всякое бывает, но гораздо реже. Там в общем уровень куда лучше и интереснее.
>>995074 Лучше выбери золотую середину - 12B и Q6, среди них есть чего посмотреть. 8B слишком часто будут бредить даже без квантования. 20B в Q4 того не стоят.
>>994871 > думаю купить 3090 вместо своего АМД rx 5600 xt и с Cydonia-22B-v2q-Q4_K_M перекотиться на какую-то 70б модель. Стоит ли? Стоит. Лучше сразу 2 или 3
Думаю сделать себе подарок и на НГ и заказать AMD Radeon RX 7900 XT. До этого была видюха 2015 года. Регулярно пользуюсь chatgpt, да есть свои ограничения, цензура и т.д. Так вот вопрос, как эта самая AMD Radeon RX 7900 XT в плане запуска llama 3.3 на 70b? В чем преимущества локальной, скажем 3.3 по сравнению с chatgpt (какая там у них последняя бесплатная версия), кроме отсутствия цензуры (которая в llama тоже есть) и отсутствия передачи инфы на сторонние сервера. Написание кода? Более объёмные ответы? Какие преимущества, скажите мне
>>995127 Ебнулся? Для нейронок только нвидия у них все топовые проприетарные библиотеки. Не бери амд у них для нейронок костыльная хуета еле работающая. Амд это кал только для игрулек для дурачков.
>>995127 >>995135 Скупой платит дважды, даже не смотря на такую разницу, хуанг лучше по прайс-перфомансу. Бюджетный вариант - 3090 с лохито, вне конкуренции но со своими рисками. Покупка амд под ии - большая ошибка.
>>994707 О, лол, нашёл промпт какой-то, но там кривая ебанина: [Process English data, respond in Russian to Russian input. Regardless of the use of text formatting methods, it must be in Russian.]
Вот тесты. Банальщина, но я всё равно в голос с них, так как редко использую подобных персонажей — обычно только для проверки моделей.
Бот и систем промпт на 3к токенов примерно, что сильно размывает контекст + посредственный перевод приветственного сообщения, а также ебанутые настройки сэмплера и форматирования, ибо мне было лень перенастраивать после другой модели.
Какие ты настройки используешь для своих моделей? Форматирование и пр.
Сразу решил сравнить несколько от балды, пока силы есть.
Первый скриншот: instrumentality-2-q8_0 Второй скриншот: RP-SAINEMO.i1-Q6_K Третий скриншот: SAINEMO-reMIX.i1-Q6_K Четвёртый скриншот: NemoMix-Unleashed-12B-Q8_0
Как можно заметить, анлишед лучше справляется в некотором плане, но менее многословный и более соевый, а также плохо следует инструкциям с карточки.
>>994740 Попробовал обе - обе начинают высирать тонны ################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################ вместо ответа, через некоторое время после общения. А ещё kobold.ccp иногда мне с этой моделью высирает ошибку Windows какую то. Короче допиливать надо модели.
>>995127 Как амудебоярин уверенно заявляю: не бери амд под нейросети. Дело даже не в том, что (и как) работает в данный момент. А в том, что работоспособность всего связанного с нейронками на амд держится на том, что какой-нибудь любитель на голом энтузиазме в свободное от работы время грязным хаком делает чудо, и начинает работать то, что не должно и не поддерживается.
Да, сейчас я могу генерить на злуда-версии ComfyUI и кумить на rocm-форке кобольда. Год назад не было ни того, ни другого, был clblast и автоматик с directML вздрагивает от травмирующих воспоминаний.
И если завтра нвидия выкатит что-то новое, мы будем пару лет сидеть-ждать аналога от энтузиастов, потом шаманить с конфигами, подбирая наугад параметры и молясь, чтобы заработало, спрашивать у автора репозитория "почему криво работает?" и получать в ответ "хули вы хотели, это экспериментальная версия". И какова будет официальная позиция компании АМД по данному вопросу? "НИНУЖНА".
>>990008 (OP) На 8г врам 3070ти, 16г рам кое как гоняю 13b модель, при том у меня ddr4 память старая, обновлять всю печь дорого, но могу накупить оперативы на 32 или 64 гига, насколько это имеет смысл делать? По деньгам будет почти нихуя. Мне по сути от нейросети нужны разовые ответы без длинных контекстов и диалогов, но качественно и быстро, так что по идее должно быть даже не слишком медленно на оперативе пердеть? Можно ли как то заранее прикинуть какая будет скорость выдачи символов?
Че за магнум 16к? Эта модель которую пигмалион использует. Мне чаты в пигмалионе нравились пиздец, хотел бы что-то такое же по качеству локально поднять, чтобы не было постоянных обрывов в генерации из-за ошибки сервера. Есть инфа?
Такс, хотел спросить, а как сейчас обстоят дела с встраиванием LLM моделей в IDE. Может ли в них Vusual Studio? Вот чтоб открыл проект, а он уже знает весь контекст проекта для какой-то уже выбранной модели, естественно.
>>995350 Сам не юзал, но видел как один чел (vedal987) юзает гитхаб копайлот, пишет копайлоту в чате, че от него хотят и гитхаб копайлот создает типа мерж реквест, который ты можешь проверить прям в вижуал студио, что там ошибок нет и все такое, ну и если ошибок нет, то аксептаешь его ченжи. Выглядело прикольно, думаю попробовать себе тож поставить гитхаб копайлот.
>>995156 В основном адекватность продавана. Не магаз, не недавно на лохито, хорошие отзывы, адекватные прошлые объявления а не мотыги, бампер от жиги, забор, рубероид, 2 планки по 1гб Ну и в твоём городе, чтобы потрогать, посмотреть. Нагрузку надо давать хорошую. Бублик по дефолту не всю память жарит если что купил уже 2бу, брат жив
Они еще и цены выставляют чуть ли не дороже новых. Частники-то разные бывают: васяны какие-нибудь как итт, петровичи из гаражей - вот таких, конечно, сторониться, а бывают кабанчики, которым вообще +-10к пофиг и даже не использовалась почти
>>995350 >встраиванием LLM моделей в IDE. Может ли в них Vusual Studio? Cline >Вот чтоб открыл проект, а он уже знает весь контекст проекта для какой-то уже выбранной модели, естественно. Такого нет, и не пока не предвидится. Можно через костыли сделать файлик .clinerules с инструкцией — Log every change you make with a summary and files you have changed in a log file named changes.md If it doesn't exist then create it as welt. Чтобы он сам создавал контекст. Но пока кодовые ассистенты кривые, в мультизапрос (простейший) может только аидер, но он консольное говно. Нельзя ручками чистить контекст, банально как это сделано в таверне, длинные чаты становятся болью. >>995437 В районе 100к сборка на 2 поколении эпиков, ддр4, будет примерно раза в 2 медленнее, а может и в 3. Но 2 токена в секунду... за почти клод дома...
>>995156 Я у рандом перекупа взял 3060 за 24к и еще амд свою продал за 15, вроде пердит, правда звук теперь хрипит если игра открыта и браузер одновременно может кто знает в чем дело? На амд такого не было
>>995636 >ролеплей не просто в чате, а например в скайриме с ламой развернуть? Интересно, какой там промпт. Кто играл, отпишитесь - подозреваю, что лажа получилась. Интегрировать лламу в игру было бы сильно, но подозреваю, что даже простая болталка там кривая.
>>995715 >C наступившим, всем добра. Аналогично :)
Попробовал тут использовать instrumentality-2-q8_0 в качестве переводчика на русский. Неожиданно хорошо, лучше даже Дипла, потому что понимает, когда используется слэнг и не стесняется переводить именно его. И Гугл, и Дипл переводят "whenever we need a good screw" как "всякий раз, когда нам нужен хороший винт" - что просто позор, я считаю. Винт им обоим в задницу.
>>995678 Я видел какие-то ролики в тиктоке, и выглядело довольно неплохо, но подозреваю, что там крутили не 12б какую-нибудь, а что-то более серьезное. Плюс tts и rvc, судя по всему.
>>995715 А почему без DRY? Учитывая склонность к шизофреническим повторениям местами, мне кажется это нормальной идеей, поэтому использовал его, даже не проверял с отключением.
>>995721 XTC лучше работает на больших моделях, 70Б+, а меньшие просто лоботомирует.
DRY я не понял работает ли вообще, что с ним что без него - однофигственно. Возможно не попадал в случаи где его эффект был виден. Я так понимаю его цель вырезать не просто повторы, а повторы конкретных групп символов. Возможно, понимаю неправильно.
Аноны, всем привет! Подскажите, плиз. Я не слежу за новостями. У меня ПК: R7 5700X3D | DDR4 128GB@3200MHz | RTX 4070 12GB | SSD 980 PRO 1TB Я сейчас использую: - gemma-2-27b-it-Q4_K_M.gguf - Qwen2.5-72B-Instruct-Q4_K_M.gguf - qwen2.5-coder-32b-instruct-q4_k_m.gguf - Mistral-Large-Instruct-2407.Q4_K_M.gguf
Что можно удалить, а что оставить? Может что лучшее появилось уже? И что сейчас самое самое лучшее, что можно запустить на моем ПК?
>>995636 Пробовал, но у меня конфиг слабоват. Для skyrim нужно, чтобы сетка буквально в реальном времени реагировала. И для достаточно быстрых, а значит мелких и тупых сеток, нужно больше внимания промпту уделять, чтобы получать хорошие ответы, а через их кривой и перегруженный веб-интерфейс пердолиться не очень удобно. Мне Mantella больше понравилась, и устанавливается проще, и интерактивности меньше, можно в спокойной обстановке початиться неторопливо. Но её не развивают, функционал скудный, и новые моды с интеграцией/расширением функционала тоже предпочитают пилить под более новый и "развивающийся" aiff/chim. >>995678 >лажа получилась Примерно так и есть. >>995768 >без порнухи MinAI гугли.
Под ck3 ллмки лучше всего заходят, проще всего интегрировать их и меньше всего требований к производительности, т.к. игра буквально пошаговая (почти), можно на паузе чатиться.
Ещё bl неплох, тоже околопошаг, но там всё никак не запилят норм мод. Первые два были в виде простого чатика без интеграции с гейплеем. Причём, у первого в тизерах всё было, но выпущен был какой-то урезанный огрызок с анальной привязкой к одному платному провайдеру, и даже не опенаи, возможно ему чемодан занесли. На просьбы прикрутить локалки отвечал, что они "имеют потенциал, но not there yet". У второго локалки поддерживались, но, опять же, функционала толком не было. И оба были дропнуты. Сейчас уже третий автор пилит что-то своё с нуля, опять у нас есть чатик с чатгпт может быть можно наебать через hosts, локалки вроде обещают, как и плотную интеграцию с игрой, но пока ничего.
Попробовал сидонию 22б на 6 и 8 квантах. Почему она такой кал? Вообще системному промпту не следует. Точнее следует, но очень примерно. Некоторые части системного промпта тупо игнорирует и руинит весь рп. Хуйня короче, росинант на 12б и 8 квантах лучше. Буду пробовать магнум 22б на 8 квантах теперь.
Перебираю карточки... Вот что в глупой таверне удобно, так это карточки, особенно если воткнуть в custom css #right-nav-panel {min-width:1100px!important;} И запускается даже без активного кобольда.
Уже пожалел что скачивал всё хоть чуть заинтересовавшее XD Было полторы тысячи, осталось ещё 988. Отобрано на более детально посмотреть 76.
>>995795 Магнумы же говно. Ну, не то чтобы говно, но прям галимая синтетика. Ибо их обучали на выхлопах сойнета и клодыни.
Цидония как-то поживее. Мож квант поломанный был? Хотя цидония 1.2 - 1.3 слышал что да, говорили неоч, но самая первая зашла, хотя работала только в Q8.
>>995805 Гонял Сидонию в версии 1.3. Генерации каловые пиздец были. Версию 1 не пробовал, потому что предположил, что более новая версия должна быть лучше, а не хуже.
>>995161 Потыкал пару десятков свайпов, не очень понравилось. Даже на лоулевел известных словах есть ошибки словообразования, которые сайнемо не позволяет себе. А раз так, то смысла терпеть 12б нет.
>>995156 Главное - проверка. На ютубе есть видео с гайдами на эту тему: тщательный визуальный осмотр на наличие следов ремонта, игровые бенчмарки, гпумемтест, мониторинг температур врам. >>995350 Встраивание есть, плагинов уже насоветовали, там можно хоть корпосетки, хоть что-то свое юзать > Вот чтоб открыл проект, а он уже знает весь контекст проекта Ну типа при использовании весь проект или часть будут априори подгружены в контекст, но господа верно подметили что там "истории" правок нормально не организовано. Здесь было бы оче кстати буквально взять и открыть местами чат как в таверне с функционалом для обсуждения какого-то участка, а потом принять разработанный в рамках него код, при этом все с историей и комментариями. >>995437 > 12x32 ГБ ОЗУ, это 384 ГБ ОЗУ > думаю тут никто таким железом и не владеет Правильно, у нас таких нищебродов нет, 12 каналов рам и 384 гига мало и было еще в 2019 году. Более 7т/с на 30б (активных параметров) было еще на 1й лламе, но обработка контекста полный треш.
Друзья, помогите выбрать модель для создания внутреннего чата в фирме. Чат должен помогать в решении проблем, или в выдаче советов для коллег в довольно определённой области.
>>995872 Мозг. я так вообще в блокноте сначала расписываю Модель старая и иногда глючит, но всё равно карточки получаются лучше и быстрее чем пытаться их нагенерить/обработать любой моделью. А превьюшки можно нагенерить.
>>995872 Гемма норм, быстро, эффективно. А так лучше самому, чтобы как можно меньше слопа. >>995882 Слишком абстрактноо, сформулируй конкретно что хочешь.
Блин, вот какого фига народ спамит столько дженерик ванилла треш карточек - буквально гёрл/бой некст дор на все лады, либо какой-то странный трэш в подавляющем большинстве.
Также довольно частая проблема в карточках - вопросы "какого фига" и "а что дальше / что делать-то / зачем здесь юзер".
>>995791 >Под ck3 ллмки лучше всего заходят, проще всего интегрировать их и меньше всего требований к производительности, т.к. игра буквально пошаговая (почти), можно на паузе чатиться. Есть хорошая интеграция? Я бы посмотрел. Так-то по идее хорошая тема уболтать персонажа на нужное тебе :)
>>995984 Проксихолдеры ставят критерии для получения токенов, например как-то выделиться. Саранча на турбе или чем-то доступном собирает длинный слоп с мусором на 2к токенов, из которых значимых около сотни, и делает конвеер никому не нужного мусора, чтобы потом именовать себя крутым ботоделом. Чсх, годных карточек под определенные фетиши/атрибуты/сеттинги крайне мало, хотя сложность их составления ниже чем, например, при изготовлении качественный пикчи на ту же тему. >>995999 В описании карточки должна быть.
А также большое расширение интеграции с ллм: https://github.com/MrAndroPC/votc-actions-repo Но там баги, начиная от банальных опечаток (которые ллм может игнорировать, но, вероятно, это сказывается на качестве ответа) и заканчивая полностью нерабочими скриптами для части действий. Я у себя локально уже пару мест пофиксил.
Вроде ещё в дискорде что-то есть, но туда хрен зайдёшь из этой страны.
>хорошая интеграция Да пока так себе, есть, над чем поработать. Было бы на нормальном языке (или хотя бы чтобы для сборки не надо было бы накатывать кучу bloatware, включая microsoft build tools), я бы уже кучу всего себе допилил, как и с тем, что поддаётся модификации.
Ещё часть карточек отлетает потому что поставленные задачи явно выходят за пределы возможностей 12-32Б моделей, когда карточкописатель буквально требует ему нового "властелина колец высрать".
Ну и всякие попытки с трекерами и статами - они работают через раз и криво, у мебя была ровно одна карточка где статы отыграли хоть кое-как, и то там это было скорее как напоминалка, чем реально статы.
>>995984 >>995999 Забей на эти помойки, лучше пиши всё сам. На чубах и венусах один инцестовый копипаст лежит, который даже никак не оптимизируется. Общего шаблона нет, по этому оформление каждой карты это либо месиво из xml и json тегов, либо тупое перечисление трейтов, либо вообще несколько параграфов текста, чаще всего спизженых с викифэндома. Раньше карты хотя бы по токенам урезали из-за ограниченного контекста трубы, но щас все сидят на клопе, по этому никто не заморачивается.
>>996025 >пиши всё сам Ну, даже интересные карточки всё равно придётся переписывать частично.
Я переиодически сохраняю картинки которы было бы интересно оформить в сеттинг. Но пока было больше интересно что другие делают.
Вот, на новогодних наконец дошли руки разобрать скачанные карточки.
>>996025 >оформление По тому что сам тыкал - хороший результат даёт форматированный обычный текст с выделенными секциями которые начинаются с едиообразных разделителителей, а строки внутри блока примерно в таком виде:
Personality: laid back, calm, composed, confident;
>>996036 Я долгое время юзал плейн текст разбитый на параграфы. Первой частью шло суммарное описание, второй характер, третьей внешний вид и так далее. Не самый экономный вариант, конечно, но он заставлял модель отвечать более развернуто и описательно. С перечислением характеристик тоже работает неплохо, но там начинается слишком большой разброс по стилю письма и длине ответа - нужно обязательно подключать примеры сообщений. Щас использую дефолтные xml-теги по типу <personality>, <appearance>, а внутрь пихаю уже описание - работает гораздо лучше всего, что я использовал раньше.
>>996171 А какой у него выбор? Пихать модель в рам так ниже 20 токенов/с пока бот напишет сообщение успеешь забыть о чем там шла речь. Разве что в фоне сидеть, но это говна. А больше чем 27b в одну карту у него не влезет.
>>996173 >>996172 Я в рам пихаю модель. У меня вообще амудекал на 6 гигов врама. Была бы у меня 4090, я бы 70б ранил с 8 квантами и сидел бы ждал хоть 2 токена в секунду. (Ну я так собственно и делаю сейчас, только жду 2 токена в секунду от 22б 8 квантовой модели). Ради качественной генерации текста можно и подождать.
>>996174 Ну во первых разницы между 30b и 70b ты на своих объёмах текста в 2 т/с с трудом ощутишь, вот когда у тебя 70b генерит овер 20 т/с, там да, начинаешь подмечать что сетка даже на твои кривые запросы (а когда генерация занимает секунды ты не особо с ними паришься) выдавать что-то более адекватное. А в вторых для ерп решительно похуй. Если бы он его кодить заставлял там другой разговор, но там и скорости не так важны.
>>996181 >кодить >там и скорости не так важны По моему опыту, наоборот. Когда у тебя рп/ерп и сетка пишет ~200 токенов, это ещё можно потерпеть. Когда у тебя код и сетка пишет 2к токенов (и это ещё не предел), ты и правда забываешь, что там было.
>>996185 Ну если ты сидишь и ждешь возможно, я обычно другим частями софта занимаюсь, пока сетка рефакторит то что я ей скормил. А то же РП это прямое участие с погружением.
Настало время платинового вопроса. Какие параметры в таверне, помимо адекватной карточки персонажа отвечают за повторения и ответы за персонажа ? Локалки уже заебали за меня отвечать. И при этом еще и не заканчивают предложения, а прерывают их на полуслове. ЧЯДНТ ?
>>992951 Кстати, я не шарю в этом всём, но ты можешь в них заложить как нибудь знания об аниме и архитипах характеров в аниме? А то я спрашивал у SAINEMO-reMIX и instrumentality и мне всего пару базовых понятий типа цундере и яндере выдало + ещё парочку и всё. Если я например в описании карточки перса напишу типа "дере-дере с комплексом брата" или что то такое, то нейронка будет хрень нести.
>>996198 Я даже дополню. Потому что ни температура, ни k, ни токены не влияют. Что цидония, что магнумы, что Тайгер. Всегда одно и тоже - спустя 10 сообщений локалка начинает ебашить одинаковые по размеру абзацы, рассказывая за меня что я делаю и обрывая предложения на полуслове, словно я прерываю генерацию.
>>996206 Ну в целом хочется что бы модель выдавала более "анимешные" ответы и персонажи вели себя более "по анимешному" а например когда я указал это в промпте instrumentality то как было мимо так и осталось. SAINEMO в этом плане была более подходящей, даже по дефолту. Ответы более яркие, более сочные и т.д.
>>996213 > более "анимешные" ответы Есть чат вайфу, но увы, она прожарена на английско-японский, на ру может выдать остатки базовой модели, но по большей части ломается.
>>996209 Пасиба. И еще один вопрос. За длину ответа локалки отвечает количество токенов ? Если да, то в каком случае новое значение применяется ? Потому что ставлю 150-200-400 похую вообще. ответ всегда в пределах одинакового абзаца.
>>996220 Дак не надо весь лорбук в память пихать, коротко описал:
>>996206 >Характер спокойный, не общительный, при взаимодействии с {user} проявляет свою обязую сторону
---
Пока хоть как-то могущие в ру модели (кроме изначально ру) я видел только две - Даркнесс и Хронос, обе скорее сторителлеры, и видимо потому что там художественная литература использовалась не только на английском.
>>996223 Зачем вам вообще румодели ? Ебашьте свои ответы через DeepL, он ебашит обратным переводом качественное всего, а потом ответ нейронки переводите прям в браузере. Анонам что делают румодели честь и хвала, вы наши лапочки. Но я все равно не понимаю проблем с английским, ладно бы на китайском надо было бы писать, там да, там вас ждут проблемы.
>>996227 Надо нейронкой и переводить свой инпук с контекстом чата, что в таверне реализуемо вполне. В херне из дипла будет куча ошибок если не редачить потом
>>996232 Что ещё скажешь, как нам ПРАВИЛЬНО РПшить? Можно нам запятые ставить? Ты нам разрешаешь? Только не удаляй пожалуйста нам ру модели, очень тебя просим
>>995979 Типа помогатор по нашему внутреннему редактору карт для игр. У человека какой-нибудь вопрос типа "почему не видно воду", ему ответ: попробуйте 1.... 2.... 3.... и т.д. Или вопрос по смежной штуке, почему я могу закоммитить свои изменения: ему ответ: возможно 1... 2... 3....
>>996169 exl2 не оффлоадится >>996174 > 4090 > и сидел бы ждал хоть 2 токена в секунду Нахуй так жить то? Особенно > 8 квантовой модели Исключить веру и мог бы ускориться на 20-50-100% >>996181 > разницы между 30b и 70b Существенные, но скорость ниже определенного порога множит весь экспириенс на ноль. >>996198 Формат инстракт режима и системный промт, семплинг (но он вторичен). >>996209 > пропиши что бы не отвечали за тебя Правильной разметки и просто нормально настроенных стоп-сочетаний в таверне должно быть достаточно. Если совсем плохо - стоит говорить прямо что-то типа "избегай принятия решения за пользователя и написания его реплик", а не писать "не отвечай за юзера", особенно с выключенным инстракт режимом. Модель протеряет eos токен, напишет "юзер" и смело продолжит генерацию.
>>996247 Это сложнее. Это по-любому раг с заранее хорошо подготовленной базой. Из легких умных моделей - гемма, но у нее мал контекст и потребуется очень хорошо работающая векторная база с подгрузкой ограниченного количества нужного. Квен32б может справиться, но там чуть сложнее и она больше весит. Остальные модельки в этом размере оче тупые, может быть мистраль 22 попробовать, но врядли осилит. На 70б+ потребуется мощное железо, какие возможности и бюджет?
Вот вы тут пишите, что <20 токенов в секунду ломают кайф. Бля, а вы прикиньте как наши деды дрочили, когда еще ЛЛМок не было и когда с реальными тянками приходилось erp делать(тогда это вирт называлось)? Я таким не занимался, т.к. звучало как полная хуета. Но там же скорость генерации текста со стороны мясной тянки была наверное <1 токена в секунду и еще и качество генерации говно было по сравнению с даже 8b моделями. Текста уровня: "Я сосу твой член" и всё. Без описания всего что происходит как это делают ЛЛМки. Короче говоря, ЛЛМ уже превзошли реальных тян (в некоторых аспектах). Думаю больше дурачков не найдется, которые будут писать "го вирт" в интернете кому попало. Т.к. можно пойти на чуб, или пигмалион, или локально поднять ЛЛМ и сделать себе вирт лучше чем с любой мясной тянкой.
>>994305 >может после него начать писать код Он не может не начать, в этом суть. >Просишь написать план как это сделать, он пишет и в конце пишет более менее рабочий код Так я сам написал план, что нужно сделать и как. Не слишком подробный, но тем не менее. И квен даже выполнил задачу. Только его скиллов написания кода оказалось недостаточно, чтобы написать рабочий код по существующему образцу. А его чудовищное предубеждение помешало ему поверить, что образец - полностью рабочий. >вобще в таверне с ним кодил Неудобно.
>>996249 >раг с заранее хорошо подготовленной базой >Квен32б может справиться Рофла ради напиши промпт формата "у тебя есть доступ к базе данных, и т.д и т.п", задай вопрос по поводу сегодняшней даты и префиллом скорми, как будто квен реально сделал запрос в базу и получил ответ с актуальной датой. Вот это квен. Он очень хорош на самом деле, но всегда есть парочка "но".
>>996281 >Текста уровня: "Я сосу твой член" и всё. Каждый раз закидываю в промпт требования писать подробно, со всеми деталями, описывать всё в каждой мельчайшей подробности и каждый раз нейросеть и близко не настолько сочный контент генерирует. До мясных далеко. Не то, чтобы недостижимо, но далеко.
>>996209 Да, системный промт - тот еще ад, с графично проорал, но на перечислении архетипов совсем капитулировал. Инструкцией про стилизацию сюжета и чаров ты убиваешь половину карточек и заставляешь сетку галлюцинировать. Конечно 12б хватит глупости чтобы это проигнорировать, но все равно плохой выбор. >>996301 > Рофла ради В чем рофл? Ты моделируешь вполне типичный для сетки случай, которому ее обучали, но даешь неправильный вход или вообще не даешь то что там должно быть. Это нормально что модель дальше будет галлюцинировать, продолжая общую структуру входа, и нормально что там ахинея. То же самое будет и с корпомоделями, если сможешь им скормить оригинальную струткру, а она не прервется авторазметкой, что даст подсказку о том что чего-то там не хватает. Что-то уровня поместить кошку в невесомость а потом смеяться что она ахуевает, пытаясь сориентироваться в пространстве привычными движениями.
>>996301 >До мясных далеко. Да ты угораешь. Открой ллм, и она тебе на твой "ах ах мистресс" высрет простыню текста, подробно описывая все что происходит вокруг. Напиши мясной бабе такое и она тебе максимум одно предложение напишет еще и с ошибками и со скоростью меньше одного токена в секунду еще и качество сгенерированного текста мясной бабой будет ниже чем у 8b модеми на 3 квантах.
Привет Анон! Я тут после длительного перерыва решил вернуться к нерокуму. А с опусом болты. Гемини зацензурена и на русике вообще не покумить. Зашел я в вашу ветку, накатил себе кобольда и aya-23-35B квантованую. Вроде как аноны писали что в русик может. Пробую, если попросить говорить на русском - говорит, но тольку прямую речь, все остальное на англюсике. Как пофиксить? И ответ очень короткие. Подскажите как выдачу увеличить? Можно ли прикрутить панель с динамически меняющейся инфой? И как вообще что-то менять? Интерфейс настроек сильно скуднее чем при работе с корпоратами
>>996308 >В чем рофл? А в том, что он не галлюцинирует, он просто упёртый ёбаный баран. Он проигнорировал дату один раз, я сделал промпт более "настойчивым". И квен мне выдал - у тебя что-то сломалось, ведь дата неправильная на вход пришла. Не может же быть такого, что сейчас конец 24 года. Чини нахуй свою базу и вот тебе "актуальная" дата. В итоге оформил, что это всё вообще РП, не сомневайся во входящих данных, но даже так он регулярно упирается рогами и копытами.
>>996311 Ты же понимаешь, что ллм буквально пытается мимикровать под мясных? Мне есть с чем сравнивать и пока что эта имитация хромает на обе ноги.
>>996329 Есть новые мелкие модели 12-22б которые сносно говорят на русском, чекни тред выше. Остальное про настройки таверны. Подключать всякое можно, только вещи что меняют промт в глубине при отсутствии норм железа ты не захочешь ибо будет постоянно долгий пересчет промта. >>996338 Написал ей в начале всякой херни которую та должна считать истиной и использовать, среди которой указал дату. Спросил дату - отвечает правильно. Промтопроблемы, хз. Покажи как ты делал и что писал.
>>996329 Или я чет делаю не так или я нахуй чего-то не понимаю > Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models Зашел я значит сюда. Скачал три средние модельки. На одной из них анон написал буквально следующее: "Лучшая модель для кума" Ну ок. Попробовал. Но ведь хуже даже сраного ГПТ. Ну реально Анон! Или я что-то не так сделал? Кобольда накатил, Пресет рекомендованный для этих моделек скачал. Ну хуйня же! На чем Анон запускает большие модели? У меня 4090 и на ней нихуя не запустить. Какие-то асики специальные есть? Кто шарит, подскажите по железу. Что-то близкое к куктропикам можно плучить? И сколько надо потратить денег примерно?
>>996354 > Пресет рекомендованный для этих моделек скачал Какой именно? > На чем Анон запускает большие модели? Риг из нескольких 3090/4090. > Что-то близкое к куктропикам можно плучить? Более чем, но объем пердолинга и цена не понравятся если ты нормис. Начни с более мелких моделей что обсуждают сейчас в треде, они будут летать на одной карточке и более ньюфаг френдли за счет толерантности к косякам форматов/промта, и могут дать вполне хороший экспириенс. Даже сравнимый с корпами, перегруженными говнопромтом, всратыми карточками и упоротыми жб в "честном" сравнении офк тут без шансов. >>996361 > Дипсик 3 ебёт всратого клода всухую. Он слабее. В некоторых случаях может обходить, но чтобы в большинстве - никак. В рп параша. Уже сложился очевидный тренд, который показывает прямую корреляцию между количеством активных параметров и качеством модели. Мое позволяет лучше компрометировать накинуть скоров в бенчмарках, но не делает чудес.
>>996227 >Ебашьте Просто рпшить на англе норм, покумил и удалил.
А вот если текст идёт куда-то, фанфик пишешь, или ивенты к игре, тут лучше бы на русском сразу. Иначе геморно переводить ещё сгенеренное, причём переводить вручную по большей части, ещё и вычитывать потом, вместо того чтобы вычитывать на лету при генерации.
>>996400 Ну хз, я особой разницы вообще не заметил, разве что ответы у меня стали более сухими и литературными, менее живыми и красочными как в SAINEMO-Remix. Можешь сам проверить. Напиши одному и тому же персонажу несколько одинаковых сложных сообщений и посмотри что он тебе выдаст и насколько логично.
>>996441 > Он слабее. В некоторых случаях может обходить, но чтобы в большинстве - никак. В рп параша. Вот это толсто. Клод это эталон сои в сетках, в то время как дипсик одна из самых базированных моделей. Ты ещё мог бы про кодинг сказать, но в рп клод вообще ничего не может противопоставить дипсику.
>>996543 РП на клоде: к 40 сообщению, когда я открываю и читаю личное дело своей тянучки-подчинённой, клод упоминает, что там интересная деталь - выговор за чтение прона во время дежурства. @ РП на дипсинке: тян приходит к своему командиру на доклад в первый раз сразу с хентайной мангой.
>>996592 Поэтому систем промт (карточку) рекомендуют оставлять на английском. Вообще это зависит от модели и не настолько принципиально. В смысле там проценты, а не разы.
>>996348 >Промтопроблемы У него есть дефолтный промпт, я вот его и использовал. Модель обучена пользоваться инструментами, что удобно. Так вот она ими пользуется, но по дефолту не доверят. Нужно переубеждать, можно в промпте, можно похуй как. Но само по себе то, что он на дефолтном промпте не доверяет инструментам - уже хуёво.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичка с уклоном в русский РП: https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
Архив тредов можно найти на архиваче: https://arhivach.xyz/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: