В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Господа, подскажите, участвует ли процессор в обсчётах при генерации токенов для аи чата, если обсчёт идёт через видеокарту. Если участвует то в каких именно процессах? У меня просто ок видеокарта, но процессор откровенно старый. Я бы хотел знать, получу ли я какой то прок для попизделок с аи если обновлю проц.
>>1083960 ОК-видеокарта — это 24 Гб врам. Сомневаюсь, что у тебя именно такая, учитывая, что у тебя проц говно.
Да, жить можно нормально и на 12 Гб врам, но если захочешь контекст выше 8к, будешь плакать как сучка без нормальной ОЗУ и процессора, ибо выйдешь за пределы лимита видеопамяти.
Короче, если у тебя 12 врам, то ставь нейронку и смотри, нравится тебе это или нет, потом будешь думать, а если меньше, то, ну, можешь попробовать, но наверняка будешь рыдать как сучка. Хотя и существуют люди, которые по каким-то причинам могут это терпеть.
>>1083960 Если используются хитрые семплеры - некоторые вычисляются на проце и сопровождаются пересылами, если камень дно то может токен-другой усрасть. Если идет деление расчетов между гпу и процом - там уже важно чтобы он был не древним, дабы иметь какой-то минимальный перфоманс по работе в матрицами, и чтобы была быстрая рам, от которой прежде всего и будет зависеть скорость. > но процессор откровенно старый Насколько?
>>1084060 Спасибо, но в перспективе всё равно планирую цпу обновить, как минимум для рендера графики в играх, а то в современных играх в одной башке модели уже полигонов больше чем песчинок на пляже омаха. С другой стороны на современные игры уже не стоит, дай бог высрут что - то годное раз в год, и то с натягом. Остаётся только генерить ахуенные истории в аи чате и читать их как книги.
На самом деле пиздец жду какую нибудь полноценную игру где будет полноценно задействован аи, пусть не супер графонистую, но чтобы от диалогов тригерились активности, квесты и т.д. Недавно читал что модеры подрубили аи компаньонам из скайрима, но я блять боюсь представить какая там нужна система, если эти диалоги конечно не рассчитаны на 10 сообщений. Ну а так вообще думаю что вся эта движуха с аи в играх идеально зашла бы какому нибудь пердёжному проекту типа пикрила.
Почему все молчите? Тестите новый квен там разъеб. Всё в радиусе 12-35б уничтожено, выжжено и ненужно, даже файнтюны ненужны он уже пиздат в ерп и без ценза
>>1084381 Персонаж, сеттинг, сценарий - всё это промт. Если нужен именно систем промт - карточка сторителлер. Если нужен формат - то вроде квен юзает chat-ml
>>1084345 У меня в последние месяцы или даже полгода такое ощущение, что модели становятся все хуже. Во время тестов очередной убийцы всех и вся ловлю себя на мысли, что в 2023 году было лучше, и модель из октября того года пишет прозу более качественно, чем сегодняшние, заточенные под решение задачи, сколько букв R в каком-то слове.
>>1084252 А что там? У них на обниморде только херня с ризонингом. Ничего плохого про нее саму не сказать, даже надо будет потестить, но эта залупа несколько подзаебала. > пиздат в ерп и без ценза Давай примеров чтоли >>1084391 Очевидно что речь о системпромте и темплейтах таверны, чтобы юзать с любыми карточками. В ванильном квене нужно в начале ставить что "ты квен, разработанный ..." иначе результаты деградируют, по крайней мере для прошлых.
>>1084662 >ты квен, разработанный это для ассистента, рп с таким префиллом сразу умирает нахой
>>1084693 >днд Чтобы прям днд это тебе нужна очень жирненькая модель, от 70Б. Чтобы просто ролёвку в CYOA стиле, можешь взять того же стилителлера из папки выше и докинуть промт предписывающий GM-у вести и предлагать варианты. Тут и 12б справится, но если на англе то лучше Пантеон / Пантеоно-Цидония, или новый Квен, да, он вроде неплох.
>>1085092 >Зачем? Затем, что мистрали хороши при длинном сложном контексте на англ. языке, лучше лламы3.3 заметно. Хочется узнать что еще есть. >Никому не нужны лоботомиты на 200b Как видишь, мне нужны. Были бы хорошие. Всякие найт-тюны мистралей мне не понравились. >интеллект начинается примерно с 600b Надо кстати будет затестить, да. На хабре статья есть как риг собрать с 24 каналами оперативки, который выдает 5-10 токенов в секунду на R1 671b без всякой видеопамяти. Не знаю, правда, нафиг нужен ризонинг.
>>1085092 Всрюкнул с обладателя отсутствия >>1085094 > Надо кстати будет затестить Не то чтобы там было что тестить. Совершенно другой экспириенс, есть некоторые знания и ризонинг позволяет эффективно работать в некоторых задачах, но при этом само по себе оно глупенькое и область применения ограничена.
>>1084927 Чё-т выглядит так, как будто его неправильно тренили на ризонинг. Столько думать в тегах, чтобы потом выдать неправильный ответ и начинать всё сначала. Хотеть логи того, какая шиза в рп творится. Что там на миксотьюне Дэвида, даже представить страшно.
>>1085184 >32г - это 32г Копиум. 4090 по 140к были долгое время, за 299 можно было 48 гб получить, и ещё осталось бы на простенькую мать с процом и озу. Кому надо было, взяли.
>>1085184 Бляя..... Я бы взял не раздумывая. >>1085235 >можно было 48 гб получить 2х24 !== 48. А 32 одной удобнее. >Кому надо было, взяли Не у всех есть деньги всегда. Я в то время находился в полугодовом отдыхе от РАБоты, жил на накопления, даже на P40 17 тыщ зажопил.
>>1085235 > 4090 по 140к 120к > можно было 48 гб получить 2х24 >>1085315 > А 32 одной удобнее. Да, казалось бы всего 8 гигов сверху, но облегчают многие вещи, избавляют от ряда компромиссов, плюс считает быстро. Было бы неплохо если бы амд релизнули что-то стоящее в верхнем сегменте и оформили щелчок по носу хуангу, но маловероятно что случится в этом поколении.
>>1085235 >Копиум. 4090 по 140к были долгое время Нет смысла вспоминать об этом задним числом. Когда 4090 стоили в районе 140к - они нахуй никому не нужны были. Для игрулек их начинка была излишней (если только не брались под трассировку лучей и пути), а под нейронки их начали скупать только с середины 23 года, когда уже цена и начала расти. Плюс санкции, дефициты и прочее говно туда же. Это советы уровня "надо было крипту заранее закупать", когда её даже трехголовая не принимала.
>>1085339 Про это и речь. Не то чтобы прям совсем уж соснешь, путем интенсивного пердолинга можно и обучать, просто неэффективно. Для того что помещается в 24 две сильно лучше. >>1085354 > под нейронки их начали скупать Разве их скупали под нейронки так чтобы это давало какую-то значимую роль?
>>1085359 Ну судя по всему китайцы (и возможно не они одни) закупали их достаточно массово, что цены взлетели везде, включая европу и штаты. Статистики у меня конечно никакой нет, но именно в эти догадки мне верится сильнее, чем в то что они резко начали кончаться сами по себе и цена выросла. Ибо комфортным топом для игр были всё-таки 4080 и 4070ti и точно уж не 4090.
>>1085315 >Бляя..... Я бы взял не раздумывая. Одна - ни о чём. Ну почти. Две - компромисс. 64гб врам - ну такое, семидесятки гонять. За 600к. Остаюсь при своём мнении: или риг из 4 3090, или ждать новое железо.
>>1085415 Так она в уже существующую сборку для усиления задач, где нужна одна картонка, типа видеогенерации, картиночек, да тех же игрушек, где 3090 уже может давать печаль на 4к@240fps
>>1085415 > семидесятки гонять Это как покупать суперкар чтобы по средам выезжать стоять в утренних пробках. Никто не запретит и даже будут засматриваться, но довольно глупо.
>5090 Зачем? Если вы дрочер на gpu инференс - за её цену берется 4х3090 и блок питания на 2КВ сверху китайский нонейм. Это 96ГБ видеопамяти. Да, через райзеры будет грузиться контекст дольше, но не так чтобы долго. И этого контекста будет больше. И в диалоге, с медленным увеличением контекста - будет всё быстро. Ну а если говорить об оптимальном решении так - опять же за цену 1-2 5090 собирается стенд на EPYC, который тянет любые (вообще любые) модели без всякого gpu инференса. Хоть 600b
>>1085354 >Нет смысла вспоминать об этом задним числом Нет смысла вспоминать о каких-то кратковременных выгодных предложениях, скидках. А 4090 по 140 лежали месяцами. И нейронки тогда крутили, и в этом треде обсуждали, сравнивали выгоду с 4060 ti по 50 и 3060 по 30 (последние и сейчас вроде есть). Я ещё застал время, когда 3090 по 90-100 новую можно было взять, и я уже тогда увлекался локальными нейронками, лето 23 года наверное. Но вот они как раз быстро кончились.
>>1085842 > 100 GHz clock speeds Звучит как пиздёж. При таких скоростях за такт свет будет успевать только 3 см пройти. Частота процев же ограничена скоростью света. В нормальных процах электрический заряд проходит 30-50 см по транзисторам, поэтому частоты и застряли около 6 ггц. Чтоб повышать частоту, надо понижать расстояние. 3 см звучит совсем нереалистично. От того что у волны другая частота скорость света не преодолеть.
>>1085830 Чел на Хабре обещает 5-10 tps. Я сейчас покрутил на дешевом стенде с 512 гб ддр4 и одним процом epyc непонятно какой серии, настроенном за 2 минуты - получил 1-2 tps и космически долгий evaluation контекста. От R1 671b q4_k_m Так что я спокойно верю в 5-10 tps на нормальном стенде с правильным количеством каналов ddr5
>>1085962 >космически долгий evaluation контекста В этом-то и проблема таких сборок. Первые 8к контекста на ней будет даже комфортно, только вот с учётом ризонинга это как раз на один хороший ответ. Который, первый, так любят показывать в роликах про такие сборки. А ты скорость, особенно контекста, на 32к покажи.
>>1086042 >10 3090, если есть потроха, или пусть 8 3090 + потроха. Итоговые т/с будут явно больше Тоже плохой вариант. С увеличением количества видеокарт в сборке растёт и количество потенциальных проблем. Имхо 4 это предел разумного, а это значит, что предел домашнего инференса ограничен 96гб. Что автоматически ограничивает доступность моделей. В общем, пока крутим модели до 123В и ждём новое железо - на которое и всрём очередные 600к :)
>>1085842 Меня радуют последние годы подвижки в фотонике, надеюсь доживу до оптических процессоров общего назначания У китайцев там много чипов чисто оптических для распознавания изображений какой уже год выходит, и все пизже Тут конечно мутноватая новость но надо посмотреть
>>1086042 >10 3090, если есть потроха, или пусть 8 3090 + потроха. Итоговые т/с будут явно больше Ты бы хоть поинтересовался матчастью прежде чем писать уверено, где будет больше т/с. R1 в 4 кванте весит 400 ГБ, у тебя 240 памяти. Остальное где будет? Там даже свопа в оперативку не будет, потому что потребительский сегмент материнок ограничен 128ГБ. Даже если 256 оперативки - вряд ли у тебя ddr5, верно? Или ты включал потроха с ней в стоимость?
Думаю раскошелюсь еще на денек аренды чтобы затестить на 512 гГБ gddr5 на эпике. Потом отпишусь сюда конечно
>>1086198 >Думаю раскошелюсь еще на денек аренды чтобы затестить на 512 гГБ gddr5 на эпике. Потом отпишусь сюда конечно Это тема, да. А то все тесты на Ютубе имхо лажа какая-то.
>>1085657 > Зачем? Производительность, сопоставимая или опережающая A100 в большинстве задач, объем врам из консумерских карточек. > 4х3090 Даже трех хватит, для бюджетных игр с ии 3090 топ > через райзеры будет грузиться контекст дольше Бред > собирается стенд на EPYC И с ним сосется биба, потому что годен лишь с горем помолам запустить разреженные ллм с малым числом активных параметров, остальное не работает, или настолько медленно что лучше бы не работало, или может запуститься на самой примитивной гпу (быстрее). >>1085962 > космически долгий evaluation контекста Это неизбежно > получил 1-2 tps Около 4 он выдает на 12 каналах ддр4, явно гадит нума если считать по размеру. >>1085982 > Это несерьёзно ни для чего, кроме периодического ерп. Это норм для кодинга когда ты задаешь вопросы/даешь задания и подобного. Р1 не может в ерп и даже в рп хуйта, вероятность появления нормальных тюнов околонулевая. Там сразу себя проявит малое число активных параметров, а реализовать хороший ризонинг, который мог бы это перекрыть, едва ли удастся у энтузиастов.
>>1085184 Открываем лохито и видим кто ими закупился > новая, с гарантией, не открывалась, официальная гарантия озон интересно сколько реально пользователей закупилось, а сколько ушло перепукам? Если челноки конвертировали, закупали, везли через границу, то это уже ультимативный рак. Рекомендую распространить по знакомым чтобы никто случайно не взял у них дороже оригинальной цены.
Есть ли смысл переезжать с lm studio на koboldcpp? Есть у кого опыт взаимодействия и с тем, и с другим? Или бенчмарки какие-нибудь, если перформанс отличается?
lm studio нравится своей простотой, в том числе простотой в загрузке моделей - очень удобный поисковик, менеджер загрузок. Но если koboldcpp в чем-нибудь выигрывает - готов переехать. Знаю, что он опенсорс, а про другие преимущества хз
>>1086363 Че там переезжать? Оно 400 мб весит, установки не требует. Оптимизация у всех разная, лично у меня был x2 прирост от перехода с oobabooga в ДЦП. но на более быстром железе улучшение может быть меньше.
>>1086363 Могу отметить только минусы, которые меня в последнее время напрягают: 1) при каждом запуске распаковывает гигабайт данных (то есть собственно самого себя) на системный диск, 2) чтобы выбрать другую модель, необходимо закрыть и снова открыть прогу, что значит - каждый раз см. п.1. П. 1 фиксится распаковкой в определенную директорию, но тут возникают новые проблемы, по крайней мере для меня как несведущего в том, как запускать файл .py
А квен новый в ассистенте вроде бы харош, но в рп гавно, постоянно норовит потхинкать. Хотя надо попробовать эти размышления совместить с плагином пошагового мышления.
>гпт Не опен сурс >клод Не опен сурс >гемини Не опен сурс >гемма Хуйня + старая >квен Оверфитнутая хуйня на бенчмарках >ллама Мертва >мистраль Отравлена гпт слопом и позитивити биасом >р1 Все ещё слабая >коммандр Мертв >другие архитектуры/решения, типа битнет, титанс, кокоса, мамбы Не проверялись конторами или мертвы
>>1086434 > гпт Продвинутая модель от одних из основателей направления языковых моделей с передовыми возможностями > клод Отличная языковая модель от команды, в свое время отколовшейся от опенов. Составляет достойную конкуренцию или опережает остальных в кодинге, переводе, художественном изложении. > гемини Перспективная серия моделей от гугла, которая может как потеснить конкурентов в малых быстрых моделях, так и удивлять в про версии. Одна из лучших визуальных моделей. > гемма Самая умная в своем размере на момент релиза, хороша даже в современных реалиях не смотря на возраст. > квен Разнообразные модели с открытыми весами, которые хороши в своей области применения, мультиязычны и могут в рп. > ллама Прародитель всех приличных открытых языковых моделей, совершивший революцию по качеству и возможностям среди опенсорса, после нее и пошла вся заварушка. > мистраль Модели от небольшой команды, которые конкурируют как в опенсорсе со всеми, так и с корпорациями при работе с вызовами дополнительных тулзов. > р1 Оплеуха гопоте, да еще опенсорсная. > коммандр Серия мультиязычных моделей с полным отсутствием какой либо цензуры как явления, ждем новых моделей от них. > другие архитектуры Привнесут что-то полезное или станут основными со временем.
>>1086434 > >мистраль > Отравлена гпт слопом и позитивити биасом Че за гпт слоп? Если про качество текста, лично у меня норм все, просто не нужно думать, что ты читаешь умную классическую книгу. Про позитиви биас тоже странно - у меня несколько чатов на 1000+ сообщений с файнтюнами Мистрала. Были скандалы, интриги, расследования, предательства, драки, буллинг. Если тебе нужен откровенный пиздец вроде расчлененки - это проблема не ИИ, а твоя. Анон ниже прав, кто хочет получить кайф - получит, кто хочет поныть - поноет
Меня вот какой вопрос интересует. Мой риг на 6x3090 простаивает 99% времени. Уже завезли какую-то систему для распределения ресурсов, чтобы я мог дать свой риг в облако, а взамен иногда дергать модели пошибче из этого облака?
>>1086517 Бот спок >>1086571 >позитиви биас тоже странно >интриги, расследования, предательства, драки, буллинг >откровенный пиздец вроде расчлененки - это проблема не ИИ мда
>>1086619 ничего себе ты попуск. зачем насрал, если не хочешь ответку получать? и да, иди голову лечи, если ИИ не может удовлетворить твои больные хотелки
>>1086390 Если хочешь попробовать вариант с распаковкой, то там всё довольно просто, на самом деле. Ставишь себе питон самый свежий, потом в архиве, куда распаковал кобольд, делаешь батники под нужные модели с нужными параметрами (просто текстовик в дефолтном текстовом редакторе можешь создать и сохранить с расширением .bat) Внутри будет что-то типа такого: C:\путь_до_питона\python.exe koboldcpp.py --usecublas 0 "mmq" --gpulayers 33 --threads 3 --contextsize 10240 --highpriority --nommap --model "C:путь_до_модели" Всё это с нужными тебе параметрами, понятное дело. Флэш атеншен там добавить или контекст шифт отключить. Параметры смотри в вики кобольда. В вики ещё пишут, что можно запускать сразу сохранённый файл конфига .kcpps, который через основной интерфейс можно сделать, с параметром --config вместо указания всех параметров. Но это сам не пробовал, мб так и куда проще будет нужные параметры настроить.
>>1086390 >как несведущего в том, как запускать файл .py 1)Создаешь батник с содержимым python koboldcpp.py в папке с распакованным кобольдом. 2)Вы великолепны. Никакой командной строки не нужно, он тебе обычный гуи стартанет. Кудауж блядь проще.
>>1087001 Таблетосы, потрясун, что несешь? >>1087033 Использовать по прямому назначению. Параллельно с этим можно какую-нибудь мелочь пустить для автокомплита шелла, такое может быть удобным.
Как заебало шнур туда сюда тыкать. Почему мне недоступны настройки нвидиа панели через материнку, почему жсинк не работает мм? Столько мучений ради 1.1гб врама
Попробовал переехать с lm studio на koboldcpp Генерации стали вдвое дольше. Пиздец. Не исключаю, что упускаю какой-то параметр конфигурации, но уже два часа долблюсь в эту проблему, какие только конфигурации запуска ни пробовал Походу не буду перекатываться, похуй
>>1087108 Блять, чего там настраивать можно такого?
1. Зашел в Hardware, выставил нужное кол-во твоих ядер в Threads 2. В Quick launch ебашишь Use FlashAttention 3. Если юзаешь таверну - вырубаешь галку Launch Browser 4. Далее выбираешь нужный тебе контекст и грузишь модель. 5. В GPU Layers заполнится автоматом число, смотришь чтобы как можно больше слоёв было на видюхе, желательно все. Если слишком мало слоёв - берешь или контекст меньше, или GGUF меньшим квантом. 6. Запускаешь с выбранным пресетом и смотришь, по ситуации можно добавить парочку слоёв выше предложенного автоматикой
>>1087187 Все ровно так я и сделал. Даже перепроверил: в LM Studio абсолютно те же настройки (количество слоев, flashattention и иные параметры). И на Кобольде генерации на 80 +-20% медленнее у меня. Понятия не имею, как такое возможно
Ладно мужики он прав у меня буквально в 1.8 раз выше скорость через лм студио залочил 300 токенов и прогнал пару раз там и на кобольде кобольд 22с лм 12с
>>1087284 Да эти квены ебаные и мистрали на русике лоботомиты абсолютно все вплоть до 32б. Только гемма может неплохо так попукать, и её стоит юзать, если не смущает размер контекста. Единственный нормальный вариант, если хочется пожирнее и по-русски.
Конечно мистраля и квена хватит для рабочих задач, но в рп они хуже 12б. Единственный нюанс, чаще лучше понимают, что ты от них хочешь, больше улавливают тонкостей, но писанина отвратительная, меня аж тошнит, словно я чатгпт 3.5 запустил или хуже.
Помнится, была одна модель, которая прям обоссала в качестве русика остальные ру-модели, но я с психу удалил её из-за количества сои. Хотя она не допустила ни единой ошибки в моём тесте и писала достаточно литературно. И теперь сам, сука, не могу её вспомнить и найти. Может она была удалена даже. Не хочется качать кучу моделей и проверять.
Кажется, это была одна из этих моделей: legend of the, to the end, neverending story.
Если будешь проверять эти модели, обязательно отпишись про качество русика.
Если тебе подрочить, то мой личный фаворит pathfinder. Минусы в том, что дико и быстро лупится и шизеет, может протекать англюсик и в русском могут быть глупые ошибки, но ебля у него более смачная и цензуры меньше, позитивного биаса меньше. Только не ставь у него температуру выше 0.6. Это, кстати, касается большинства ру-мержей. Низкая температура делает качество текста значительно лучше обычно.
>>1087108 >>1087230 Решил тоже попробовать, раз такое дело, но у меня оказалось всё абсолютно наоборот. Использовал как сервер для таверны с кастомной моделью, 12б Q4_K_M на 8-и гиговой карточке. Какие-то невероятно всратые скорости становятся, да ещё модель почему-то весит больше в видяхе с тем же кол-вом слоёв, что в кобольде. Не знаю, что я делаю не так.
>>1087347 Если будешь качать, то 4 медиум квант норм, но по возможности бери больший. Алсо, биг тайгер гемму, наверное, смысла качать нет, ибо она в трусы лезет очень быстро и может хуже писать по-русски из-за тюна, в датасет которого английского ещё больше могли воткнуть. Бери ванильную, если только няшиться собираешься. Иначе нужна abliterated версия. Она потупее, но в целом норм и куда легче её склонить в зверства/кум/мрачнуху.
У неё предел 8к контекста официально, это минус. Шизомагией в виде "верёвки" можно обойти, но скорее всего модель сломается. А может и нет. Я не пробовал. Некоторые аноны (не здесь) балуются таким методом, кому-то заходит, однако я бы не советовал. Обычно его используют для написания охуительных историй на КРЕАТИВНЫХ МОДЕЛЯХ от DavidAU на английском и подобных. Причина в том, что некоторые узкоспециализированные модели имеют довольно неплохой творческий потенциал даже в рамках 7-12б, однако ограничены контекстом в 8к, и эти поехавшие юзеры хуярят лютые контексты, чтобы они им писали рассказ по сценарию на какое-то невероятное кол-во токенов. Ну или ассистировали в написании.
Ах да, постарайся промпты для геммы правильные задать в системном, если будешь качать не файнтюн. Чтобы она четко понимала, каким языком тебе писать и что это ролевая игра. Иначе может быть суховато.
>>1087283 Да, забыл упомянуть, для РП/ЕРП. Сам я сидел на обычном мистрале, магнуме 1.1 и последние несколько месяцев сижу на SAINEMO-reMIX. Последняя мне сначала не понравилась, но потестив, пришёл к выводу что она намного лучше запоминает и использует контекст, да и в целом пишет прикольней.
>>1087288 Сейчас проверю которые ты написал и отпишусь. Насчёт лупов, у меня на семплерах с пика ни разу ничего не лупилось, даже после 10 сообщений мог меняться общий стиль. С маленькой температурой мне не понравилось, так-как пишет слишком предсказуемо.
>>1087356 >Некоторые аноны (не здесь) балуются таким методом, кому-то заходит, однако я бы не советовал. Можно подробнее или ссылку? Какие контексты они хуярят и отличается ли это от обычной разбивки задачи на шаги? Так можно написать книгу на миллион токенов с помощью сетки с контекстом 2к.
>>1087356 я ток ща понял что у меня и есть 2 гема аблитиратора вроде лучше чем типичное 7б гавно но все равно то лупы легкие то перестает развивать историю и топчится на месте - хотя в сис промт писал давно уже все исправления да и с креативностью траблы - замечал что выдает чтото оч поверхностное из контекста дае если 0СС пишеш - придумай чот новое. алсо6квант
>>1087388 Тот анон, видимо, имеет в виду rope, который вроде как сейчас выставляется бэками автоматически в зависимости от того контекста, который ты поставишь. Если ты, для примера, для модели с 8к контекста не поменяешь роуп при рп на 16к контекста, то будет шиза в генерации. Если же правильно растянешь контекст роупом (позволишь движку автоматом растянуть), то явного бреда не будет, но качество будет снижаться тем сильнее, чем больше от исходного ты растягиваешь. Так-то и для мистралей с третьей ламой этот параметр не дефолтный, а ставится огромное основание для степенной функции, потому что с растянутым роупом тренировалось, если правильно понимаю.
>>1087182 Оно нужно если планируешь собирать какие-то пакеты или софт. Например, флешатеншн, того же жору и т.д. Если просто скачивать готовое - там готовые бинарники, убабуга делается в конде, где свой обрезок тулкита загружается, а под самое тяжелое готовые билды. То есть, обывателю оно не то чтобы нужно. >>1087210 > Просто не давай ей доступ в интернет >>1087219 > Кобольд - это буквально сервер... Веб ресурс. Че ты несешь, в одном случае флаг открытия внешнего порта, чтобы к нему можно было обратиться с другого пеки в локалке, в другом сам софт будет заходить куда надо и запретить это можно только явно настроенным фаерволом. >>1087347 Растягивается роупом до двух раз нормально. Лучше качай ванилу и закинь ей в промт что все можно, она умнее тюнов.
>>1087548 Изи вей - крутишь альфу 2.6 или около того (хз как это повлияет в конфигах где роуп не дефолтный), более правильно - пересчитываешь параметры по формулам и меняешь их. >>1087727 Нюфаня, ебнулся совсем? За несколько месяцев перед релизом второй лламы уже на первой получали 4к сначала более всратым методом, а потом уже роуп скейлом. На второй 8к это вообще был дефолт при базовых 4к, параллельно пошли тренировки сразу с не-дефолтными значениями. > в этом треде не было - я видел Пиздаболам в рот нассым, смотри второй оп-пик, который оп-хуй не меняет со времен второй лламы, и актуальный для нее же.
>>1086518 >>1086525 > Как думаете, перейдут ли все на dLLM судя по их перспективности в скорости генерации? Как я понял, они Берт прокачали. Подобная архитектура была у других китайцев, https://github.com/THUDM но без диффузии, LLaDA по описанию интереснее. Хз правда насколько это перспективно.
>>1087789 >который оп-хуй не меняет со времен второй лламы А на что менять? оп-хуй >>1087791 >Как я понял, они Берт прокачали. Берт к диффузии не имеет никакого отношения.
>>1087815 > Берт к диффузии не имеет никакого отношения. Я знаю. Сходство в том, что используется маскирование токенов при обучении. Конечно, не так как в Берте, но они сами в статье Берт упоминают.
Любопытство взяло верх, и я снова пытаюсь разобраться с Кобольдом. Попробовал уже и антивирус Винды отключить, и через панель управления Nvidia задать [CUDA - Sysmem Fallback Policy] -> [Prefer No Sysmem Fallback]. Кому-то помогло первое, кому-то второе - мне ничего из этого. Такое ощущение, что боттлнек где-то в передаче и обработке промпта. Невооруженным взглядом в Таверне вижу, что перед генерацией токенов проходит неприлично много времени, гораздо больше, чем при использовании openai api lm studio. Да и по выводу в консоль KoboldCPP: Processing Prompt [BLAS] (7549 / 7549 tokens) Generating (250 / 250 tokens) [16:03:47] CtxLimit:7799/16384, Amt:250/250, Init:0.06s, Process:3.21s (0.4ms/T = 2355.38T/s), Generate:12.00s (48.0ms/T = 20.83T/s), Total:15.21s (16.44T/s) Три секунды уходит только на процессинг промпта. Я прямо вижу эти три секунды в Таверне, когда на openai lm studio текст выводится практически сразу (стриминг включен в Таверне)
Ну и, похоже, сама генерация тоже медленнее. Насколько именно - не знаю, в выводе Lm Studio не нашел скорость. На всякий случай - у меня Text Completion
Напрашивается один из трех выводов: 1. Я дурачок и в упор не вижу неправильно выбранные параметры в Кобольде 2. Кобольд по какой-то причине не может работать на полную мощность (выше описывал, что копал в эту сторону, но безрезультатно) 3. У Кобольда боттлнек на уровне api или он по какой-то иной внутренней причине работает медленнее
>>1087851 Второй пост или свайпы с нормальной скоростью? Оно может на первый запрос просто загружать модель с диска. Но если у тебя полностью модель помещается в видеопамять и ты не ленивый хлебушек - эксллама в составе убабуги или табби закрывает все вопросы. >>1087885 Тебе направление в биореактор, проследуй.
>>1087920 > Второй пост или свайпы с нормальной скоростью? Свайпы делал, следующие запросы делал. Скорость никак не изменяется, пропорционально все то же самое относительно Lm Studio Модель с контекстом полностью в видеопамяти, да, это моя цель. Кобольдом заинтересовался в первую очередь потому, что у них есть свои технологии семплирования. Added Anti-Slop Sampling (Phrase Banning) в частности: это продолжение идеи logit bias, но работает немного иначе. Хотел попробовать, но, видимо, не судьба. Про угубугу в основном плохое слышал, буду изучать какие есть альтернативы и думать, надо ли мне оно вообще
>>1087851 Если у тебя тип интерфейса user, то переключись в power user или developer. Тогда у тебя слева под вкладкой chat появится вкладка developer, в ней логи. Без логов с временем генерации нет смысла сравнивать, вдруг там у тебя лмстудия просто кладёт хер на часть контекста, например. В кобольде может контекстшифт и фастфорвардинг (какая-то новая фича, не пробовал) подгаживать. Ещё fa, возможно, на кобольде глючно работает, особенно если ты используешь не экзешник для куды 12. Можешь попробовать без фа сравнить. >>1087885 Это тот же роуп, только для масштабирования более простой линейной функцией, чем та, что стали использовать позже.
>>1087851 >Любопытство взяло верх, и я снова пытаюсь разобраться с Кобольдом. usemmap убери, а mlock наоборот включи :) А вообще с 4090 тебе прямая дорога в экслламу. Да, от 6-го кванта придётся отказаться, но зато!
>>1087967 > usemmap убери, а mlock наоборот включи :) Действительно, время процессинга промпта уменьшилось, нет тех трех секунд: Process:0.37s (184.5ms/T = 5.42T/s) Но генерации по-прежнему медленнее. Тем не менее, спасибо!
> А вообще с 4090 тебе прямая дорога в экслламу. Да, от 6-го кванта придётся отказаться, но зато! https://github.com/turboderp/exllama Это? Почему именно оно и зато что? Есть какие-то преимущества?
>>1088007 >Это? Почему именно оно и зато что? Есть какие-то преимущества? Это. Качай Угабугу, там удобно. Предел для 24гб врам - модель 32B 4.25bpw, 32к кэша в восьмом кванте. Хорошо идёт, быстро.
>>1087966 Оказывается, нужно в консоли Lm Studio нажать на три точки и прочекать Verbose Logging. Тогда будет полный вывод, включая параметры и процесс генерации. Ну и жуть...
Вывод Lm Studio: target model llama_perf stats: llama_perf_context_print: load time = 8437.20 ms llama_perf_context_print: prompt eval time = 946.82 ms / 1674 tokens ( 0.57 ms per token, 1768.03 tokens per second) llama_perf_context_print: eval time = 6800.87 ms / 249 runs ( 27.31 ms per token, 36.61 tokens per second) llama_perf_context_print: total time = 7912.78 ms / 1923 tokens
Не лабораторный эксперимент, конечно, я не начинал с одной исходной точки, но и там, и там, были предыдущие сообщения-генерации от соответствующих бекендов. Видно, что Lm Studio скушала больше токенов и сгенерировала ответ быстрее
>>1088046 > Качай Угабугу, там удобно. Предел для 24гб врам - модель 32B 4.25bpw, 32к кэша в восьмом кванте. Хорошо идёт, быстро. Ничего себе. Звучит как фантастика, поскольку предел, который я нашел сам опытным путем (я новичок, мало пока понимаю) - 24b Q6_K_L и 16к контекста. Возможно, мы разное понимаем под хорошей, быстрой скоростью? Вот выше лог из Лм Студии, для меня это быстро. Или в чем нюанс, почему такая разница между моим пределом и тем, что ты рассказал?
>>1088118 В голове двачера просто не может рандомный человек зайти в доску и пытаться разобраться в теме. Обязательно импостер, который сидит на доске с первого дня ее создания...
>>1087943 > Про угубугу в основном плохое слышал Ты учитывая кто и почему такое говорит. Большинство - зажравшиеся снобы, ущемляющиеся обладатели отсутствия или просто несведущие. Так-то если провести массовое голосование то лучшим интерфейсом окажется какая-нибудь оллама, просто потому что ее популяризируют васяны с восторга что они "одной командой запустили чатжпт в командной строке". А то что кривая и ужасно неудобная залупа для использования - те кто нахваливает даже не знают, потому что не пользуются. От того довольно забавно наблюдать на среддите собирают популярность треды, в которых делают "срыв покровов" о том, что на самом деле все эти модные софтины лишь просто обертка вокруг llamacpp. > буду изучать >>1088007 > Это? Почему именно оно и зато что? Есть какие-то преимущества? Может стоит прочесть вики и узнать какие популярные форматы и лаунчеры для них существуют? Ведь их всего 3.5 и для беспроблемного фулл-гпу только один. >>1088080 > разное понимаем под хорошей, быстрой скоростью 30-40 токенов в секунду генерации и несколько тысяч обработки контекста.
Модель пиздец удивляет, одновременно ведя беседы о религии (увы, скрин не могу приложить, мало ли кто ущемится или потрут за офф-боард) одновременно в процессе кума ака хентай сцены, и при том и то и другое на вполне вменяемом уровне.
>>1087851 У тебя в GPU Layers стоит 40, у цидоньки вроде бы 43 всего. Ты не всю модель в видеокарту вгружаешь, 3 слоя у тебя висят на проце, поэтому и медленно. У кобольда автодетект есть, если выставляешь -1 в слои, должно автоматически выбирать подходящее значение, но оно шизит, цидоньку можно нагрузить на 24к контекста + 1024 батча, автодетект выдает 28 слоев, но если вручную 43 слоя поставить, все влезает полностью в 23 гига.
>>1088242 Странно, что в Lm Studio указаны те же 40 слоев (больше нельзя), и в сравнении с Кобольдом (на 40 слоев) она работает быстрее. Поставил 43 слоя в Кобольде - стало работать быстрее, однако по-прежнему на 10-20% медленнее студии. Через мониторинг ресурсов в диспетчере задач вижу, что при таком сетапе Lm Studio ест на ~0.5гб видеопамяти больше. Возможно, она сама как-то подчищает хвосты и держит совсем всё в враме? Спасибо за ответ И анонам выше тоже. Изучаю oogabooga и exllama2, возможно, это и правда то, что мне нужно
>>1088266 Если есть возможность вгрузить модель + контекст полностью в врам, то экслама, какой нибудь TabbyAPI. Там оффлоадинга, значит нет и слоев, если не влезает в видеопамять - крашится. Заметь, что модели в GGUF кванте не равны тому же BPW в EXL2. Например, Q4 это примерно 4.65 bpw, а не 4.0 bpw. В TabbyAPI еще нет интерфейса, все настройки тебе надо прописывать в конфигах самого табби и в файле конфига модельки. В табби тебя интересует model_name - название папки с моделью; cache_mode - Q8 норм, Q4 если хочется больше контекста, chunk_size - то же самое, что и BLAS Batch size - какой размер контекста обрабатывается за раз, 1024/2048 хватает. В конфиге самой модельки тебя интересует max_position_embeddings - это размер твоего контекста, ставь сюда 16384/24576/что твоей душе угодно.
>>1088196 >На английском Я ущемился, пиздец, ну это как так то, в какой стране живем? Нахуй мне на проклятом пиндоском общаться? Когда уже будет адекватный могучий Русский язык?
>>1088311 >>1088313 Могут, через жопу, сами на них не сидите же? Забывают сколько раз сняли трусы. Берут мой телефон, чтобы позвонить, находя в моем списке контактов своих родственников. Намёков не понимают. Ограничены в креативности, чем дальше по контексту - повторяются в действиях, диалогах. Зацикливаются на одной задаче. Мало разнообразия, словарного запаса. Часть из них быстро скатывают весь диалог в еблю. Пройдут годы, пока появится что-то действительно годное...
>>1088325 >Намёков не понимают. 123B понимает довольно хорошо. >Ограничены в креативности, чем дальше по контексту - повторяются в действиях, диалогах. Да, на мой взгляд гейммастером модели пока быть не могут - или нужна специальная карточка с подробными инструкциями. Но вот подхватывают контекст большие модели на ура. >Мало разнообразия, словарного запаса. Вообще неправда. >Часть из них быстро скатывают весь диалог в еблю. Узнаю нелюбителя Магнума :)
>>1088065 Скорость обработки промпта, кста, почти одинаковая, а вот генерация сильно отличается, выходит. Я всё-таки думаю на флэш атеншн. Тут один анон выяснил, что по какой-то причине на кобольде с ним скорость генерации медленнее, по крайней мере, когда прилично слоёв в видяхе. У меня тот же экспириенс. Выше 40 слоёв студия не давала тебе ставить из-за опции контроля железа, возможно. Которая "Model loading guardrails".
>>1088346 >>1088350 >>1088351 Пробовал и лардж и квен2.5 72b, в логике - да, гораздо лучше, и всякие намеки действуют и в целом здорово видеть когда двусмысленными фразами подводишь персонажа к чему-то и он тебя понимает. Лардж у меня только в 2.65bpw помещается, который магнум. Местами переходит на англицкий, то ли от файнтюна, то ли от низкого кванта. Квен кстати тоже неплохой файнтюн есть, Kunou, на русском общается, но местами китайское и английцкое говно проскальзывает. У больших моделей минус в том, что они больше соответствуют стилю ассистента, даже, когда общаешься с персонажем - заметно и это никакими инструкциями не убирается, у мелких сеток из-за миксов и большего количества тюнов этого мусора меньше. >весь диалог в еблю Я, кстати, еблю вообще не котирую и не скатываю весь диалог в кум, наоборот, люблю по душам пообщаться, ну а ебля это редко. Замечал, что интереснее общаться, когда долго держал нофап.
>>1088473 > в 2.65bpw помещается Ну это уже совсем деменция будет, чудо что работает. Магнум вообще неплохо на русском может общаться внезапно, хз как поведет себя на больших контекстах когда все будет сложно, но первые впечатления положительные. > Kunou Спасибо, надо будет попробовать. > У больших моделей минус в том, что они больше соответствуют стилю ассистента Это ты зря, как раз по гибкости они куда лучше, добавлять или наоборот подчищать промт пробовал? Подхватывают указания из карточки, меняют общее повествование и стиль речи персонажей по условиям и ситуации и прочее. Мелочь как раз в этом отношении не понравилась совсем, и сам текст по структуре унылый, и стабильно одно и то же. Местами даже треш с соей и желанию отвечать на вопросы лезет что пиздецово.
>>1088286 > какой нибудь TabbyAPI Спасибо! Для работы с exllama2 остановился именно на tabbyAPI. Подкупили отсутствие ненужного для меня фронтенда и здоровый минимализм в целом.
> Заметь, что модели в GGUF кванте не равны тому же BPW в EXL2. > Например, Q4 это примерно 4.65 bpw, а не 4.0 bpw Пользуюсь в основном Cydonia v2 Q6: https://huggingface.co/bartowski/TheDrummer_Cydonia-24B-v2-GGUF Правильно ли я понимаю, что ближайший exl2 аналог - https://huggingface.co/ReadyArt/Cydonia-24B-v2_EXL2_6bpw_H8 , и он скорее ближе к Q5 кванту? Данную exl2 модель я уже загрузил, в параметрах 16к контекста, q6 квант, остальное не менял в стандартном конфиге. Скорость генерации 33.8-34t/s, врама занимает 20 гигов. Q6 gguf на Lm Studio (llama) 33.3-33.5t/s и занимает 22.8 гигов врама. Не знаю, насколько это вообще корректное сравнение, но хотя бы нет проблем как с Кобольдом
>>1088796 Эффективную битность можешь посмотреть тут https://github.com/ggml-org/llama.cpp/tree/master/examples/quantize но вообще это для старой лламы, на другиг могут быть некоторые отклонения. В экслламе можно поставить любую битность без привязки к конкретному, если хочешь нестандартное то квантуй сам. По генерации между разными беками отличия будут проявляться уже на большом контексте, плюс в скорости его обработки, на малых там все +- одинаково.
>>1088992 1 - Ты не видел их потому что опен сорс - "надо - сделай". Просто никто не сделал. 2 - Нинужно, так как рост perplexity активно начинается ниже 4 кванта, и экономить место хитрыми способами квантования на высоких квантах - нет смысла, потому что можно просто взять квант ниже (четвертый например), и практически ничего не потерять.
>>1089264 Да не надо ставить роуп кастомно, ты только модель сломаешь. А альфа стоит в убе, в кобольде её нет. Она там как-то выражается то ли через первую величину, то ли через вторую. По-моему, через первую, для линейного масштабирования.
Но если очень хочется поиграть со сломанным контекстом, то запусти модель с автоматическим роупингом, посмотри в консоли кобольда какую величину base он пишет (на пике пример для немо), и её сам увеличивай раза в 2-3 от базы в надежде, что хватит на больший контекст (спойлер: скорее всего, будет только хуже).
Какая 12б сейчас самая "умная" в рп и пишет красивее остальных? На английском, понятное дело.
Если возможно, кроме литературных навыков хотелось бы увидеть умение описывать окружающее пространство, действие, взаимодействие чара с окружающей средой, а не только пиздёж.
>>1089333 Имхо магмел (MN-12B-Mag-Mell-R1) самый умный из рп мёржей/тьюнов. Сколько их пробовал, остальные чаще шизят и/или хуже пишут. Можешь отдельно попробовать входящие в его состав Chronos-Gold-12B-1.0 или mistral-nemo-gutenberg-12B-v4 (у его автора есть и другие версии немо гутенберга с тьюнами на более современной литературе), заточенные именно на более художественную писанину. >умение описывать... а не только пиздёж Это решается системным промптом. Собственно, просто дай инструкцию, что ты хочешь больше описаний того рода, которые тебе нужны.
>>1089331 >Но если очень хочется поиграть со сломанным контекстом чо мне хочется? на меня наехали якобы вы пару лет уже обсуждаете свои альфы и ропы и их нада как то настраивать чтоб было заебись по крайней мере для 2гемы ванилы вот я и пытаюсь понять хотябы о чем речь вобще
>>1089351 Их действительно обсуждали, потому что во времена второй ламы и старых мистралей на её основе их надо было менять руками. Сейчас бэки выставляют нужные к-ты сами. Если ты запустишь гемму на 32к контекста, то увидишь в консоли два разных числа для base: одно дефолтное, взятое из модели, и второе увеличенное, которым кобольд растянул контекст. Ты можешь попробовать поставить этот параметр ещё выше самостоятельно, но это наверняка ничего не улучшит.
Действительно один из самых сильных вариантов, пробовал. Беда в сое. Я чуть себе вазэктомию от неё не сделал и не купил бойфренду своей жены нинтендо свич.
>Chronos-Gold-12B-1.0
А вот он мне совсем не зашёл. Как-то туповат и тоже соеват.
>>mistral-nemo-gutenberg-12B-v4
Именно его не пробовал. Чем он тебе зашёл? Я пробовал гутенберга от давида, потому что мне нужен негативный биас хотя бы небольшой. Он хорош, но я не знаю, как там бороться с лупами и шизой, уж очень яростная она, нигде такого не видел. И соблюдение инструкций слабое было. Попробую поискать, шо там есть на современной литературе. А так негативный биас с гутенбергом И С СОБЛЮДЕНИЕМ ИНСТРУКЦИЙ для меня был бы топовым вариантом.
>Это решается системным промптом. Собственно, просто дай инструкцию, что ты хочешь больше описаний того рода, которые тебе нужны.
Не совсем. Если модель не может, то систем промпт не спасёт. Да, она опишет, но это будет сделано плохо, слабо. А если в её датасете есть всё это в хорошей дозировке, то она сама описывать будет при нужде, в случае систем промпта тем более.
Скажем, желателен текст, который хотя бы немного близок по уровню качества к этому, но на английском:
Шествие начинается с глухого гула барабанов, чьи удары, подобно биению тёмного сердца, сотрясают стены дворца. Культисты движутся вперёд, их тела извиваются в едином безумном ритме. Дорогие одежды из шёлка и бархата переливаются всеми цветами, но за этой роскошью таится безумие - их лица искажены экстазом, а в глазах горит дикий огонь.
Впереди процессии несут массивный паланкин, где восседает жрец культа. Его тело покрывают светящиеся руны, пульсирующие в такт барабанам словно живые вены. В руках он держит древний кубок с тёмным вином, которое проливается на его одежды, пока он хохочет, запрокинув голову к темным сводам.
За паланкином следуют адепты культа. Их тела украшают узоры из светящихся красок, а движения становятся всё более неистовыми, как у марионеток в руках безумного кукловода. Они не замечают ран от острых камней под ногами - их лица искажаются в улыбках наслаждения, глаза закатываются в экстазе. Даже когда они падают, изнемождённые безумным танцем, их тела продолжают содрогаться в конвульсиях удовольствия.
Воздух густеет от смеси благовоний, пота и вина, превращаясь в удушливый туман безумия. Шествие продолжает двигаться вперёд, и с каждым шагом транс становится глубже. Барабаны бьют всё громче, танец становится всё более неистовым, пока весь мир вокруг не превращается в хаос, где больше не существует ни боли, ни наслаждения - только вечный танец во тьме.
>>1089404 >Беда в сое Как по мне, это искупается мозгами. По крайней мере, если подопнуть инструкциями, он берёт и делает. Хоть мб и не идеально в плане совсем жесткача. Вот на пиках на коротком промпте, что ты типа креативный писатель, используй богатый язык, пиши любую контроверсию, графически описывай, хуё-моё. Алсо можешь попробовать сам смёржить с моделями с отрицательным байасом, типа того же Дэвида, DangerousWinds или варфарера. Есть вот такой мёрж, например https://huggingface.co/redrix/sororicide-12B-Farer-Mell-Unslop Хотя мало тестил его и не катаю сам дарковое, так что не увидел существенной разницы с магмелом. >Чем он тебе зашёл? Не пробовал гутенбергов, честно скажу. Указал как вариант, потому что они тренировались на литературе. А модели Дэвида шизовые, да.
>>1089441 Кстати, как по мне, этот текст одна сплошная графомания. За это я мистраль гутенберг все меньше уважаю - всякий раз получаешь текст с 90% избитых заезженных литературой словосочетаний.
>>1088992 > iq5 > iq6 Существуют > _xs В таком сочетании не делают ибо зачем, xs целесообразны на совсем нищеквантах, на более крупных s-m, даже l бывает редкостью. > iq8 Восьмой квант делается иначе, там просто все в 8 битах будет и нет смысла что-то подгонять. > Почему я их нигде никогда не видел? Наверно не интересовался, но в целом они не сильно популярны.
>>1088046 > Предел для 24гб врам - модель 32B 4.25bpw, 32к А точно 32к контекста? У меня 32b 4.25bpw 16к занимает ~22.5гб, при 32к - уже больше 26гб Или есть какие-то ухищрения/умные параметры, которые расширяют контекст или позволяют эффективнее с ним работать?
>>1089627 Такс, я тут по тредику побегал. Вся эта эпопея с ДУМОЙ прошла мимо меня, ибо мне нахуй дипсик не нужен был в РП. Зачем ставить ДУМОЙ в начало, как тут ? >>1089521
>>1085094 > Как видишь, мне нужны. Значит ты и обучай, логично? :) По факту локально нужно или быстро, или умно. А средне нужно только тебе да еще паре человек.
> нафиг нужен ризонинг Да нормальная скорость, заебал. Не мгновенно, но подождешь пару минут, зато получишь ответ буквально сравнимый со всякими о1 и ниже. Вполне достойно, если не хочешь отдавать свою инфу в облако.
>>1085315 > 2х24 !== 48. А 32 одной удобнее Это верно для видео и аудио-моделей. А для текстовых приблизительно равно. В контексте данного треда…
>>1085322 А с кашей и 60, ага. Если бы блядь знали тогда…
>>1085354 Строго говоря, скидос был в начале марта, а ллама завирусилась в конце марта… Особо умные и дальновидные может и закупились, конечно.
>>1085657 Не любые, потому что именно «600b» — моешка, поэтому и тянет. Но зато тянет ее, тащемта, да. А что еще нужно?..
>>1085774 Ну, мегамаркет их месяцами и отдавал, с конца октября, наверное, до середины марта.
>>1085910 Физика, да. Есть такие процессоры, но толку от них не дуже много. Забили на такую хуйню. Проще масштабировать медленные.
>>1085997 Серьезный бизнес легко себе ноду с 8 H100 возьмет и апнет скорость кратно. =)
>>1086384 > x2 прирост от перехода с oobabooga в ДЦП Там одна и та же либа, скилл ишью какой-то, или неудачный момент для убы. Скорость обычно ±10% туды-сюды.
>>1086391 > у кобольда есть удобный text-completion для писательства в его веб-морде Убабуга всю дорогу: я что, шутка для тебя?
>>1086734 Юмор в том, что это обычный запуск llama-cpp-python с рюшечками, который равен запуску обычной llama.cpp, или из коробки делается в oobabooga. Проще поставить убу и перезагружать модели на лету в ней, чем ебать мозги с кобольдом при таком раскладе, согласись. =)
>>1088796 > ближе к Q5 кванту Нет. Стоит запомнить, что Q5 — ближе к 6 кванту. А вот 6bpw — это по-настоящему 6 квант. GGUF наебывает, тут важно это понимать. =) Тот же Q4 — это не int4 кванты, к примеру. А то часто слышно, как Q4 превосходит 4pbw и int4, но Q4 — не 4. =)
> Lm Studio Вполне возможно, что в лм студио ллама.спп как раз работает без багов и на максимуме возможностей своих.
>>1088987 Вброшу старую Aya, первой версии. Цензура там отсутствовала, но специально ее не дообучали, конечно.
>>1089452 Уже второй раз советуют. Надо попробовать, что ли… 10 токенов сек позволят поиграццо.
>>1089618 И правда, получилось. 32b 4.25bpw 32к контекста Q8 полностью в враме Но в чем разница? Правильно ли я понимаю, что все GGUF модели и кванты используют fp16 кэш? Или кванту соответствует и кэш тоже? Например, q8.gguf - q8 кэш? Если так, то я не понимаю, каким образом в exl2 формате я могу загрузить 32b 4.25bpw с 32к контекста, в то время как gguf 32b Q4_M - около 14к. Неужели такая разница в архитектуре, и exllama2 настолько лучше?
И продолжая вопрос, какая теоретически и практически разница между fp16 и q8 кэшами? fp16 - для кодинг агентов и точных задач, q8 - легкое пренебрежение, которое в целом достаточно для разговорных задач и рп?
>>1089716 >Проще поставить убу и перезагружать модели на лету в ней это работает так хорошо что я лучше помню как постоянно выключал и включал хубабубу с нуля не говоря уже про зависани которых нет в кобалде
>>1089760 Либо древность, либо скилл ишью. Это уже около года работает идеально. Никаких проблем с перезагрузками моделей (порой десять разных во время тестов) не было, никаких зависаний, никаких проблем. Софт сам по себе работает сейчас хорошо. Так и я могу сказать, что кобольд говно (помню, в 2023 году…=). Но, нет, все работает вполне норм.
>>1089749 Неправильно, кэш вообще к моделям не имеет отношения, ты просто не выбирал квантование кэша, вот и все. В кобольде оно так же есть. =)
>>1089771 > Неправильно, кэш вообще к моделям не имеет отношения, ты просто не выбирал квантование кэша, вот и все. То есть квантовать кэш можно и на gguf моделях? А если этого не делать, они все используют fp16? Как это влияет на опыт использования нейронки? Кроме того, что можно выиграть врам для контекста, конечно же
>>1089773 >Как это влияет на опыт использования нейронки? если честно, не заметил, сидел и с фп16, и с q4 кэшем Если модель загружается впритык, то можешь q8 влепить, больше контекста влезет
>>1089777 Много ресурсов, статей и бенчмарков прошерстил в поиске ответа. Консенсус в том, что Q8 кэш практически не влияет на использование, и почти все используют его, чтобы выиграть в контексте. Вот небольшая табличка актуальных данных от одного из автора exllama2: https://github.com/turboderp-org/exllamav2/discussions/727#discussioncomment-12032104 Это если про цифры говорить. Про ухудшение же опыта взаимодействия я никакой информации не нашел, многие q8 кэш используют и для кодинг агентов. Похоже, нужно привыкать к 32к контексту...
Спасибо всем за помощь. В итоге переехал с Lm Studio на tabbyAPI, вдвое увеличил контекст (с 16 до 32к) и теперь могу нормально использовать 32b модели вместо 22-24b Пора отправляться на поиски моделей! Если найду что-нибудь интересное, обязательно поделюсь с тредом
>>1089773 >То есть квантовать кэш можно и на gguf моделях? А если этого не делать, они все используют fp16? Можно, только при этом нельзя использовать context shift. Не знаю, как с этим на экслламе.
Почему когда выставляю любое другое значение кроме 999 в слоях, то ДЦП полностью отказывается генерировать на гпу? В википедии написано 6гб врам=30б=7 слоев (у меня 32б iq3, с 7 слоями еще 3 гб свободных остается). Но когда выставляю -1/10/16/20 гпу только для обработки промпта используется, генерирует только на цпу. Больше 20 не видел смыла тестировать тк VRAM полностью забита после 16 слоев.
>>1089749 > Но в чем разница? Вместо представления активации в виде исходного типа данных, ты их сразу квантуешь и тем самым сохраняешь память. Это несколько замедляет расчет из-за необходимости дополнительных операций и снижает точность работы, но зато позволяет загрузить побольше. В целом с q8 все хорошо, главное не перепутай его с fp8, вот там будет форменная лоботомия. q4 также вариант, но уже заметно захуевливание. > exllama2 настолько лучше В жоре (llamacpp) тоже можно использовать квантование контекста. Можно вообще исхитриться с параметрами сборки, и тогда оно даже процентов на 10 меньше врам будет кушать и будет быстрее работать, но это обеспечивается некорректной работой и на выходе по мере накопления контекста будет все больше шизы, вплоть до полной поломки со спамом повторяющихся токенов. Но вообще эксллама лучше по скоростям и отсутствию проблем, одна беда - работает только на врам. >>1089816 > Q8 кэш практически не влияет на использование Едва измеримо, можно смело юзать и не обламываться. >>1089907 Похоже на проблему с этим жонглированием сборок под старые архитектуры и куду и какой-то хардкод значения. Более старую версию не пробовал скачать, на других моделях то же самое?
>>1089925 >Похоже на проблему с этим жонглированием сборок под старые архитектуры и куду и какой-то хардкод значения. Ну я чуть больше месяца сижу на ДЦП, oobabooga еще медленее и больше врам ест вроде на прошлогодних версиях тоже самое, но это не точно. >на других моделях то же самое? Правило 999 слоев - да, -1 еще не разу не работал, а на счет других настроек не знаю. Это столько времени занимает пиздец, чтобы загрузить разгрузить ждать пока промпт-хуемпт, поэтому тут спрашиваю.
>>1089925 >Но вообще эксллама лучше по скоростям и отсутствию проблем, одна беда - работает только на врам. Уже нет кстати :) Сейчас попробовал одну модель, кэш немного во врам не поместился - ничего, заработала. Медленно правда.
>>1090030 Увы, кроме предположения и ориентира куда копать нечего подсказать, может тут кто-то в кобольде копался, особенно с реализацией под старые архитектуры. Как вариант - создай ишью в репе, подробно все описав, возможно штука ерундовая и быстро пофиксят. >>1090116 Шиндоуз мастер рейс получается?
>>1090152 Несколько лет там не было. боюсь заходить т.к. появляется fomo и начинаю каждые 5 минут треды проверять как наркоман. >>1090164 >создай ишью в репе У меня, мои ответы скрытыми почему-то были (видны только мне в инкогнито моде не видны). А второй раз пытался войти, начал номер телефона, с меня, вымогать.
>>1089749 >>1089816 >>1089777 >>1089925 Проблема в том что и без квантованного кеша в 24гб врам влезают 24к контекста, а больше ни одна ллм и не запоминает 32б так вообще не помнит что было 5 сообщений назад, толку его растягивать до 32к и ломать уже хорошие 24к
>>1089773 Ну, когда я пробовал 30к контекста, то q4 показал себя не очень. А q8 был получше, вроде бы.
Качество проседает, но не критично. Однако тут надо тестировать конкретную реализацию, модель и свой личный опыт получать.
>>1089816 Поздравляем! И спасибо за ссылочку, кстати. =)
>>1089855 Тут учти, что это ризонинг модель — то есть, она в начале ДУМАЕТ, как тебе ответить, а потом уже отвечает. Время до первого токена большое (мысли не читай, ай-ай-ай!=), и экспериенс может существенно отличаться. Дело не в размере, а в подходе.
>>1090116 Не путай оффлод слоев на оперативу и оффлод слоев в shared memory (ту же оперативу, но псевдо-видео-память=). И, да, работает, и даже замедление может быть не критичным при процентах памяти (небольшом значении). Но довольно быстро становится проще gguf заюзать.
>>1090254 > 32б так вообще не помнит что было 5 сообщений назад Это очень странно. Не прими за грубость, но ты уверен, что у тебя все хорошо с пресетами и промптом? С 32b пока не успел еще поиграть, но я на Cydonia 24b с 16к контекста при полном его заполнении спрашивал персонажа о том, что было в начале (на первой тысяче контекста, около 70 сообщений назад), и он помнит. Специально тестировал так. Ни в саммари, ни где бы то ни было еще, детали не были уточнены. С Магнумом 22b та же история
Но я согласен, что имеет смысл протестировать fp16 ~24k vs q9 32k
>>1086198 >>1086207 Отписываюсь. Вот работа V3 671b (то же самое что R1 только без ризонинга, я проверял и R1 тоже, работает так же) на сл. стенде: 1 - Процессор - 2 × AMD EPYC 9274F 4.05 ГГц. 2 - Оперативка - см. скрины. 512 ГБ DDR5, что означает что она работает в 16 каналов планками по 32, и производительность ниже, чем была бы на 24 каналах которые дают процы, если бы было 768 гигов памяти. 3 - GPU нет.
В 512 гигов входит модель в 4 кванте и 5000 контексте ровно. При любом контексте в пределах 5 тысяч примерно 4.5 т/с инференс. Евалюэйшн контекста быстрее, при добавлении - практически мгновенно, полные 5 тысяч - секунд 10-20 навскидку.
На 24 каналах - будет еще быстрее, и контекста больше. Меня такая скорость полностью устраивает, на 1 меня этого вполне хватит, даже с запасом.
Ну вот, теперь буду думать как собрать такой себе, и какой минимум по процам там нужен, и по памяти.
>>1090261 > Тут учти, что это ризонинг модель — то есть, она в начале ДУМАЕТ, как тебе ответить, а потом уже отвечает. Выше присылал ссылку на файнтюн exl2. Там есть хороший пресет, который в том числе выключает reasoning/thinking. Работает очень быстро!
>>1089907 Ламацпп и не на сборке для старых процев ведёт себя схожим образом в том смысле, что слабо грузит видяху, когда много слоёв на проце. Предупреждаю, что я не то чтобы шарю, могу нести херню, но предположу следующее. Флэш аттеншн тянет всю обработку контекста считаться на куде, поэтому и загружает её сильно в период обработки. А вот потом видяха, на которой слоёв всего ничего, посчитала то, что могла на том KV кэше, который был на её слоях, и ожидаемо простаивает, пока проц не посчитает своё, а на его стороне дохера. А при 999 слоёв оно просто запускаться не должно по идее, вылетать с oom. Предположу, что оно вываливается таки в shared memory с оперативой (что видно на твоих скринах, кста, даже когда мало слоёв в видяхе, хз, почему), и видяха пыжится что-то посчитать, постоянно обмениваясь с оперативой. Отсюда загруженность. Олсо калькулятор Дэвида ( https://huggingface.co/spaces/DavidAU/GGUF-Model-VRAM-Calculator ), который вроде плюс-минус правильный, говорит, что тебе должно слоёв 20 влезать. Но у тебя, похоже, не все 6 гигов доступны, в этом проблема. >>1090269 А какой смысл сидеть на ризониг модели без ризонинга?
>>1090268 С учётом того что там мелкие эксперты - как-то совсем тухло. На 70В будет 3 т/с генерация и промпт как на теслах. Какой-то аналог тесл собираешь. Теслы были на Жору залочены, а ты на МоЕ лочишься, большие модели будут слишком медленные.
>>1090281 Ну никто не мешает воткнуть в сборку пару видюх. Кстати, а есть двухпроцессорные не вендорлокнутые платы с ддр5 и 7 слотов под карты? Форм фактор не важен, стойка у меня есть. А то я бегло посмотрел и не нашел больше чем на 3 слота
>>1090292 > Ну никто не мешает воткнуть в сборку пару видюх. Только зачем тогда эта сборка нужна, если карты можно и в мать+проц за 30к воткнуть. Чтоб ты понимал какой разрыв с гпу, пикрил как хостится R1 у разных провов.
>>1090281 >Только зачем тогда эта сборка нужна, если карты можно и в мать+проц за 30к воткнуть Затем, что карты чтобы запустить R1 стоят под 3 миллиона рублей. А сборка на эпиках - 600 тысяч.
>>1090254 > влезают Все зависит от размера кванта, от 1к до много. > 32б так вообще не помнит что было 5 сообщений назад Чето неладное у тебя >>1090268 Вроде как скорость и неплохая для проца, пока не вспоминаешь что там всего 30б активных и 16 каналов ддр5. Попробуй пожертвовать квантом и загрузить хотябы 16-32к контекста, можно с его квантованием, интересно что там будет на контекстах побольше. Вообще, хз насчет эвала, но генерация должна быть быстрее, подобные показатели достигаются на ддр4.
>>1090318 >Затем, что карты чтобы запустить R1 стоят под 3 миллиона рублей. А сборка на эпиках - 600 тысяч. Мне кажется, что на теслах будет быстрее и дешевле :)
>>1090268 >Ну вот, теперь буду думать как собрать такой себе, и какой минимум по процам там нужен, и по памяти. Если серьёзно, то сборка явно выйдет весьма так себе. Гораздо лучше сохранить эти деньги, ещё немного подкопить и подождать чего-нибудь получше.
>>1090373 >Если серьёзно, то сборка явно выйдет весьма так себе бгг мы тут собираем говнориги на прожареных видяхах, буквально тратим деньги на одноразовый мусор а уж про тесловодов я даже говорить не хочу. У него хотя бы будет хороший сервер, а не куча бесполезного мусора. Ты либо собираешь на говносборку и крутишь на ней хоть что-то, либо идёшь работать и арендуешь мощности. Вариантов больше нет кумить на 12Б >Гораздо лучше сохранить эти деньги Положить на вклад под проценты. >и подождать чего-нибудь получше. Сколько ждать то? Там из анонсированного только эпл за 1,2 ляма что-то может показать, остальное чисто мистрали гонять годится по цене сборки на видяхах, но с меньшей скоростью.
а какие фронтенды юзаете? мне бы что-нибудь без хуйни всякой вроде докера или установки экзешником распаковал - запустил, со всеми данными прямо в папке, портабл версия это пиздец, куда ни глянь - везде или установщик, или данные в аппдату сохраняются, или вообще платные функции
>>1090510 > У него хотя бы будет хороший сервер Ну если бы он на нем что-то считал, например, то аргумент был бы весомым. Правда тогда запуск нейронки был бы в низком приоритете при выборе. Иначе - для чего нормису сервер? > Вариантов больше нет кумить на 12Б Пары консумерских блеквеллов хватит?
>>1090555 >мне бы что-нибудь без хуйни всякой вроде докера или установки экзешником >распаковал - запустил, со всеми данными прямо в папке, портабл версия Чел. Разберись в докере. Это буквально то что ты описываешь - 1 команда и стартанул, одна команда и потушил. Хочешь чтобы данные сохранились - запускаешь на старом volume. Хочешь чтобы новые были - на новом. Все юзают кто хоть чуть-чуть айтишник.
>>1090269 Ты буквально машине отпиливаешь колеса. =) Нахуя тебе ризонинг модель без ризонинга? Микроскопом гвозди забивать литералли.
>>1090268 Тебя назовут ебанутым, но ты шепни мне минимальные модели. )
———
Я тут запустил QwQ и попросил его сгенерить мне «средней сложности фэнтези-мир», чтобы поводиться. Так он мне такую фантасмагорию сгенерил, я хуй знает как в ней люди-то живут, не то что приключаться. Но уровень охуеть глубокий, аж дух захватывает. Был бы фанатом какого-нибудь плейнскейпа — наверное дико кайфанул бы. Пошел переформулировать просьбу… Возможно хорошие задатки.
При помощи квена создавал персонажа. И когда я внес корректировки в личности персонажа, он написал, что учитывая эту информацию, нынешний он, иначе бы отреагировал бы на эти же события из его жизни. Ух бля.
>>1090261 > Тут учти, что это ризонинг модель — то есть, она в начале ДУМАЕТ, как тебе ответить, а потом уже отвечает. Время до первого токена большое (мысли не читай, ай-ай-ай!=), и экспериенс может существенно отличаться. Дело не в размере, а в подходе. а зачем нужна думалка для рп?
>>1090679 Да для рп хз, ризонинг модели же нужны для работы, для решения задач. Но люди пробуют рпшить.
Типа, модель в начале обдумывает ответ, и это позволяет ей хитрить (не читаешь мысли — не знаешь, что она задумала), лучше понимать тебя. Но это все теория, на практике пока только тестируют.
Я бы для рп вот так сходу не брал бы QwQ, есть более классические модели. Куда торопиться.
Я конечно понимаю, что это не так важно, но где 3д голова тянки с генератором голоса или лучше вообще напрямую без текстовой обработки основанной на токенах на смыслах и звуках, с которой можно разговаривать?
>>1090261 > ризонинг модель — то есть, она в начале ДУМАЕТ >>1090679 > а зачем нужна думалка для рп? Если упростить то ризонинг состоит из двух частей: задроченное поведение при котором модель устраивает ретроспективу и или формирует краткий перечень самоинструктирования, или ударяется в долгие раздумья и переоценки; формирует финальный ответ опираясь на общий контекст и финальные выводы. Первое в рп реализуется и может быть полезным (пусть не всегда), второе там вообще вся суть рп, когда нужно дать хороший и последовательный ответ с учетом большого объема произошедшего ранее. Если реализовать хорошо то это может быть полезным с точки зрения разнообразия и повышения перфоманса на мелких моделях/больших контекстах. Только не ультить, упарываясь в хлам, как делает это р1, все должно быть в меру. >>1090801 > где 3д голова тянки Хтонь же и все будет заканчиваться одним и тем же
>>1090869 > 3д голова тянки > все будет заканчиваться Тыканием члена в монитор?
> упарываясь в хлам, как делает это р1 Я сейчас попробовал грока, р1 и квк. Грок мне понравился больше на старте, но у квк и р1 одинаковый подход — предлагать варианты развития событий. Думается мне, надо поработать над промптом (я прям хуйню написал, конечно, с первого раза). Чтобы игра шла в нужном мне формате. Но буду экспериментировать, мне прям понравилось. Чувствуется небольшой качественный скачок относительно обычных моделей. И мысли под катом — это приятно, когда не знаешь, что ждет тебя впереди, но модель уже продумала заранее…
>>1090555 llamacpp + llama-swap + sillytavern В чем прикол llama-swap? https://github.com/mostlygeek/llama-swap Это прозрачный прокси сервер для llama-server, который может загружать те модели что ты добавишь в его конфиг, выбирая их из интерфейса таверны Тоесть на настройки llama-server и написание к нему батников можно положить хуй, один раз добавил в конфиг прокси сервера и забиваешь Удобно
https://github.com/ikawrakow/ik_llama.cpp А прикольно кстати, не только для r1. Там модификации для любых процессорно запускаемых сеток, так что любители запуска на процессоре получат буст скорости, местами аж до 2 раз Выше теоретической от скорости памяти конечно не прыгнуть, но выглядит любопытно
>>1091291 я вообще на олламе запускал. Не понимаю неприятия олламы в этом треде. Я многократно сравнивал скорости - так же работает, как, например, exllama2. Ну и в 2 клика буквально установка и запуск любой модели, включая 500-гиговые.
>>1091332 У нее свой нахер не нужный анало говнетный формат файла, обычные ггуфы она не ест. Нужна какая та трансформация, доступная только на линукс + у нее настройки запуска где то в жопе и обычный пользователь олламы забудет о своих 2 кликах когда будет погружаться в олламу чуть больше обычного интереса На сколько помню контекст она ставит на 2к всем моделям, хочешь изменить лезь в конфиг Модели так же качает 4 квант, вроде даже тупо 4_0, пока сам не укажешь нужный тебе Хуета как по мне неудобная, проще скачать нужный тебе ггуф и запустить лламасервер или тот же кобальд Ну или вон выше через запускаемый 1 кликом llama-swap который так же как оллама дает возможность менять модели из фронтенда
Отдельная неневисть к олламе идет от тех кто знают их историю, где они очень неохотно признавали что их проект является форком лламаспп по сути крадя внимание и чужой труд проекта
>>1091332 Ну, очевидно, не так же, а чуточку медленнее, как и любая ллама.спп. Но, оллама — это сервис, под капотом которой находится обычная ллама.спп (аналог кобольда, убабуги, ллама-спп-пайтон, лмстудио etc), с неудобным (отсутствующим) интерфейсом и реализацией загрузки своей модели. Llama.cpp — все тоже самое, только удобнее, и запускать надо сделать ярлычок, а не оно само при старте компа. Но сделать ярлычок в автозапуске настолько сложно, чтобы ебаться с файлами для запуска своих моделей? Звучит как бессмысленная трата времени и сил.
> в 2 клика буквально установка и запуск любой модели, включая 500-гиговые. 1. Не любой модели, а из списка, насколько я помню. 2. Кобольд — это тоже самое, но в 1 клик.
>>1091332 >>1090268 >>1090368 Ну и дополню. По итогу теста - r1 и v3 выглядят очень закошмаренными. Я не нашел вообще для себя причины их использовать. Особенно учитывая что надо под них собирать отдельный стенд для инференса на ddr5. Такие дела.
>>1091341 Ты ошибся практически во всем. Все настройки, такие как контекст - есть в API, кручу на гуях open webui. И если хочешь - в конфиге службы можно тоже ставить. Качает те модели которые выбрал, и которые запушены - есть обычно практически все кванты и способы квантования. Я не любитель редких моделей, так что меня отсутствие некоторых не очень беспокоит. По поводу неудобства - ну это конечно интересное мнение. Оллама буквально ставится в 1 команду в консоли, и во вторую качает модель. И всё, юзай через отдельный фронт. Который тоже из образа ставится в 1 команду. В 10 раз точно проще чем решения, в которых ты каким-то макаром сам качаешь сотню файлов модели с хаггингфейса.
>>1091342 Читани плюсы выше. Главный в том, что на любой платформе она ставится и качает модель в пару кликов. Фронт в 1 докер-команду ставится локально. Я находил из нужных мне моделей буквально 1 или 2 которые хотел бы попробовать и на олламе их нет. И кобольд - не то же самое, там фронт и бэк на 1 машине. И модели он качает? Я юзаю 123b, мне запарно их качать с хаггингфейса обычно. Хотя какие-то там есть скрипты, помнится.
Насчет скорости инференса - разницы я вообще не увидел, она где-то для меня была 1 десятую токена в секунду. И контекст лезет тот же. И еще и крашится, если заюзал больше - слои сами не выгружаются в оперативку в случае чего.
>>1091345 > Я не любитель редких моделей Ты в треде «редких моделей». =) И спрашиваешь «почему вам не нравится этот лончер». Угадай. =)
> сотню файлов модели с хаггингфейса Буквально нигде. =) Т.е., в 0 раз проще ничего.
> Главный в том, что на любой платформе она ставится и качает модель в пару кликов. Это не плюс, это база. Большинство лончеров ставится на любой платформе, модель ты везде качаешь в пару кликов. Не понятен сам смысл, почему ты считаешь обычную практику, возникшую до олламы, плюсом олламы.
> И кобольд - не то же самое, там фронт и бэк на 1 машине. Тебя никто не заставляет юзать фронт. Большинство людей в треде используют кобольд как бэк. Как более простой и удобный бэк.
> И модели он качает? Нет, модели качаешь ты 1 кликом. ЗАмечу, что оллама «модели не качает», учитывая, что не все модели там есть, а твое мнение «редкие не интересны» — это именно мнение, и нерелевантное в данном треде.
Так что, модели ни оллама, ни кобольд сами не качают, но кобольд их открывает сам, а для олламы надо запилить доп.файл ручками, потому что она, бедненькая, не умеет открывать модели просто так (и, да, это архитектурное решение авторов).
> Я юзаю 123b, мне запарно их качать с хаггингфейса обычно. Запарно ткнуть левой кнопкой мыши? Я не понимаю, о чем ты, просто. Ты, типа, качаешь кучу (два) файла и… что? С ними ничего не надо делать, просто открываешь первый из них и все, все остальные автоматом подтягиваются. Не нужны никакие скрипты, просто скачай их как файлы в одну папку и все. =) Скрипты по объединению нарезанной модели в одну, что ли? А оно тебе надо? Это исключительно эстетический скрипт.
> разницы я вообще не увидел, она где-то для меня была 1 десятую токена в секунду Ну, или 5%, но ты их не увидел просто, ок. Не суть важно, на самом деле, пруфов, что exllama лучше llama.cpp во всем, но минорно — куча. Тут никто (кроме шизов) не заставляет, тащемта, пользоваться именно экслламой. На вкус и цвет.
> И еще и крашится, если заюзал больше - слои сами не выгружаются в оперативку в случае чего. Ну, за скорость, точность и прочие минорные плюхи надо платить тем, чтобы не быть бомжом, да. Впрочем, уже не крашится и выгружается в shared memory, но с уменьшением скорости.
Оллама она такая — чтобы кликать меньше, чем в Exllamav2, но больше, чем в Кобольде. Ради автозапуска и все.
На вкус и цвет. Здесь люди используют кастомные модельки, а не базовые, поэтому им ебаться сто лет с олламой ради запуска каждой новой модели не интересно.
Надеюсь, это отвечает на твой вопрос, почему ее тут не любят. =) Потому что модели кастомные, а кликов больше, чем в кобольде.
Думаю, если бы это был тред домохозяек, которые настраивают HA, то оллама была бы в почете, офк. Установил один раз, выбрал модель популярную, запустил и забил. Звучит как база. Еще бы настроить макс_конкурренси, конечно, но это мелочи.
>>1091423 Ну я понял, что каждый свое болото хвалит, на моменте, где ты продолжаешь говорить о том, что кобольд - более простой. Притом что ollama ставится в 1 консольную команду буквально. Модель в ней качается в 1 консольную команду. Чем кобольд проще, выходит? Там это в 0 команд делается? Или заход на сайт и клики там, выбор места сохранения, итд - считаются чем-то проще?
>Нет, модели качаешь ты 1 кликом. Я не умею качать модели, состоящие из 80 частей на huggingface, одним кликом. Как это сделать? Учитывай, что речь об отдельном стенде с линуксовой консолью, доступной по ssh.
В целом - спор не о чем. Так что все вопросы с позиции добра.
>>1091435 Чел, ты буквально в глаза ебешься. 1. Олламу надо устанавливать. - 2. Консольной командой. -
Кобольд просто скачал и запускаешь мышкой. Никаких консольных команд и установок.
1. Модель качается консольной командой. - 2. Или не качается, если ее там нет. -
> Или заход на сайт и клики там, выбор места сохранения, итд - считаются чем-то проще? Рофлан ебало, прикинь, графический интерфейс (GUI) считается проще, чем командная строка (CLI). =)
> Я не умею качать модели, состоящие из 80 частей на huggingface, одним кликом. Ну, сочувствую, что ты настолько ничего не умеешь. А ведь это делается 1 командной строкой. хд Как ты любишь.
И вообще, скинь хоть одну 123B GGUF модель в 80 частей. Не нарезанную специально на 1-гиговые файлы. Я просто хочу посмотреть на полет твоей фантазии.
>>1091438 Спросите у специалиста олламы, для него это просто, всего лишь 1 консольная команда… xD
>>1091477 >Рофлан ебало, прикинь, графический интерфейс (GUI) считается проще, чем командная строка (CLI). =) Рофлан ебало, действительно. Уважаемая позиция. Про отсутствие графического интерфейса на стенде, на котором это всё стоит, и то что там кобольд точно так же ставился бы через консоль - мы не будем говорить в этом треде, очевидно. Это уж точно слишком сложно.
Но я не критикую. Более того, извиняюсь за то, что ожидаю технической грамотности (на уровне консолей линукса то, ну и грамотность конечно) от тех, кто занимается настройками инфраструктуры языковых моделей. У меня действительно проф. деформация.
>>1091503 Технической грамотности? Так проблема с ней у вас. Мне не проблема настроить все через консоль. А вы даже гитом пользоваться не умеете, ведь вам тяжело с обниморды скачать несколько файлов одной командой, и про huggingface-cli не в курсе. Ну, как бы, чья бы корова мычала.
К тому же, тред не про стенд, на котором все стоит, а про домашний ПК.
В общем, вы смешной, но глупый человек, а над глупыми смеяться грешно, поэтому мы не будем.
Живите своими фантазиями, в вашем мире — вы целиком правы. =) И гита не существует в консоли, и окон на рабочем столе, все так.
>>1091600 Ну, я так и сказал, но оппонент стал спорить, мол, нет, огурец точно лучше. В треде про помидоры. Думаю, вы будете правы, когда начнете добавлять огурцы вместо помидоров везде, и при этом всем будет нравится. =)
Как и против олламы с ее домохозяйками, не имею ничего против огурцов, но всему свое место. =)
>>1091623 Этот переход на личности, и обосрамс в каждом посте. То у тебя 1 кликом качаются модели c huggingface, то нагугленный наспех huggingface-cli, которому нужна отдельная установка дополнительно к твоему бэкенду, и рега во многих случаях, становится однокнопочным решением, проще чем ollama, которая сама качает модели. Полный пиздец. Какие-то окна на рабочем столе. Тебя протыклассники обидели, и ты сюда пришел самоутверждаться, или в чем причина тряски?
>>1090913 > в монитор В голову отца > качественный скачок относительно обычных моделей А что обычными было? >>1091332 > неприятия олламы в этом треде Потому что оверхайп параша, в которой за легкость первого запуска приходится расплачиваться неудобствами и сложностью настройки, вплоть до полного ахуевания с логики автора и количества хардкода. В этом треде скачать лаунчер и натравить его на скачанный гуф для большинство сложностей не составляет, что нивелирует плюсы олламы, зато минусы жрать придется постоянно. Понять можно разве что каких-нибудь амд-страдальцев, для которых все уже заготовлено. > сравнивал скорости - так же работает, как, например, exllama2 На актуальном железе и не близко, там по дефолту не самая быстрая сборка llamacpp. Ну а на контексте уже и оригинал проседает, увы. >>1091341 > обычные ггуфы она не ест Ест, но запускать их неудобно, и даже промт формат чаткомплишна может отвалиться когда эта тварь обнаружит нестыковку с известными хешами заготовок, которыми автор кормит с лопаты. >>1091345 > r1 и v3 выглядят очень закошмаренными. Я не нашел вообще для себя причины их использовать. Особенно учитывая что надо под них собирать отдельный стенд для инференса на ddr5 Все так. Офк с оговоркой что для определенных задач они хороши, но это не стоит вложений. >>1091435 Да причем тут болото, оллама вполне имеет право на жизнь. Но ее за каким-то хером адово пиарят и представляют вовсе не тем чем она является, судя по мимолетному экспириенсу. Это как всратейший еом телефон положить в красивую йоба упаковку как у дорогихмоделей ведущих брендов, а потом снимать анбоксинг и нахваливать.
>>1091687 Чувак, выпей таблетки. То ты высираешь кучу шизы на меня, то извиняешься тут же, и пишешь, что не срешься (пиздишь же, если не выпьешь). Хватит проецировать свои проблема с одноклассниками на адекватных людей, реально, займись своим психическим здоровьем, я за тебя уже волнуюсь.
Ну и чтобы тебе было полегче — я не обижаюсь, обида в принципе деструктивное чувство. Репутацию ты себе застолбил чсвшного школьника, но это ж двач, тут 70% такие же как ты, все анонимно, так что и тут можешь не париться.
Главное, здоровьем займись, без шуток. А то боизно за тебя. Добра и здоровья! =)
>>1091734 Ризонинг выдают более богатые и структурированные описания, интересные миры, сходу описывают больше персонажей, и в общем это выглядит… глубже и увлекательней. Но, повторюсь, скачок небольшой, то есть на уровне «о, стало лучше!», а не прям вау-вау.
Сейчас играюсь с промптом Алетейана, обрезаю и удаляю лишнее, что-то перефразирую на свой вкус. Хочу получить стабильный результат от QwQ на старте, а потом уж дальше.
Но это все о водилке/адвенче, а не диалог-рп.
Плюс, сильно портит то, что QwQ на долгих дистанциях плох в русском, а я ленивое хуйло ваш англюсик учить, и хочу ру-рп. Тем не менее, эксперименты продолжаются. =)
>>1090264 Чувак просто слышал звон но не знает где он. Суть в том что все существующие модели очень хуево используют информацию из больших пластов контекста, и реагируют по большей части только на начало и конец. Это когда к примеру у тебя в середине контекста есть запись про то что ты любишь красный цвет. Если спросить модель напрямую в твоем любимом цвете, она найдет эту информацию, но если не спрашивать, а просто придумать ситуацию когда эта информация уместна, модель в 99.98% и не вспомнит об этом. И чем жирнее контекст тем хуже.
>>1091889 > Чувак просто слышал звон но не знает где он. не у всех так много времени, чтобы настолько глубоко погружаться в тему. спасибо, что делишься знаниями. не забывая при этом залупаться, как всегда
>>1091763 > Ризонинг выдают более богатые и структурированные описания, интересные миры Ну у них в целом встречается байас в начале очень сильно рандомить перед сужением, возможно это роляет. Хз, устойчивой работы от них не получалось, qwq новый надо найти время попробовать, может там норм. >>1091889 Большие модели такое находят зирошотом, (правильный) ризонинг позволяет спровоцировать поиск этой информации и вытаскивание ее поближе.
>>1091929 Я рад что научил тебя чему-то новому, не за что.
>>1091967 Ризонинг это пока просто игрушка, хотя и перспективная, идеально для ассистентов, но то же РП она скорее портит, по крайней мере сколько я гонял текущие реализации.
Так, обещал поделиться интересными находками. Возможно, вы их такими не найдете, ибо я новичок, но вот:
https://huggingface.co/ReadyArt/Forgotten-Safeword-24B-V2.2_EXL2_6bpw_H8 Полностью влезла в 24gb vram с 32к Q8 контекста, пресет со страницы модели, Mistral V7 Tekken. 300 сообщений отыграл с удовольствием, дальше пока не успел. Никакой позитивной наклонности, возможно, даже наоборот: спустя время игра стала смещаться к триллеру, а позже и хоррору. Много различных описаний местности, где находятся герои, с эмоциональной, немного литературной окраской в зависимости от настроения персонажа. Были всякие игры теней, шум электроприборов, завывания ветра, прежде чем персонаж вообще кукухой поехал и ушел в отруб, начав новую арку сюжета.
https://huggingface.co/MikeRoz/TheDrummer_Skyfall-36B-v2-4.0bpw-h6-exl2 Полностью влезла в 24gb vram с 24к Q8 контекста, пресет со страницы предыдущей модели, Mistral V7 Tekken. Отыграл пока чуть меньше 400 сообщений. Это первая 30b+ модель, на которой я играю (до этого сидел на 22-27b Кидонии, Магнумах), потому, возможно, впечатления именно такие. Модель какая-то более интерактивная в смысле взаимодействия с окружающей обстановкой, лучше запоминает различные детали контекста. Например, в первых тысячах контекста упоминалась конкретная лампа, то, как она выглядит. На последних тысячах контекста персонаж сам про нее вспомнил и описал ее так же, но иными словами, и провзаимодействовал. И в целом диалоги показались какими-то более натуральными, человечными. Мне кажется, у модели нейтральная/позитивная направленность, хотя, конечно, я пока не экспериментировал с промптом и не пытался ее направлять в иное русло.
До QwQ 32b Snowdrop пока не добрался, потому что еще не знаю, нужен ли мне reasoning вообще.
>>1092136 1. Не скидывай на кванты, кидай на ориги, кто захочет — найдет квант для себя. 2. Не пиши что и во сколько влезло, это чистая математика, и так очевидно. =)
А вот остальное хорошо, отзывы написаны норм, продолжай. =)
>>1092461 По скорости Ультра чуть медленнее 3090, так что всё честно, 36В эксперты под 20 т/с работают. Но ты учти что 512-гиговая версия вроде 10к баксов стоит. Хотя это не сильно много, если ты готов 600к отдать за ведро ядер амуды как то чел.
>>1092087 Не то слово. А главное её можно в процессе сломать полностью. Весь сок в "заболтать". Сочувствую любителям дженерик_рп_тюнов читать как их ИИ-шлюшка течёт и на всё согласна через раз.
Finally, я придумал как делать RL файнтюн под рп, с reward моделью. Итак, рецепт довольно прост, но требует многократной генерации разнообразных диалогов той же моделью, над которой мы работаем. Это самый потенциально опасный этап, который может поломаться и все засрать. Начинаем с того, что при генерации диалогов мы вносим в модель шум (в логиты, либо в саму модель, активации, атеншн) в соответствии с подобранным распределением. То есть не просто постоянными блоками с одинаковой периодичностью, а как-нибудь менее тривиально. Итого мы получаем данные, которые полностью размечены как участки которые генерировала плохая модель и хорошая модель. На этих данных мы обучаем reward модель под задачу бинарной классификации каждого токена текста. Модель должна периодически обновляться в процессе RL, но она может быть любой, как лучше так и хуже основы. Ее задача не так уж и сложна и мы хотим, чтобы модель обобщилась не только определять испорченные кустки текста, но и выделять участки в неиспорченных диалогах как лучше/хуже. Дальше обучаем рп модель на размеченных reward моделью чистых диалогах, маскируя все токены, которые были помечены как плохие. Так мы достигаем двух целей, во первых модель не учится генерировать плохое, а во вторых видя плохое в контексте модель будет стараться выдавать лучший аутпут а не такой же.
Есть вероятность, что можно вообще обойтись без reward модели и учитmся только на частично поломанных диалогах с такой маскировкой токенов. Это чем-то напоминает дистилляцию CFG, но в ллмках мы можем применять СFG только к отдельным токенам а не целым последовательностям, для этого бы в процессе инференса пришлось как минимум делать beam-search с CFG, непонятно как это все вычитать потом, а в моей схеме оно само дистиллируется идеально в теории.
Только надо тщательно подбирать гиперпараметры, такие как средняя длина сломанных участков, их распределение, силу вмешательства в модель, а то и навесить планировщик на все это сверху. Да и как-то валидировать прогресс надо, может так чтобы данные были не всегда на ~50% сломаны, а добавить отклонение и чтобы reward модель давала общую оценку качества текста.
Дипсик был обучен куда более простым способом и тупым способом, а эта схема прям выглядит гениально по сравнению с ним, и ее судя по всему можно применить не только под рп, а даже под задачи которые не имеют известного решения. Будет долго и шумно, но по идее работать должно.
>>1092447 13т/с на q4 70b, не плохо но и не густо. >>1092461 > 20 токенов в секунду 30б активных параметров, это же нормально. Надо вообще посмотреть производительность чипа в расчетах, но скорее всего там будет все грустновато. Говорят что около 14токенов получали в тесле, но это уже у владельцев стоит спрашивать. >>1092506 > как их ИИ-шлюшка течёт и на всё согласна через раз А ты ей сам отказывай и дразни, не менее интересно будет. >>1092616 Не совсем, упрощенно говоря там хитрый комбайн вместо чипа, который, с одной стороны, имеет среднюю общую производительность, но при это оснащен оптимизированными высокопроизводительными блоками для определенных типов расчетов, на которые делается ставка в бенчмарках и основных задачах, и быструю память чтобы это обслуживать. С памятью есть нюансы со структурой банков памяти и таймингами.
>>1092816 Они могут без проблем наделать на АРМе кучу каналов и распаять память поближе к ЦП, упираясь только в скорость самих чипов. Это на десктопе плашки в километре стоят и амуда/инцел жопят каналы.
>>1083681 (OP) На коллабе гугл транслейт разучился переводить, раньше он составлял осмысленные предложения, а сейчас это практически в худших традициях промта, будто каждое слово вне контекста отдельно переводится. Это гугл сломал русский язык специально?
>>1093349 Надежды мало на что-то хорошее, если смотреть на их Gemini Flash. Я сильно сомневаюсь что они выкатят модель лучше Флеша, который за бабло продают.
>>1093356 >Я сильно сомневаюсь что они выкатят модель лучше Флеша, который за бабло продают. Выкатят может и лучше, только это будут дистиллированные веса от их хорошей оптимизированной модели в обычный трансформер. Дистилляцией учить даже неоптимизированную модель недолго, и ничего толкового ты с ней потом не сделаешь, даже если перелить в оптимизированную, это будет еще более тупой дистиллят дистиллята, да и исходная модель наверняка была намного умнее и больше.
>>1093349 Хотеть! Откуда инфа? >>1093356 А мне флеш понравилась, особенно ее мультимодальность. >>1093361 > от их хорошей оптимизированной модели > в обычный трансформер > неоптимизированную > даже если перелить в оптимизированную Можешь дать подробные пояснения по этим сочетаниям что употребляешь?
>>1093377 >Можешь дать подробные пояснения по этим сочетаниям что употребляешь? Ну вот у гуглов есть гемини, она внутри хорошо оптимизирована, как дипсик а может и лучше, МОЕ там, латентный атеншн. Компания пидорасов конечно же такую архитектуру просто так не сольет, поэтому возьмет обычную архитектуру уровня гпт2 с минорными оптимизациями и обучит ее дистилляцией. Плотная модель будет перформить на конечных устройствах в 20 раз хуже, но кого это волнует если не гуглы будут ею пользоваться? При этом сама модель может быть не тупее флеша, она просто будет намного дороже в инференсе.
>>1093458 Ну представь, на улице к тебе подойдет поехавший дед, и начнет рассказывать что сосед облучаешь его из микроволновки, инопланетяне хотят вставить ему анальный зонд, а все потому что он придумал как осуществить холодный синтез для производства электроэнергии. Кем нужно быть чтобы начать его "аргументированно опровергать"? Если в настроении - можно послушать и поугорать над ним, если нет то сразу нахуй шлешь и говоришь что он долбоеб поехавший. Вот твой статус обозначен, орнул с латентного оптимизатора.
>>1093465 Не тебя ли называют семлерошизом? Знакомый почерк и уровень доёба без единого аргумента с апломбом что вокруг все тупые шизы которые ничего не понимают.
>>1093467 Порвался и пошел своих протыков искать, ай лолита. Чел, шиз - ты, как раз из тех кого описываешь. Все понимание построено на шизоабстракциях да фантазиях, зато уже все порешал и оценил. А главная мотивация постов - коупинг невозможности, что хорошо выдают акценты претензий и особенности манямира с "оптимизированными мое". > без единого аргумента Струя по штанине бежит и вопишь "докажите!", как умилительно.
>>1093469 Семлерошиз, успокойся, антидепрессантов попей, только не устраивай очередную истерику на ровном месте. Ты у нас самый умный, ты у нас все знаешь, тише... тише...
>>1093473 Чел, в моих постах нет ни коупинга, ни нытья, ни неуместного использования терминов и понятий подобного твоим. Даже решил не сразу обоссать, а сначала спросил что именно там ты имел ввиду, но бред шизика только подтвердился. Любой адекватный человек хоть немного в теме прочитав тот пост сразу все поймет. Это же все равно что пиздюк из песочницы рассказывал бы о сейсмоустойчивости высотных зданий, только пиздюку незнания и фантазии простительны в силу возраста. Лучше бы занялся чем-то полезным, получив какие-то реальные знания и профиты для жизни, а не выстраивал сеть бреда.
>>1093477 Ладно, я тебя понял, все модели одинаковые, а оптимизировать ничего невозможно, гуглы выкатят гемму на такой же архитектуре какая у них на серваках крутится, ибо лучшего придумать нельзя.
Блять помогите... Почему они все такие тупые Я на 12б такого не замечал, а тут новый квен/мистраль смол тупят просто пиздец забывая что в прошлом сообщении было не понимая вообще что происходит Вот тян уронила на кухне сережку и жопой передо мной елозила, след сообщение "нашла?" Что? Пойду поищу на кухне"
Попробовал эту вашу модную LM Studio и могу сказать, что её делал настоящий выродок, кусок плоти, живое омерзение.
Чего только стоит импортирование моделей через командную строку, особенно когда ты каждый день пробудешь новые шизомиксы, не говоря уже о настройках, которые затолкали в жопу. А использование её в качестве бекэнда для таверны...
Но есть и плюсы. Скорость увеличилась на 20%, что может чудовищно решать при работе с моделями на грани и впихивать ещё более жирных скотин.
Однако программа явно не для анонов, а для каких-то РАБОТНИЧКОВ, ПИШУЩИХ КОД НА СВОЁМ ВЕЛИКОЛЕПНОМ QWEN 32B ВМЕСТО O1 ОТ OPENAI.
>>1093637 >импортирование моделей через командную строку На самом деле, необязательно. Можно указать папку с моделями, а в ней хранить модель по пути вида "автор/название_модели/конкретный_ггуф_файл". Тогда студия обнаруживает модель. Это там где-то описано в софтине при указании папки с моделями, нужно только внимательно прочитать. Хотя тоже гемор, конечно. Не понимаю, в чём была проблема проходиться по указанной папке с подпапками и открывать список доступных ггуфов.
>>1087716 А что то в этом есть. Что то определенно в этом есть. Я попробовал на любимых карточках персонажей. Теперь персонаж "условно" мыслит. Это безумно помогает в РП. Но немного спойлерит действия, но дает живость персонажу. Теперь видно где может спотыкаться на карточке логика. Короче: годно, поддерживаю и рекомендую. Неиронично, сейчас это лучшая нейронка в своих размерах. Гемме и мистрали пора на покой.
Погонял вашу Гемму 3. По мозгам норм, на стандартные вопросы типа полиморфизма отвечает, ожидал худшего. Но пиздец соевая, в отказы идёт от всего. Русский хороший, прям заебись. Кодинг говно, даже до квена 2.5 не дотягивает. Ждём релиза весов, в РП наверное будет новая база, если не обосрутся с форматом промпта.
>>1093717 >в отказы идёт от всего. Интересно, насколько. Если на уровне чатгпт, то терпимо. Если ближе к Claude, то жаль. До сих пор не могу забыть, как попросил его немного литературно причесать рассказ с антинаталистической тематикой, так он выебываться начал, мол, не могу рассуждать на такие темы.
В чем профит страдать с локальной моделью, если локально мало реусрсов, перед покупкой апихи? Есть и русскоязычные проксирующие сервисы, есть и люди которые оплачивают зарубежные. Стоит недорого.
>>1093763 >Сколько контекста? 128К Нихуя не изменилось за год это все та же гемма 2, даже тренировка и архитектура и данные абсолютно блять такие же, просто прикрутили чтение картинок и 128к контекста Всё нахуй. А ну и ещё сейфити и безопасность накрутили чтобы фемок случайно не обидеть возможно это одна из причин почему её вообще релизнули, гои готовы за бесплатно потестить продукт
>>1093768 Для рабочих задач она нахуй не нужна когда есть QwQ с ризонингом, а вот в рп может себя хорошо показать. Надо тестить. Рано делать выводы не погоняв модель.
>>1093775 >Для рабочих задач она нахуй не нужна когда есть QwQ с ризонингом Видно что ты вообще с ней не работал, QwQ - эталонный пример оверфита на бенчи >вот в рп может себя хорошо показать Не покажет, там накрутили тонну фильтров и безопасной безопасности
>>1093731 Кому-то за логи боязно, кому-то платить не хочется, у кого-то - просто спортивный интерес разобраться и добиться результата в таких скромных условиях. Много причин может быть
>>1093777 Только вчера вторую версию пробовал, все отлично работало. Ну, за исключением того, что мне не понравилось. А какой у тебя пресет? Text completion, надеюсь?
>>1093777 Хотя она джейлится без проблем. Пока по ощущениям как локальный аналог Клода. Пишет прям очень похоже на Клода, форматирование постов стабильное, русский 10/10. Сейчас протестил на педофильской карточке с джейлом - отказов не словил. Инструкции выполняет очень хорошо. Пикрил для понимания как пишет.
>>1093679 Да, я эту инструкцию тоже видел, но это такая же мозгоебка. Даже с командой строкой быстрее дело идёт. Но я пока что не вижу причин переходить на студию, так как там нет нужных мне сэмплеров.
>>1093792 Ты видимо не понимаешь что такое отказы. Отказы это когда модель отказывается РПшить на какие-то темы. Когда чар отказывается - это наоборот хорошее следование карточке, а не кумерский лоботомит, раздвигающий ноги при первой команде.
>>1093799 >Эти ваши отказы не такие отказы а вот это другие отказы и вообще карточка следует промпту!! Въеби ещё копиума. Особенно когда твоя карточка будет продвигать левацкие идеи и что матерится вообще очень плохо.
>>1093778 Если 4б действительно настолько лучше прошлой 2б (которая экшели почти 3б), то в четвёртом кванте прямо тема для смартфонов. Если ещё и рп тьюны будут на этот размер, вообще кайф. >>1093789 На скрине русский выглядит хуже, чем у рэндомного тьюна немо.
>>1093725 It получше выглядит. Местами квен 72В поёбывает даже. Так что живём. Явно теперь будет базой для РП. Вторая была поломаной со всратым контекстом, поэтому и не взлетела, а тройку уже делали для людей.
>>1093778 >уместили в 12б и дали нищукам 2я джемма на 9б на русском до сих пор лучше всех существующих 999б, тестил. А 12б 3й джеммы это однозначно вин.
>>1093835 > Неюзабельные в рп Аблитерейт будут как обычно лоботомированные. Кумерам только тюнов ждать. А остальные на ваниле с джейлом посидят, сои не больше чем у Клода.
>>1093719 > Гемму 3 релизнули. > Input: > Images, normalized to 896 x 896 resolution and encoded to 256 tokens each https://www.youtube.com/watch?v=lut2_mGAavA Даже если это просто буст второй геммы с большим контекстом то топчик. >>1093835 То же варебухи и про вторую говорили, скиллишью.
Если так, то очень обидно. Даже пробовать не хочется.
Одно дело цензурировать какую-то совершенно отбитую извращенскую дичь - это хорошо и правильно. Но Клод вообще отказывается говорить обо всем, где есть хоть какой-то намек на агрессию и грубость, даже если она справедлива и оправдана. От чатгпт без проблем получал, наример, подробное описание ядерной бомбардировки столицы мракобесной фашистско-теократической деспотии. А от клода не дождёшься даже банальной сцены расправы над единичным отморозком.
Кобольд отказывается запускать Джеммочку 3. При любых настройках тупо закрывается консолька без ошибок. Нужно именно на кобольде, запускал кто? Поделитесь решением.
У вас работает QWQ в exl2? Я запускал с рекомендованными настройками семплера(убабуга + таверна) и модель ломается(генерирует шизу). Gguf с этими же настройками работают исправно.
ллмки чисто развлечение. Когда указываешь на их ошибки, они пишут, что они ГЕНЕРИРУЮТ текст с информацией из своего хаотичного датасета, а не извлекают факты из какой-то структурированной базы данных внутри себя. Это опасно для школоты, которая может принять инфу от ллм за факт. Запретить нахуй!
>>1093973 Неожиданно, но да. Аноны хотят развлекаться. Хочешь работать иди к корпоратам, а мы будем бороздить космос и трогать лисьи хвостики. УХХХ БЛЯТЬ. КВЕНЧИК ГОДНЫЙ. А СКОРО И ТЮНЫ ГЕММЫ. Давай драммер, выкати что нибудь годное.
>>1093973 > а не извлекают факты из какой-то структурированной базы данных внутри себя Долбоеба что угодно может ввести в заблуждение, даже искажать не надо. Вон какой хороший пример.
>>1093865 Например, когда агрессивный мигрант нападает на местного жителя - оправдано его немножечко пристрелить, прямо на месте. Это то, что евролевачки не понимают.
>>1093989 Гейткип по железу. Тред для локалок. Сорян, но минимум 16 гб имей. >>1094045 Блджад, даже 4080 за глаза хватает для 24b, да у тебя не будет 200 т/с, но будет вменяемо. А 3090 еще дешевле и аж с 24ГБ на борту.
Какой-то дебил средита написал что gemma3 это мултимодалка с текст+картинка виженом и контекстом 128к это правда? Пишет что архитектура очень сильно отличается от ллама и джема и т.п. - так был использован титан - новая имба-архитектура или нет? Почему нихуя нет точных данных на странице у гугла?
>>1094030 Это, кстати, классический парадокс левачков. С одной стороны требуют ко всем "равного" отношения, либерализации всего и вся, но при этом в подобных проблемах будут сначала дерейлить, а если прижать то винить как >>1094041 сказал пустивших > животное без подготовки и обучения в цивилизованный мир то есть самих себя. Любой радикализм плох, что правый что левый, но правачки это хотябы lawful evil а не душнейший chaotic с оправданиями на любое действие >>1094045 > вещая из своей обосранной хрущёвки в Урюпинске Слыш, абузер, ты не ахуел ли там? Slavs are poc, не смей гнать на меньшинства, тварь. >>1094079 Да, она может в картинки.
>>1093836 >2я джемма на 9б на русском до сих пор лучше всех существующих 999б, тестил простите, как же я хрюкнул копиум нищебродов без врама мимо не считаю все что ниже magnum 123b пригодным для использования
>>1094111 каким образом я себя попускаю лучшим доступным качеством генерации среди доступных моделей в пределах 96 гб? С каких это пор нежелание сидеть на одной трубе теплотрассы с бомжами является самоуничижением? >>1094120 твои оправдания почему ты не можешь купить себе парочку 3090, геммабой? Нет, гемма конечно хороша, если у тебя есть только 24 гб врама. Но на серьёзных щщах рассказывать что гемма уделывает нормальные модели для белых людей - такой уровень копиума может быть смертелен. Все есть яд и все лекарство, но тут с копиумом явно переборщили.
Сейчас будет странный вопрос, но к сути : Как подключить хоппера к ПК, если вместо порта какое то говно. И да, я знаю что есть хопперы с нормальным портом. Но на конкретно этом нет.
>>1094107 Зря так, семидесяточки есть хорошие. А если что-то массрвре делать, то там уже важна скорость, гемма и квен были вне конкуренции, новую надо будет затестить. >>1094142 Чтож ты делаешь, содомит!
Достаточные умные модельки в Kobold Lite фронте умеют создаваль на лету новых временных персонажей (например зрителей в чате транляции, или стражников на воротах) и говорить за них, но в таверне такое не работает, там всегда от имени карточки.
Как нибудь в таверне можно сделать чтобы был групповой чат без того чтобы на каждого случайного мимокрокодила свою карточку создавать?
>>1094221 > Достаточные умные модельки в Kobold Lite фронте умеют создаваль на лету новых временных персонажей (например зрителей в чате транляции, или стражников на воротах) и говорить за них, но в таверне такое не работает, там всегда от имени карточки. Может у тебя проблема с сэмплерами или пресетом? Вчера играл на тюне Мистрала, были третьи лица в истории. То тут то там временные персонажи. Обычный Mistral 7 пресет.
>>1094239 Они не получают удовольствие от игры. Как рабы выполняют рутину 24/7 в состоянии выгорания. Такие шизики не доживают до 50. Делают это т.к. ничего другого не умеют, ибо молодость не на образование, а на игры потратили.
>>1094239 Я просто вкатился и играл причем с сильным отставанием от всех, думал уже и 10к не подниму, даже дюп проебал с 2к$ в час, но один хуй вывел неплохо >>1094248 > Они не получают удовольствие от игры. Как рабы выполняют рутину 24/7 в состоянии выгорания. Хорошо хоть челы с коркой на работке кайфуют, рад за них
>>1094126 >нежелание сидеть на одной трубе теплотрассы с бомжами реальная причина по которой ты юзаешь говномагнум, говноед-нищенка, не способный заработать на h200 для дипсика
>>1094248 >не доживают до 50 С нашей современной жизнью глупо тратить молодость на РАБоту или откладывание жизни на потом, потому что дожить даже до 50 уже неплохой результат Растягивать старость тоже удовольствие ниже среднего, что толку прожить 80 лет из которых ты 40 последних будешь слабеющим и больным куском говна, потратившим свою молодость на то что бы растянуть старость?
>>1094255 >Хорошо хоть челы с коркой на работке кайфуют, рад за них Ну щас как бы 2025, чел. Челы с коркой сидят дома и работают когда хотят и сами себе график создаюст, главное сдать проект в конце месяца. Сидеть можно хоть на шезлонге у моря.
Короче этот ваш m3 ultra оказался наебкой. Да, он выдает 14 токенов в секунду на 70b моделях и 18 токенов на 50b дипсике 671b, но исключительно без контекста. Промпт процессинг у системы такой же как на обычном компе без видеокарты с полным выгрузом в оперативку. Т. е. Проблема та же что на теслах, хуйня годится для того чтобы запустить что-то и похвастаться бенчмарками, но к использованию непригодна.
>>1094224 >То тут то там временные персонажи. Если отключить имена в промте то работает, но скорее как стори-мод, как данжен-мастер на ролёвке который выслушал игрока, подумал, и теперь вещает уже как Рассказчик, частично пересказывая слова игрока, частично придумывая что он сделал и с ним сделалось.
(для контекста - в тексте на скрине персонажа юзера нет, он в толпе стоит и смотрит)
>>1094248 >Они не получают удовольствие от игры. Как рабы выполняют рутину
Всяко лучше рутиной в игре заниматься, чем за 40к на низкоквалифицированной должности работать, как я. Понятно, если сравнивать с айтишниками, это весьма дерьмовая работа без перспектив - однако на фоне типичной убогой гречневой пахоты выходит топчик.
>>1094157>>1094180 ты откуда хоппера на SXM достал? Б/У шный небось? Они ж последнее поколение. Просто так их на рынок сливать не будут. Там еще за вольту держатся. Почем взял? Я тоже хочу.
>>1094256 я пока что не готов продавать кваритиру, чтобы купить две H200. Чуть более красивый аналог "ты меня ебёшь, ах" того не стоит.
>>1094221 Так сравни промпты в консоли, чтобы понять, в чём отличие. Если в таверне стоит системный промпт в духе "ты {{char}}", то и с отключенными именами модель будет менее активно за остальных персов писать.
>>1094292 >Б/У шный небось? Да нет, ты что. В штаны заглянул, а там ничейные 4млн лежат. Если кратко, взял погорельца с заменой питания. Цена вопроса - дружба и виски. Они все равно его списали, хуле, Россия щедрая душа, лол. Но как он будет работать, в душе не ебу. Сейчас проблема с подключением. Но я потестил коннекты, все работает, а что будет с ПК - а хуй его знает.
>>1094323 >Рассказывай откуда взял, для чего планируешь использовать. Да никак, лол. Поиграюсь с большими нейронками, удовлетворю свое любопытство и отдам другу обратно, пусть дальше работает с графикой. Может теперь перестанет ныть, что палигоны медленна шарятся.
>>1094300 посмотрел и... таверна, какого хрена... вместо указанного системного промта там везде юзается, какой бы не был выбран
[INST] Write {{char}} next reply in a fictional role play chat between {{user}} and {{char}}. Be descriptive and immersive, providing vivid details about Mira's actions, emotions, sensations and environment. Do not speak for User. When describing, use the present tense whenever possible.\n
>>1094351 Херня с пика 1 виновата. Создатель карточки добавил свой системный промпт, перезаписывающий твой. Удали его в настройках карточки или отключи промпты персонажей в таверне (пик 2).
>>1094415 Самые точные результаты в чем, в каких сферах? С чем сравниваешь? Здорово, что тебе понравилось, но конкретики бы побольше. а я сижу, жду кванты по весам...
у меня уже жопа горит нахуй, как установить этот ебучий open-webui без докера? он жрет слишком много памяти на компе, и я не хочу держать виртуалку ради ебучего чата можно сделать это через pip, но тогда все конфиги и пути будут спрятаны где-то в аппдате, и приложение не будет портативным/самодостаточным есть здесь питонисты, которые знают как проблему решить?
>>1094711 У меня когда то получалось, но что то изменили, в итоге не работало Поищи там на сайте у них, может найдешь инструкцию Вобще это выкидыш тех же уебанов которым нравится оллама и их авторов, не удивительно что они спелись и по сути это единственный нормально работающий там бек
>>1094711 Можешь открыть докер файл, там будут команды которые он запускает для установки в докере Делай венв какой нибудь миникондой и ставь туда все эти библиотеки, потом только запускай из под него скрипт запуска
>>1093789 >с джейлом - отказов не словил Ещё бы префил использовал хотя на чистых моделях только так и делаю. Пиздос деградировали конечно, джелы на логалках. >>1093814 Бери б/у любую, можно рыксу 580, чтобы совсем печально с рабочим столом не было. >>1093841 >сои не больше чем у Клода Так клод же соевый. >>1093843 Судя по скорам, только в сторону 27 -> 12, лол. >>1093862 >Input: >> Images В РП что ли аватар перса кидать, чтобы внешку не описывать, лол. >>1093863 >Одно дело цензурировать какую-то совершенно отбитую извращенскую дичь - это хорошо и правильно. Иди нахуй, никакая цензура не нужна, если это написано в системном промте, то модель должна делать.
>>1093777 Потестил. Пишет приятно, ново, но в ЕРП - хуйня, хоть и джейлится изи. Фантазии не особо хватает, и beads of precum from the tip of swollen clit - сделало меня кекнуть. Регулярно срётся с разметкой. Может быть пресет от гемма 2 не подходит под неё?
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: