Локальные языковые модели (LLM): LLaMA, Mistral, Gemma и прочие №85 /llama/

Аноним 13/10/24 Вск 20:22:54 #1 №917224

Llama 1.png

Альфа от контекста.png

KL-divergence statistics for Mistral-7B.jpg

17287261491600.png

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Рейтинг моделей для кума со спорной методикой тестирования: https://ayumi.m8geil.de/erp4_chatlogs
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны https://github.com/cierru/st-stepped-thinking

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>911638 (OP)
>>905276 (OP)

Аноним 13/10/24 Вск 20:25:59 #2 №917227

Покумил, а дальше че делать?
Какую вайфу не возьми кум то везде одинаковый

Аноним 13/10/24 Вск 20:31:05 #3 №917236

>>917227
А дальше нести деньги куртке, закупать видеокарты и пробовать модели побольше. Потом файнтюнить свои. Потом нести ещё больше денег куртке и тренить свои с нуля. А потом экспериментировать с новыми архитектурами и тренить с нуля. Думаю, на ближайшие несколько лет тебе хватит.

Аноним 13/10/24 Вск 20:40:12 #4 №917254

>>917227
Попробуй поменять модели и сценарии. Мелочь или неудачные тюны-мерджи как раз страдают однообразностью. Когда все правильно работает, что при рп, что при куме должны особенности карточки и прошлое должно учитываться, а не скатываться в типичный слоп.

Аноним 13/10/24 Вск 20:42:42 #5 №917257

Вики чуток устарела, какая еще ллама2 в разделе размеров контекста, да и в языках опенчат висит.
Сейчас уже все новые сетки по русски шпарят, и на сколько знаю токенизация так же стала бодрее для русского, да и других языков.
Список актуальных семейств так же радует глаз фальконом и мпт и пигмалеоном кек

Аноним 13/10/24 Вск 20:55:23 #6 №917282

>>917257
Напиши свою, в чем проблема? Я вон вонял в свое время по поводу кривой шапки треда, пока сам не переделал и не отправил опу на одобрение. Теперь шапка новая. Всё в твоих руках, короче.

Аноним 13/10/24 Вск 20:58:21 #7 №917287

>>917282
Мне лень, но я нашел силы чекнуть ее и повонять тут
Неравнодушный анон теперь знает об этом

Аноним 13/10/24 Вск 21:06:12 #8 №917306

>>917257
>Список актуальных семейств
Это скорее список всех семейств. Может конечно перенести на отдельную страницу в типа архив, но ХЗ по каким критериям люди до сих пор на мику дрочат же, лол.

Аноним 13/10/24 Вск 21:11:51 #9 №917320

>>917306
>люди до сих пор на мику дрочат же, лол.
Мику в своё время показала, как надо. После этого делать хуже стало западло. А ведь могли, легко.

Аноним 13/10/24 Вск 21:17:38 #10 №917327

В гайды бы кстати добавить запуск с llama.cpp сервера, а то кажется об этом вобще мало кто знает
Я могу накидать инфы тут пока помню, но ее сборку, проверку, доделку и форматирование оставлю другим

Аноним 13/10/24 Вск 21:40:39 #11 №917366

>>917257
В целом, можно добавить туда приписку что если в модели изначально заявлен большой контекст, то не обязательно использовать его весь из-за расхода памяти, а также не стоит трогать эти параметры.
> токенизация так же стала бодрее для русского
Но всеравно хуже, так что актуально.
>>917306
Достаточно наверх к лламе перенести мистраль, гемму, коммандера, квен, может быть yi. Солар и мику не заслуживают отдельного заголовка, ведь это производные мистраля, к тому же уже не актуальные. Фалкона, мпт и пигму уже в конец.
> люди до сих пор на мику дрочат же
Больные ублюдки. Не сказать что она уходила вперед относительно тюнов второй лламы чем-то кроме контекста.
>>917327
Накидывай

Аноним 13/10/24 Вск 21:49:33 #12 №917372

https://habr.com/ru/companies/sberbank/articles/849028/
> В связи с бурным развитием генеративных моделей и реализованных на них чат‑ботов (ChatGPT, Gemini, Bard, Notion AI, Compose AI, Poe, Phind) у пользователя появляется ложное чувство, что модели стали умнее, защищённее и, в целом, ближе к совершенству, сравнимы с человеческим интеллектом. Отсюда мы получаем целый пласт заблуждений. Например, что модели нас «чувствуют», «понимают», ведь мы выкладываем для них столько информации о себе, начиная от стилистики нашего письма, что уже является неким цифровым отпечатком нашей личности, и заканчивая оценкой их собственной работы. На самом деле это миф. И трендом 2023–2024 годов стало обширное внимание публики к XAI:
> как они (генеративные модели) устроены и как они принимают решения;
> как проводятся атаки уклонения (склонение моделей к неверной выдаче);
> как эти атаки (уклонения) связаны с другими атаками на LLM и какие они могут быть для эскалации деструктивного поведения системы;
> с какой позиции верно интерпретировать выход генеративной модели;
> разработка системы эшелонированной защиты моделей;
> разработка системы внутреннего критика для модели.
> Для начала начнём с существующих атак и их анализа.

Аноним 13/10/24 Вск 21:52:05 #13 №917373

>>917372
> habr.com
Лол.

Аноним 13/10/24 Вск 22:00:39 #14 №917382

>>917372
Лол, спермбанковские спустя два года узнали про джайлбрей.

Аноним 13/10/24 Вск 22:11:46 #15 №917402

>>917372
Плохо что там ничего нового нет относительно еще прошлогодних публикаций, и тестируют на старой гопоте а не на своих сетках. А еще зеленый банк называются.

недогайд для llama.cpp Аноним 13/10/24 Вск 22:20:44 #16 №917423

>>917327
Нам нужен жора
https://github.com/ggerganov/llama.cpp
Больные ублюдки идут сюда и собирают из исходников по гайду
https://github.com/ggerganov/llama.cpp/blob/master/docs/build.md
Извраты найдут на главной странице репозитория гайд по докеру
Всем остальным советую идти и качать нужный архив из релизов
https://github.com/ggerganov/llama.cpp/releases
Нужный выбирается просто - смотрим на свое железо и выбираем
Если нвидима то качаем куда архив
llama-b3914-bin-win-cuda-cu12.2.0-x64.zip
, если ртх то 12 версии, если младше то 11.
Остальные могут взять вулкан или поискать там знакомые себе технологии и выбрать нужное.
Для куда так же потребуются соответствующей версии файлы из архива
cudart-llama-bin-win-cu12.2.0-x64.zip
которые можно скачать один раз и забить, на сколько я знаю.
Нам нужен файл llama-server и лежащие рядом с ним, если речь про куда, файлы из архива выше.
Кидаем это все в одну папку.
Запускаем из командной строки llama-server с ключем -h и охуеваем от количества настроек
Для указания модели используется ключ -m , вставляем после него путь до модели и сервер запустится на стандартных настройках
У него есть своя веб морда, но можно так же подключаться по апи, из таверны или из любого опенаи совместимого фронтенда
Из полезных ключей что помню есть -ngl для количества слоев на видеокарте, -t для количества ядер процессора.

Аноним 13/10/24 Вск 22:28:34 #17 №917435

>>917423
Ну и -c размер контекста, это основные которые я использую
-c 8192
и тд

Аноним 13/10/24 Вск 23:19:52 #18 №917491

>>917224 (OP)
https://github.com/cierru/st-stepped-thinking

Так ну как оно? На 70б моделях кто тестил?

Аноним 13/10/24 Вск 23:24:26 #19 №917501

>>917491
Вот только начал тестировать на 123B. Пока полёт нормальный.

Аноним 13/10/24 Вск 23:24:40 #20 №917503

>>917491
На 70В этот кал точно не нужен.

Аноним 13/10/24 Вск 23:29:49 #21 №917510

>>917491
Оче бегло, ответы как минимум не хуже. В простом куме оно не нужно, на магнуме "мысли" унылые он вообще и сам уныловат и ответы в целом сейм, а вот просто в рп уже можно интересное пронаблюдать. Больше использовать нужно чтобы точно сказать.

Аноним 14/10/24 Пнд 00:30:58 #22 №917533

Отвечай, используя метафоры.

Простой, но интересный системный промпт.

Аноним 14/10/24 Пнд 01:05:24 #23 №917555

Есть ли какая-нибудь простенькая моделька на условные 20B, способная банально конспектировать не слишком сложные текста и по мелочи помогать со всякими техническими вещами? Ролевые игры не интересуют, английский знаю на достаточном уровне, чтобы писать запросы и понимать ответы.

Аноним 14/10/24 Пнд 01:42:39 #24 №917564

Я правильно понимаю что 3060 это потолок для обычного челикса?
Потому что даже доплатив 25к и взяв 4060 там не хватит памяти для 25+b моделей + урезанная шина говна.
В таком случае сколько токенов выдает 3060 на гемме 27b к примеру?

Аноним 14/10/24 Пнд 01:45:41 #25 №917566

>>917564
Потолок в смысле самая нищенская карта?

Аноним 14/10/24 Пнд 03:09:36 #26 №917586

>>917564
> В таком случае сколько токенов выдает 3060 на гемме 27b к примеру?
2-4 токена, зависит от того насколько микроквант возьмешь.

Аноним 14/10/24 Пнд 03:46:30 #27 №917596

>>917564
>Я правильно понимаю что 3060 это потолок для обычного челикса?
Если не собираешься копаться на вторичках, то да. Но скоро только на вторичках ты ее и найдешь, потому что куртка остановил ее производство и щас на маркетплейсах распродаются остатки, которые закончатся в ближайшие месяцы.

>Потому что даже доплатив 25к и взяв 4060 там не хватит памяти для 25+b моделей + урезанная шина говна.
Дело даже не в шине а в 8 гигах памяти из-за которых ты даже в дефолтное непотимизированное говно не поиграешь. Карта окончательно не захлебывается тупо из-за генерации кадров и кеша, но только если ты сидишь на разрешении в 1080 рублей.

>В таком случае сколько токенов выдает 3060 на гемме 27b к примеру?
На моей 3060 с 12ю кило памяти на мелком коммандоре 2.4 т/с в четвертом кванте. На гемме думаю будет где-нибудь в районе пяти на тех же четырех битах.

Аноним 14/10/24 Пнд 03:52:53 #28 №917597

image.png

>>917227
Хз, для меня хорошая новая карточка — 2-3 недели кума и потом ещё периодические возвраты после добавления в избранное. Эта хуйня уже почти полгода длится, как я жив ещё — не совсем ясно.

А в будущем ещё маячит переезд на 5090, лучшая оптимизация моделей и общих подходов.

Аноним 14/10/24 Пнд 03:54:24 #29 №917598

>>917596
если там было 5 токенов, то никто бы не сидел моделях меньше, лол

Аноним 14/10/24 Пнд 03:58:28 #30 №917600

>>917598
Так тут дело в том что гемма говно. Хоть кто-то на ней вообще неиронично сидит?

Аноним 14/10/24 Пнд 04:05:46 #31 №917604

>>917600
Написано ОЧЕНЬ ХОРОШИЙ РУСИК и я этому верю поэтому и сижу
Где еще лучше?

Аноним 14/10/24 Пнд 04:08:21 #32 №917608

>>917555
Смотри в сторону нового квена. Цензуры до жопы, но и мозгов до жопы.

Аноним 14/10/24 Пнд 04:09:01 #33 №917609

>>917600
тут дело в том что у тебя не будет никогда такой скорости на 12 гигах, зачем обнадеживать чела

Аноним 14/10/24 Пнд 04:11:49 #34 №917610

>>917609
Я ебу какая скорость ему нужна? Может он и на трети от токена готов будет сидеть. Я предположил примерно, что токенов точно будет больше 2.5, а какие там значения точно будут мне уже как бы сказать похуй. Наводку я дал.

Аноним 14/10/24 Пнд 04:14:02 #35 №917612

>>917596
У 4060 16 гигов памяти

Аноним 14/10/24 Пнд 04:17:35 #36 №917615

>>917610
>>917609
Нвидия переоценена получается, потому что на моем лоховском радевоне с 8гб врам так же где то 1.5 токена.
Интересно кто то пробовал на амд сборку сделать там памяти до жопы даже в бюджетных моделях

Аноним 14/10/24 Пнд 04:18:35 #37 №917617

>>917604
Чел, если ты сидишь на модели чисто из-за русика, то мне тебе сказать нечего. В целом я понимаю, нахуй оно надо, но что-то тебе доказывать я не хочу.

>>917612
У 4060 две версии - на 8 гигов и на 16. Версия на 16 стоит в районе 55к и наухй не нужна, когда за ту же сумму на помойке барахолке можно найти 3090 в нормальном состоянии с большим объемом памяти и с лучшим перфомансом. Покупать ее можно онли если ты боишься что тебя наябут и тебе нужна именно свежеиспечённая карточка без обдрищенных чипов памяти.

Аноним 14/10/24 Пнд 04:19:40 #38 №917618

>>917615
>Нвидия переоценена получается, потому что на моем лоховском радевоне с 8гб врам так же где то 1.5 токена.
Так может у тебя блять полтора токена потому что у тебя большая часть слоев в оперативную память выгружена?

Аноним 14/10/24 Пнд 04:21:40 #39 №917619

>>917491
Мне понравилось на 12B, только чат автоматически перестал прокручиваться при автораскрытии спойлеров.
Кстати, на реддите пилили что-то похожее ( https://www.reddit.com/r/SillyTavernAI/comments/1fqnqld/i_ragequitted_bot_35_and_made_40/ ), но мне не понравился способ установки, у анона явно получше получилось.

Аноним 14/10/24 Пнд 04:46:08 #40 №917626

А что сейчас самое мощное, что можно запустить на моем ПК? Скорость не имеет значения.
У меня ПК: Ryzen 5 3500X; DDR4 128Gb@3200MHz; RTX 4070 12Gb; SSD 980 PRO 1TB
Важно, чтобы файл gguf занимал на SSD не больше 100 Гб.

Аноним 14/10/24 Пнд 06:43:16 #41 №917643

Попробовал эту модель и чет не впечатлен. Шизит даже просто при температуре 1, какой то бредогенератор. Попробовал и ггуф и exl2
https://huggingface.co/SicariusSicariiStuff/LLAMA-3_8B_Unaligned_BETA

Может у меня семплеры не те выставляются? Кто разбирался с этой моделью?

Аноним 14/10/24 Пнд 06:46:24 #42 №917645

>>917643
присоединяюсь к вопросу, тоже не понял в чем прикол модели. сфенохуйня неиронично лучше выдает.

Аноним 14/10/24 Пнд 06:47:42 #43 №917646

>>917626
>не имеет значения
ну если согласен на 1 токен в секунду, и 70Б можешь попробовать, флаг в руки.

Аноним 14/10/24 Пнд 06:51:56 #44 №917648

image.png

Вот щас попробовал на нуле даже. Exl2 8bpw. Температура вообще 0, вот итог.

Аноним 14/10/24 Пнд 06:54:01 #45 №917649

>>917648
у тебя часом эндтокен не забанен? динамик темпа не включена?

Аноним 14/10/24 Пнд 06:56:56 #46 №917651

image.png

>>917649
Ничего не забанено. Это даже не мои шизонастройки а температура 0 была, щас поставил 0,1 Все равно шиза какая то.

Аноним 14/10/24 Пнд 06:59:02 #47 №917652

Кто кем работает

Аноним 14/10/24 Пнд 08:09:47 #48 №917670

Ттсник, заценил новую, как говорят "самую эмоциональную" ттс? https://github.com/SWivid/F5-TTS

Аноним 14/10/24 Пнд 08:16:02 #49 №917673

image

В определнии карточки ассистента примеры текста служат как мини-лора забивая контекст в начале диалога и постепенно вытесняясь по ходу него, позволяя более точно инструктировать и задавать тон боту на буквальных примерах. Очень полезная фича.

А вот что делать если хочешь поместить больше примеров (разделённых на фрагменты, не войну и мир в один чанк) чем влезет в контекст? Есть какие-нибудь приблуды? Может быть что-нибудь типа лорбука, только для фрагментов-примеров вариантов ответа?

И кстати, кто-нибудь уже делал квантованные (потому что для полной даже 4090 не хватит) лоры для текстовых нейронок, как оно работает по сравнению с лорами для StableDiffusion ?

Аноним 14/10/24 Пнд 08:31:15 #50 №917680

>>917617
Даже идеальный перевод даже в твоей голове - это не то.

Аноним 14/10/24 Пнд 08:41:06 #51 №917682

>>917619
>только чат автоматически перестал прокручиваться при автораскрытии спойлеров.
Хм, думаю, можно поправить каким-нибудь костылём. Но да ладно, это мелочь.
А вообще, я хуею с кода Таверны. Закинул это расширение буржуям, и они пожаловались, что расширение не работает с Kobald Horde. Какого хуя, в расширении вообще нет логики, связанной с обработкой запросов к разным видам API, так хули эта абстракция протекает?

>Кстати, на реддите пилили что-то похожее ( https://www.reddit.com/r/SillyTavernAI/comments/1fqnqld/i_ragequitted_bot_35_and_made_40/ ), но мне не понравился способ установки, у анона явно получше получилось.
О, спасибо за ссылку, гляну, что там, может, спизжу пару идей.

Аноним 14/10/24 Пнд 09:25:38 #52 №917712

>>917682
>расширение не работает с Kobald Horde
Может у них просто таверна старая, я пока до последней не обновился — тоже твой скрипт не заводился.

Аноним 14/10/24 Пнд 09:33:43 #53 №917717

>>917712
Может быть, но всё равно как-нибудь попробую на Kobold Horde запуститься, чтобы убедиться, что там всё ок.

Аноним 14/10/24 Пнд 09:40:03 #54 №917731

image.png

>>917682
Юзаешь stanging версию или Release таверну? На Stanging не заводится почему то

Аноним 14/10/24 Пнд 11:21:35 #55 №917830

>>917731
Release версию. Staging нестабильная, если я правильно понимаю, в ней что-то может поменяться, поэтому даже не пробовал на ней запускать.

Аноним 14/10/24 Пнд 11:32:05 #56 №917842

image.png

>>917830
больше фич на ней. Ну короч на Stanging не работает.

Аноним 14/10/24 Пнд 11:54:44 #57 №917865

>>917842
Окей, принял к сведению, но всё же я не планирую на ней смотреть из-за нестабильности, дождусь релиза.

Аноним 14/10/24 Пнд 12:24:10 #58 №917877

>>917626
> Скорость не имеет значения.
> Важно, чтобы файл gguf занимал на SSD не больше 100 Гб.
Любая модель квант котороый занимает меньше 100гб, внезапно, да? 123б из рациональных, больше только старье или грок/405б что не влезут.
>>917643
>>917648
А зачем вообще с ней разбираться? Какая-то ерунда где автор приоретизирует размер аутпута и токсичность, при этом явно не сбалансирована.
>>917651
Штрафы за повтор включи, хотябы лупов меньше станет.
>>917673
> примеры текста служат как мини-лора
Нет, лора меняет поведение модели, а здесь прямое использование ллм по назначению с подгрузкой ей данных для референса.
> что-нибудь типа лорбука
Именно лорбук
> лоры для текстовых нейронок, как оно работает по сравнению с лорами для StableDiffusion
Работает совершенно иначе и то что в первом случае не получишь. В сд большинство лор сильно меняют веса так, чтобы сместить генерацию на что-то конкретное, это вполне допустимо. Если подобное попытаться сделать с ллм - она просто начнет по каждому поводу писать тексты из датасета, вне зависимости от их уместности, поскольку все связи будут наружены. Тренировать обязательно большим и разнообразным датасетом, который будет хоть как-то покрывать разные области, только тогда модель как-то воспримет и будет следовать стилю и паттернам из обучаемого материала, если повезет то и кое что оттуда запомнит. Алсо разница между лорой и тюном полных весов здесь достаточно сильно заметна.
Попробуй потренить, может понравится. Если долго пердолиться, чуть поправить код в трансформерсах и добавить туда эффективных оптимайзеров то можно поместить размер модели побольше или 8/16бит веса.

Аноним 14/10/24 Пнд 13:05:36 #59 №917912

кстати что умнее мистраль 123 или новый квен 72?

Аноним 14/10/24 Пнд 13:23:35 #60 №917926

>>917877
Захотелось меньше клише и побольше норм рп на 8B. Да. 3060 это пока мой максимум

Аноним 14/10/24 Пнд 13:26:47 #61 №917932

Когда там антислоп введут в таверне. Или уже может есть какой форк где можно пощупать?

Аноним 14/10/24 Пнд 13:30:34 #62 №917934

>>917680
>Даже идеальный перевод даже в твоей голове - это не то.
Если в голове, то вполне то. И я считаю, что пусть будут косяки перевода, но чтобы модель лучше соображала.

Аноним 14/10/24 Пнд 13:38:06 #63 №917938

>>917932
Там непонятно че вообще с таверной творится. У них там редизайн, ребрендинг, отказ от кума и прочее леволиберацкое френдли фемили говно. Вонь такая стоит, что половину дискорда перебанили.

Аноним 14/10/24 Пнд 13:43:24 #64 №917942

>>917877
>Попробуй потренить, может понравится.
А что можно потренить на бытовой карточке уровня 12 гигов? Разве что какую нибудь микромелочь типа 2-4B, которая итак трещит из-за перекачки датой и перетренировки.

Аноним 14/10/24 Пнд 13:45:23 #65 №917945

>>917680
>>917934
>в голове
Люди, хорошо владеющие языком, даже иностранным, выученном во взрослом возрасте, в голове не переводят, а понимают напрямую, как родной. Но чтобы до этого дойти, нужна практика. Ллм, кстати, неплохой способ с обратной связью, можно просить пояснить более простым языком или перевести непонятное, вместо того, чтобы лезть в словари и грамматические справочники, разбираться самому.

Аноним 14/10/24 Пнд 14:01:46 #66 №917952

>>917932
Тред уже перестал даже мечтать о собственном фронте?

Аноним 14/10/24 Пнд 14:03:49 #67 №917953

>>917938
Так их просто форкнут и забудут, нахуя они выебываются?

Аноним 14/10/24 Пнд 14:11:21 #68 №917959

>>917953
Так-то глупая таверна - сама форк оригинальной. Будут выебываться - вылезет какая-нибудь naughty tavern и все на нее пересядут забыв. Get woke - go broke же база.

Аноним 14/10/24 Пнд 14:13:40 #69 №917963

>>917953
Да, имели одну стабильную ветку, будем иметь 30 разных от васянов всех калибров, где обязательно что-то будет сломано. То есть ничего не изменится, лол.

>нахуя они выебываются?
Никто не знает. Может ищут инвесторов, может ищут способы для монетизации. А на интерфейсе для ролплея для поебу несовершеннолетних кошкодевочек далеко не уедешь. Хотя один хуй таверну все юзают чисто для ролплея и отказывается от такого комьюнити это чисто выстрел себе в ебало и считай что смерть.

Аноним 14/10/24 Пнд 14:22:27 #70 №917974

>>917670
Демо записи тут https://swivid.github.io/F5-TTS/

Аноним 14/10/24 Пнд 14:23:12 #71 №917977

>>917959
Правды ради там от оригинальной таверны хуй да нихуя осталось в виде кривого интерфейса и прочих мелких штук. Силли вполне себе уже самостоятельный проект а не просто форк.

И от этого кстати еще забавнее выглядит то, что все свои оригинальные фичи разрабы силли теперь собираются выкинуть, включая в том числе кастомные интерфейсы для подключения к апи.

Аноним 14/10/24 Пнд 14:30:02 #72 №917984

>>917977
Ну в целом да, потому на силли все и пересели ибо там много фишек, гибкости и возможностей. Если начнут брыкаться - может найдется герой что форкнет уже их и будет развивать в правильном направлении. Ведь на самом деле даже просто все имеющееся причесать, равномерно раскидать и явные косяки поправить - будет уже заебумба что о соевичке никто не вспомнит.
А так лучше бы просто начали новый проект для хлебушков или альтернативную симпл ветку, которую в перспективе можно было бы смерджить с основной, сделав переключение. Посмотрим что из этого выйдет.

Аноним 14/10/24 Пнд 14:38:10 #73 №917997

>>917984
>Ведь на самом деле даже просто все имеющееся причесать, равномерно раскидать и явные косяки поправить - будет уже заебумба
Это дикий геморрой и скорее всего никто этим не будет заниматься по понятным причинам. Те кто действительно шарят быстрее запилят свой интерфейс не основываясь на остатках богомерзкой таверны. Ну, может лишь меньшую часть кода возьмут или общую структуру подрежут, но точно не станут пытаться причесать это.

>А так лучше бы просто начали новый проект для хлебушков или альтернативную симпл ветку, которую в перспективе можно было бы смерджить с основной, сделав переключение.
Если бы они хотели реально сделать "свой универсальный фронтент для паверфул юзерс" то действительно сделали бы его отдельной веткой и не трогали основную. Но тут уже понятно что это только начало и дальше они будут сильнее гайки закручивать. Ясен хуй физически они тебе не смогут кумить через через их оболочку, но могут постараться усложнить тебе жизнь всеми возможными методами.

Аноним 14/10/24 Пнд 14:40:47 #74 №918002

>>917997
не смогут запретить кумить*
быстрофикс

Аноним 14/10/24 Пнд 14:42:26 #75 №918005

Введут внешний фильтр на все запросы и логирование, а еще платную подписку и гачу.

Аноним 14/10/24 Пнд 14:51:02 #76 №918009

>>918005
Очень вряд-ли. Скорее всего вырежут весь основной функционал типа конструктора промтов, ограничат список апи для использования или че-то типа того. Фильтр и логгирование это окончательная смерть, ибо даже некумерские интерфейсы разрешают тебе пиздеть с моделью о чем угодно.

Аноним 14/10/24 Пнд 14:52:37 #77 №918013

>>917670
Сейчас каждая первая ттс с войсклоном в той или иной мере подхватывает эмоции из образца, так что эта "эмоциональная" ттс не показывает ничего нового. Просто подхватывание стиля из образца голоса, включая все параметры разом.
И rinna всё ещё ебёт их
https://rinnakk.github.io/research/publications/DialogueTTS/
Самое интересное здесь
>VAE-predicted: Speech synthesized using proposed VAE-VITS, where style representation is predicted by style predictor

Аноним 14/10/24 Пнд 15:13:32 #78 №918039

>>918009
Вангую встроят по тихой зонды что бы сливать переписки пользователей, если не уже
Так что обновляйтесь аккуратнее

Аноним 14/10/24 Пнд 15:23:11 #79 №918046

>>917670
Это чтоли просто обычная ттс на более новой архитектуре? Из "эмоций" там только разметка пауз? Поясните.
>>917997
> Те кто действительно шарят
Как раз воспользуются наработками, ведь делать с нуля свой велосипед - это
> дикий геморрой

> могут постараться усложнить тебе жизнь
Себе в ногу стрелять только могут. Угроза уровня
> ты не получишь наших ахуительных обновлений в которых мы порезали функционал
звучит смешно. Они же не корпораты что могут просто тебе в мгновение перекрыть кислород, это опенсорс.
>>918009
> вырежут весь основной функционал типа конструктора промтов
Это множит на ноль все и куда серьезнее чем те же апи, для которых в худшем случае можно за пол часа накидать и отладить прокладку.

Аноним 14/10/24 Пнд 15:25:32 #80 №918049

>>917952
Догонять то что они сделали на данный момент никто не может. Например есть Risu ai но она тоже круто отстает. А чтобы русская таверна была это как всегда труднодостижимо.

Аноним 14/10/24 Пнд 15:37:14 #81 №918053

https://x.com/homebrewltd/status/1845685589376647654
https://homebrew.ltd/blog/llama-learns-to-talk
https://github.com/homebrewltd/ichigo
https://ichigo.homebrew.ltd/

Аноним 14/10/24 Пнд 15:43:14 #82 №918055

Какую Mistrall small 22b используете для написания дроч фанфика?

Аноним 14/10/24 Пнд 15:47:08 #83 №918059

>>918049
По-моему, у них 90% кодовой базы - юзлесс хуйня, которую нет смысла повторять.

Аноним 14/10/24 Пнд 15:48:16 #84 №918061

Почему никто не обучил 8-12b модель исключительно на фанфиках и порнорассказах, выкинув мусор вроде программирования и выжимки из википедии?

Аноним 14/10/24 Пнд 15:52:53 #85 №918064

>>918061
И правда, почему до тебя никто не додумался до этого?

Чтобы модель нормально понимала что есть что, ее датасет должен быть разнообразным. Если ты выкинешь инфу о программировании, она перестанет понимать что кусок питоновского кода не должен присутствовать в гомофанфике по гарри потеру и наоборот.

Аноним 14/10/24 Пнд 16:04:31 #86 №918077

>>918049
Че там догонять, лол? Это даже не полноценный бек + фронт, это просто фронт. Берешь апи с кобольда, пишешь примитивную систему по сохранению и обработке сообщений и сидишь чатишься с довольной рожей. Всё самое сложное уже сделано за тебя.

Аноним 14/10/24 Пнд 16:08:55 #87 №918080

>>918061
Потому что например базовые модели-огрызки что скинула нам meta - говно. Как не файнтюнь, это не сделает их лучше, для реальных результатов нужно трейнить с нуля со своим кастомным датасетом и без дрочки на цензуру, естественно ни у кого такой возможности нет, по очевидным причинам.

Аноним 14/10/24 Пнд 16:10:52 #88 №918083

>>918061
потому что для обучения даже 8b требуется от 60 гб врам.

Аноним 14/10/24 Пнд 16:22:47 #89 №918095

>>918064
Ты даун? Как она напишет код, если она не знает что такое код?

Аноним 14/10/24 Пнд 16:36:00 #90 №918109

https://www.reddit.com/r/LocalLLaMA/comments/1g383mq/repetition_penalties_are_terribly_implemented_a/
о штрафах за повтор

Аноним 14/10/24 Пнд 16:58:33 #91 №918124

Что лучше для кума 7b 8к контекст или 12b 4к контекст

Аноним 14/10/24 Пнд 16:59:23 #92 №918125

>>918124
1b 128k контекст

Аноним 14/10/24 Пнд 17:15:07 #93 №918141

>>918109
>terribly implemented
Так можно сказать буквально про любую часть LLM. Просто тыкаешь пальцем в небо и пишешь статью.

Аноним 14/10/24 Пнд 17:25:52 #94 №918153

>>918109
Есть DRY, есть XTC, нет, буду жаловаться что кал мамонта плохо работает.

Аноним 14/10/24 Пнд 17:36:25 #95 №918164

>>918061
Унди и прочая орава работяг только этим и занимаются, вот только хуево выходит. Интересно почему же?
>>918064
Двачую, разнообразие и всякое оче важны для формирования правильных логических связей в модели.

Аноним 14/10/24 Пнд 17:39:52 #96 №918166

>>918164
Потому что они файнтюнят готовую модель, подмешивая туда свое говно. Следующий вопрос.
>разнообразие и всякое оче важны для формирования правильных логических связей
Точно, обычно же текст в книгах другой используется, без 40 подмешанных языков не понятно будет, что там написано, drug.
Вы реально иногда как нейронка, начинаете выдумывать хуйню, когда сами нихуя не знаете.

Аноним 14/10/24 Пнд 18:07:23 #97 №918187

>>918061
У современного кума три беды. Первая это васяны, делающие тюны. Вторая - кумеры. И третья, сама главная. Катастрофическая бедность кум датасетов. Потому вывод превращается буквально в "если что-то, то пиши 'шиверс довн cпайн'" и т.д. Васяны попытались это обойти синтетикой, из разных клодов. В котором кум данных тоже мало, а они получают эти данные в дистиллированном виде, с конкретными ситуациями, персонажами и настройками сэмплинга. То есть ещё меньше данных, даже не смотря на то, что модель может пердолиться годами и выдавать гигабайты текста - это всё ещё бедный датасет. В итоге единственная возможность сделать ЕРП модель - взять готовую не-ерп и попытаться не слишком её испортить, накачивая говном.

Аноним 14/10/24 Пнд 18:15:05 #98 №918189

>>918187
>Вторая - кумеры.
Вот уничтожим всех кумеров да васянов, да как заживём!
>Катастрофическая бедность кум датасетов.
Данных так то дохуя, но кто их вилкой чистить будет? Правильно, никто. Смотрел я эти форумы с ролеплеем, там зачастую ветка уже давно ушла, РП прёт со страшной силой, а в датасете первые 3 сообщения времён царя гороха (+ спам какой-нибудь, лол).

Аноним 14/10/24 Пнд 18:33:32 #99 №918202

>>918166
> Потому что они файнтюнят готовую модель
Только это позволяет ей хоть как-то работать а не просто выдавать непрерывный шизослоуп пурпурного концентрата министрейшнов.
> Точно, обычно же текст в книгах другой используется
Чел, ты бы сразу писал что хочешь не понять причину, а пришел доказывать свою ахуительную идею, которая не приходила на ум только ленивому. Вперед, обучай свою модель и делай срывы покровов. Долбится головой в стену тоже вариант получения опыта, для некоторых - единственный.

Аноним 14/10/24 Пнд 18:33:40 #100 №918203

>>918189
>Вот уничтожим всех кумеров да васянов, да как заживём!
Поздно истреблять, кум вырвался из бутылки. Нужно наоборот, как можно более массовое распространение и дестигматизация. Так произошло с одним китайцем по имени Гей Минг.
>Данных так то дохуя
У лламы 8b заявлено, что обучалась она на 15T токенов. Выделим две трети на обычный РП, чтобы нейронка хоть могла узнать, что такое кошкодевочка. Остаётся 5Т токенов порнухи, чтобы она узнала куда её ебать. Чтобы ухх, без математики и без кодинга. Есть в твоём "дохуя" триллионы токенов? Уверен, что у васянов на хардах давно лежит весь этот твой форум, почищенный и готовый к трейну, оберегаемый, как алмаз. Потому что это единственное, чем можно разбавить килотонны говна, сгенерированного нейросетями. Но выбирать не приходится всё равно.

Аноним 14/10/24 Пнд 18:43:42 #101 №918207

>>918203
> Остаётся 5Т токенов порнухи, чтобы она узнала куда её ебать.
Сделал мой вечер, содомит!

Но даже подобный подход не поможет ибо датасет окажется однотипным и невероятно скудным на информацию. Многие сами собой разумеющиеся вещи, закономерности и будут усвоены крайне плохо, и вместо того чтобы понять причины произошедшего или даже банально посчитать число хуев в отверстиях людей в комнате, в ответ получишь размахивание бедрами, омоложение ночей, или какие-нибудь новые перлы. Весь "ум" и понимание моделек происходит как раз из общего бэкграунда.

Аноним 14/10/24 Пнд 18:45:16 #102 №918208

>>918207
>Весь "ум" и понимание моделек происходит как раз из общего бэкграунда.
Которого нет, ибо модели не штрафуют за повторное снятие трусов.

Аноним 14/10/24 Пнд 18:54:14 #103 №918213

>>918208
Одни с себя, вторые с тебя, проблемы? Или бывает девушки по 2 пары носят, зайди вон в треды диффузии, там иногда мелькают иллюстрации подобного.

Но вообще такое, как правило, следствие хуевого обучения, когда модель потерялась и из-за нарушенных связей пытается воспроизвести ситуацию из датасета, где снимают трусы, не осознавая ее в должной мере. Изначально хорошее количество ерп/левд и подобных данных в датасете базовой модели может помочь, нормальное обучение сделает хорошо в любом случае. И в последнем как раз наиболее удачные модели получаются на стыке стем/нлп/рп датасетов, иногда выходит невероятный совл и датфил.

Аноним 14/10/24 Пнд 19:01:10 #104 №918218

>>918207
Я потому на обычный РП и выделил две трети. В общем-то, QA не особо поможет в РП, особенно если какие-нибудь вопросы и ответы из олимпиады по математике. Так-то я тоже согласен, что умение кодить на питоне РП нейросетке нахуй не требуется. Но из-за ограниченности датасетов невозможно научить её думать на других примерах, только на разной хуйне. Т.е если будет реально массивный РП датасет, где группа людей регулярно посещает различные помещения и идёт учёт группы и людей в помещении - нейросеть научится считать людей в комнате, очевидно. Но этого нет. Есть разные QA уровня "у Васи было три банана, один он сунул себе в анус, сколько бананов осталось?". При этом даже одна треть порнухи в датасете это овердохуя, я согласен. Но речь же изначально шла про обучение на одной порнографии, лол.
И трусы модель снимает второй раз, потому что усвоила паттерн "перед еблей - сними трусы". Она не понимает, что такое трусы и как они работают, банально из-за бедности датасетов, в которых нет ничего о трусах. Кроме самого факта их снятия и иногда описания внешнего вида. Даже если у нас гениальная модель и она понимает, что трусы УЖЕ сняты, она не может знать, что они были всего одни, что они как-то в принципе могут препятствовать ебле и т.д. У неё паттерн: перед еблей - сними трусы. Поебались и хочешь ещё? Перед еблей сними трусы. Сняла с партнёра трусы и отсосала? Если хочешь его выебать - сними с него трусы.

Аноним 14/10/24 Пнд 19:02:10 #105 №918219

>405b НУ ЛОКАЛЬНО ЖИ)))
и в чём смысл нахуй, даже Q1 квант шизы с кучей врам её не запустят
вот если 405b можно было на какой-нибудь 1050ti запустить тогда это да прогресс... а так все хуйня опять у корпоратов сосать

Аноним 14/10/24 Пнд 19:08:00 #106 №918227

>>918164
>Унди и прочая орава работяг только этим и занимаются, вот только хуево выходит. Интересно почему же?
Зависит от удачи, подбора миксов и общего развития моделей. И год назад встречались удачные тюны. Но по сравнению с сегодняшними те просто ни о чём. Ещё годик, ещё немного удачи... Ну если только не введут анальную цензуру прямо внутри моделей, тогда только жопа и останется.

Аноним 14/10/24 Пнд 19:10:11 #107 №918231

>>917643
Она быстрая, и действительно без тормозов.
Если шизеет, нужно почистить контекст (например путём саммари) и свайпануть.

Аноним 14/10/24 Пнд 19:12:01 #108 №918237

>>918227
Прошлые модели 13b может и были туповаты но в них не было выравниваний и сои такой ,что просто не выдохнуть. Я перепробовал все что знаю модели но и те не могут нормально отыграть ариечку няшечку без шизы соевой.

Аноним 14/10/24 Пнд 19:12:03 #109 №918238

>>918219
>405b
Нахуя тебе этот раздутый лоботомит? 123 нормально пашет жи.

Аноним 14/10/24 Пнд 19:14:13 #110 №918241

>>918077
Но тем не менее никто не осиливает. Особенно в русскоязычной среде ибо на такое нужно много времени и сил и конечно же разбираться в английском языке и программировании. Слишком дохуя всего дляодного-трех челов энтузиастов

Аноним 14/10/24 Пнд 19:16:42 #111 №918244

>>918218
Да нет смысла делать 2/3 и так сильно бустить, там априори будет крайне скудное представление о общей логике, мироустройстве и всяких важных вещах. В целом, действительно базовый датасет можно сместить в сторону всякой художнки, знания анатомии, логических и философских трудов, и прочего прочего, но даже тот же кодинг позволяет формировать причинно-следственные связи и взаимоотсылки между разными фрагментами текста, матан и подобное вообще необходимы. А рп и всяким можно шлифануть в самом конце вместо надрочи на QA, при наличии фундаментальных знаний как раз будет усваивать стиль, как лучше писать, некоторые особенности повествования и т.д., а не просто заучивать упоротый слоп.
> И трусы модель снимает второй раз, потому что усвоила паттерн "перед еблей - сними трусы". Она не понимает, что такое трусы и как они работают, банально из-за бедности датасетов, в которых нет ничего о трусах.
> неё паттерн: перед еблей - сними трусы. Поебались и хочешь ещё? Перед еблей сними трусы.
Да, в целом, это как раз подтрвеждает то о чем написал. Нужно повышать количество подобного в базовом датасете, и/или нормально файнтюнить чтобы оно усвоилось а не было криво намазано поверх, затирая имеющееся.
Так-то второе в текущих реалиях это часть первого, сейчас базовые модели что выпускают тренируются в 3-4 этапа.
>>918227
Ну да, ебаная алхимия в призрачной надежде на успех, когда результат из изначально приличных моделей что-то может давать. Но эта херня постепенно отправляется на помойку, уже освоены нормальные техники тренировки и все упирается лишь в лень/срачи друг с другом/машинные ресурсы, это ерунда по сравнению с прошлым когда вообще не было представления.

Аноним 14/10/24 Пнд 19:19:42 #112 №918246

>>918095
Валенок ебучий, если ты сам нихуя не понимаешь, не пытайся что-то доказывать.

Нейросети недостаточно показывать только позитивные примеры, ей нужны негативные, иначе она будет сильно путаться и шизить при генерации. Не хочешь чтобы при сладком дроче с девочкой случайно протекали какие-то куски непонятного кода, или токенов - напичкай ее примерами того, где этот код должен находится и где не должен.

Иначе с твоим ахуенно сбалансированным датасетом модель начнет генерировать бред и при этом будет действовать четко по твоим же примерам, ибо ты долбаеб сам их обрезал до очень узкого профиля. Представь, вот ты снимаешь трусики со свой фимозной вайфочки, а ее мокрая пусси - раз, надела дубленку, взяла ключи от соляриса и поеахала шабашить в ночную чтобы прокормить семью. Это тебя долбаеба ждет, если ты вырежешь всё кроме синтетических тонн ролплейных чатов.

Аноним 14/10/24 Пнд 19:25:45 #113 №918252

>>918238
>123 нормально пашет жи
Так даже 123 чтобы запустить надо покупать дохуя врама
Средний анон не запустит, только шизы с этого треда закупались теслами чтобы запустить хоть что-то внятное

Аноним 14/10/24 Пнд 19:26:12 #114 №918253

>>918246
> Не хочешь чтобы при сладком дроче с девочкой случайно протекали какие-то куски непонятного кода
А если хочешь? Самый кайф в разгар процесса шернуть на ушко если хочешь чтобы я продолжил - напиши мне код на питоне, который будет реализовывать сбор текстового датасета по списку html страниц и дальнейшее обучение модели mistralai/Mistral-Small-Instruct-2409, и смотреть как отреагирует, такой-то кайф.

Аноним 14/10/24 Пнд 19:34:16 #115 №918266

Ананасы, а лорбуки, RAG, RoPE, и другие прибабахи для расширения контекста работают только на таверне и убабуге, сам кобольд их не поддерживает?

Аноним 14/10/24 Пнд 19:35:07 #116 №918268

Screenshot14.jpg

>>918253
У меня неиронично было такое. Сеточка так сильно разозлилась на меня за игнор ее мандавошки, что начала мне угрожать джсон структурой.

Аноним 14/10/24 Пнд 19:35:59 #117 №918270

>>918266
>RAG, RoPE
че это такое блять

Аноним 14/10/24 Пнд 19:36:23 #118 №918271

изображение.png

>>918252
>Средний анон не запустит
Запускаю на пикриле и довольно урчу с 0,7 токенами.

Аноним 14/10/24 Пнд 19:38:35 #119 №918275

>>918244
>априори будет крайне скудное представление о общей логике
Если датасет достаточно массивный, то будет. Причём множество разной логики, разных мироустройств и т.д. Мы же говорим о датасете на 10Т токенов. Очевидно, что без допила он всё равно будет годным только в качестве FT, но тем не менее. На счёт кодинга с матаном вообще не согласен. Достаточно аугментировать чистый худлит и будет заебись.
>Нужно повышать количество подобного в базовом датасете
Или повышать качество датасетов для ЕРП тюнов. Добавить туда базовую информацию в известном формате, несколько килобайтов текста о тех же трусах - что это такое, почему их вообще носят или не носят, почему их снимают. Да что вообще такое одежда и нахуя нужна. Не просто примеры со снятием трусов, это нужно аугментировать логикой самого процесса снятия трусов. Нейронка обычно понимает, что если ты вышел из автомобиля - ты не можешь выйти из него второй раз, как раз потому, что она понимает и концепцию транспортного средства, и выхода из него. А трусы для неё тёмный лес - в претрейне о них если и было, то что-то вроде "самый известный производитель - кельвин кляйн". А в тюне только снимание.

>>918266
>асы, а лорбуки, RAG, RoPE, и другие прибабахи для ра
Так rope это растягивание контекста, он-то как раз только в кобольде работает, а не таверне. Да и rag, таверна это чисто обёртка над этим всем.

Аноним 14/10/24 Пнд 19:39:40 #120 №918278

>>918203
>Есть в твоём "дохуя" триллионы токенов?
Все книги, включая защищённые копирайтами. А то их из датасетов трут, чтобы не набутылили, а мы то люди гордые, и на бутылках посидеть можем.

Аноним 14/10/24 Пнд 19:39:40 #121 №918279

>>918271
>Подразумевает себя под средним аноном
>3080 ti за 900 баксов
>64гб озу
Не знал что семёны даже здесь обитают

Аноним 14/10/24 Пнд 19:40:21 #122 №918281

>>918252
100к на теслы это нихуя не много

Аноним 14/10/24 Пнд 19:40:39 #123 №918282

>>918252
>Средний анон не запустит, только шизы с этого треда закупались теслами чтобы запустить хоть что-то внятное
Цена вопроса от 100 до 200 рублей в час. И скорость будет комфортной, в отличие от тех же парней с теслами. Если напряжно по деньгам, можно начать меньше есть - оно и для здоровья полезно. Если конечно не школьник, но тем стоило бы вместо ЛЛМ вложиться в реальный секс :)

Аноним 14/10/24 Пнд 19:41:38 #124 №918283

>>918282
Двачую вот этого господина.

Аноним 14/10/24 Пнд 19:44:18 #125 №918285

>>918281
>100к на теслы это нихуя не много
Даже когда они стоили по 17к - в 100к не уложиться, если не ставить их в такой же как они древний мусор. Ну и плюс неизбежные косяки. Дорого это всё.

Аноним 14/10/24 Пнд 19:46:40 #126 №918289

image.png

>>918279
Ну вообще, нас тут большинство, пока не докажете обратное.

Аноним 14/10/24 Пнд 19:46:40 #127 №918290

изображение.png

>>918275
>несколько килобайтов текста о тех же трусах - что это такое, почему их вообще носят или не носят, почему их снимают
И это нихуя не поможет, лол, потому что модель не думает нихуя. Ей именно что нужно
>примеры со снятием трусов
И чем больше, тем лучше. В адекватных ситуациях офк.
>Нейронка обычно понимает, что если ты вышел из автомобиля - ты не можешь выйти из него второй раз
А просто никто не пробовал, лол.
>>918279
>3080 ti за 900 баксов
1500 тыщи вообще-то. Но таки сейчас похожий сетап будет стоить значительно дешевле.
>>918282
>вложиться в реальный секс
Переоценён, рука и компьютер с ЛЛМ уже лучше.

Аноним 14/10/24 Пнд 19:48:12 #128 №918292

изображение.png

>>918289
Уверен, что уже обнимал тебя за совместный обсёр с 3080Ti, а вот за женский диск уже шеймил или пропустил в прошлый раз?

Аноним 14/10/24 Пнд 19:50:06 #129 №918294

>>918292
Я первый раз запостил. С 3090 да, неудобно получилось. До нейронок похуй было, а теперь кое-как вмещаю 12B на 6 битах.

Аноним 14/10/24 Пнд 19:53:44 #130 №918296

kek.png

>>918278
Плейнтекстом не поможет, нужно дробить на куски и делать в формате ролеплея. В целом, можно даже какой-нибудь нейросетью это сделать, правда уточнить, чтобы она дропала логически обрывающиеся цепочки - ты же не сможешь резать корректно, это будет в лучшем случае разрезание по абзацам. Тут приходим к другому, в книгах, в лучшем случае, мягкая эротика. А нам нужно жёсткое детализированное порно. РП датасет? Возможно. ЕРП? Точно нет.

>>918289
Кек. Единственный вариант покумить на 3080ti - купить в довесок хоть что-нибудь.

Аноним 14/10/24 Пнд 19:56:50 #131 №918300

>>918294
>Я первый раз запостил.
Тады обнимаю. Вместе поплачем. А ведь тогда я думал, что наебал судьбу, и не взял лишний врам, ибо играм то нахуя...
А жёсткий выкинь нахуй, 21 век на дворе.
>>918296
>Плейнтекстом не поможет, нужно дробить на куски
Кстати, а нахуя? Вот технически модель всё равно дополняет по токену, так что "логические цепочки" тут нужны для стоп токена, а так хоть куски кидай.
>А нам нужно жёсткое детализированное порно.
Кому нам? Я со средней эротикой буду вполне удовлетворён.
>покумить на 3080ti - купить в довесок
Лол, перепись инвалидов какая-то.

Аноним 14/10/24 Пнд 19:58:17 #132 №918301

>>918296
После переезда со Stheno 3.2 на 12B модели я вдруг понял, что важнее правильно подкручивать модель, а не гнаться за контекстом. Если хватает 100 сообщений чтобы разыграть сцену, то он толком и не нужен. В следующий раз-то уже понятно, что 5090 буду брать, а сейчас уже смысла нет добирать что-то.

Аноним 14/10/24 Пнд 19:59:25 #133 №918304

>>918296
> Тут приходим к другому, в книгах, в лучшем случае, мягкая эротика. А нам нужно жёсткое детализированное порно.
В архиве сайта Стульчик есть всё, что нужно и даже больше. Качайте с Флибусты, пока она не закрылась. Там правда старый архив, новый на несколько лет моложе. Английские тексты тоже есть в количестве, но наши в целом сочнее.

Аноним 14/10/24 Пнд 20:03:39 #134 №918308

>>918304
>но наши в целом сочнее
И сырнее.

Аноним 14/10/24 Пнд 20:13:25 #135 №918316

>>918268
Сука лол, она прямо ультануть решила.
>>918275
> Если датасет достаточно массивный, то будет.
Ну типа если там датасет раздуть на 100Т (которых нет) то может и будет. Дело в том что концентрация важной информации там оче мала, зато однотипного - вагон. Помимо прочего всего, подобный дисбаланс еще и не позволит сетке нормально обучиться без применения какой-нибудь особо-невероятной черной магии аугументации.
> повышать качество датасетов для ЕРП тюнов
Это тоже важно, но разбавление позволит еще и эффективнее обучать без отупления.
> несколько килобайтов текста о тех же трусах - что это такое, почему их вообще носят или не носят
Это уже данные общего толка а не ерп. Но такое и нужно добавлять в первую очередь, причем неплохо объяснениями/cot и подобным оборачивать.
Но вообще насчет трусов таки перегибаешь. Все нормальные модели нюансы одежды понимают и хорошо отрабатывают если в общее замешательство не попали.
> он-то как раз только в кобольде работает
Не в кобольде а это общий параметры работы текстовых на трансформерсе.
>>918281
> 100к на теслы
brutal
>>918292
> за женский диск уже шеймил
Фу таким быть

Аноним 14/10/24 Пнд 20:14:48 #136 №918320

>>918300
>Кстати, а нахуя?
Плюс-минус хуй знает когда делал лору в облаке, чисто разрезание книг на куски и скармливание в нейросеть. Получилось очень плохо. У тебя в итоге диалог идёт от лица N персонажей, где всё происходит в виде взаимодействия между собой, от этого и нужно отталкиваться при составлении датасетов. Многостраничные описания окружающих пейзажей это хорошо, но тогда у нейросети будет заложено, что после описания природы - следует описание природы. А это неверно.
Вот заложить в нейросеть страницу текста с промптом, который заставит её сделать из этого диалоги определённых персонажей это уже хорошо. Вместо "автора" восхищающегося природой у нас будет персонаж, который смотрит на природу и видит всё то, что автор описывал, говорит собеседнику или просто как-то взаимодействует с этим. Книги в чистом виде не годятся.
>Я со средней эротикой буду вполне удовлетворён.
А я нет. У меня уже в промпте прочно обосновалось требование максимальной детализации и модели, которые в это не могут - дропаются. Тот же магнум меня не устроил по этой причине.
>>918301
Да не в контексте дело, просто в 12 гигов толком не влезают модели. А в 24+12 уже кое-как.
>уже понятно, что 5090 буду брать
У меня наоборот мысли, купить тюрингов на сотню гиг vram и ебись оно всё.
>>918304
>Качайте с Флибусты, пока она не закрылась
На рутрекере лежат обновляемые дампы, если что. Терабайт с картинками, половина без. Если не ошибаюсь. Очень много повторов, нужно дедуплицировать.

Аноним 14/10/24 Пнд 20:18:01 #137 №918322

>>918320
И какие модели используешь?

Аноним 14/10/24 Пнд 20:21:34 #138 №918324

>>918322
Да как с 20b даркфореста переполз на 34b c4ai-command-r, так ничем его и не могу заменить для ерп. Попиздеть и с квеном можно, и с геммой, но в ерп они сливаются.

Аноним 14/10/24 Пнд 20:26:32 #139 №918327

>>918320
> чисто разрезание книг на куски и скармливание в нейросеть
Оно и не может работать и заведомо получится хуево, этим будет наружен в первую очередь формат и связь между запросом и ответом, а то и вообще вся логика.
> Вот заложить в нейросеть страницу текста с промптом, который заставит её сделать из этого диалоги определённых персонажей это уже хорошо.
Чаю
> Тот же магнум меня не устроил по этой причине.
Это странно, он наоборот помешан на чрезмерно подробном описании всяких деталей о том как испещренный венами ствол проникает через влажные складки, причем проявляет чудеса разнообразия. Лучше бы больше про мысли и чувства чаров писал. Даже кумерский из коробки мелкий командер более сбалансирован чтоли, хоть и не так умен.

Аноним 14/10/24 Пнд 20:54:36 #140 №918348

>>918327
>заведомо получится хуево
Тред не слишком дружественен к экспериментаторам, лол. Так что я ставил опыты, читал литературу и добирался до всего таким образом. Это даже хорошо, больше опыта, пусть он и не всегда удачный.
А к коммандеру у меня претензия разве что к проёбыванию характера персонажа, очень уж он этим грешит. Качал 27b магнум, тот хорошо следовал персонажу, но слишком блекло и неинтересно описывал процесс. Плюс с коммандером понимаешь, насколько же остальные зашкварены жптизмами, у него этого поменьше немного. Тот же РП с персонажем, у которого раздвоение личности, он вряд ли потянул бы, я когда-то был в восторге, что 20b франкенштейн-модель смогла это осилить и развить идею, даже временами я убирал своего персонажа и модель описывала приключения других персонажей без моего участия вообще. Комманд-р скорее всего на таком сольётся, но я не проверял, просто есть такое ощущение.

Аноним 14/10/24 Пнд 21:02:15 #141 №918357

>>918348
Да не, ничего плохого про эксперименты не говорю, из интереса и не такое можно делать. Просто привел пример почему так получится и что лучше не пробовать а сразу дальше идти.
Перефоматировать так куски художественных произведений уже пробовал? Там ведь возникнет проблема с вступлением что, почему и как, нужно как-то ввести персонажей и предысторию еще.
Про размер магнума что был использован уже потом прочитал, писал про большой. На гемму вообще ни одного норм файнтюна не встречал что бы превосходили ванилу при этом не ломая большую часть ее смекалки.

Аноним 14/10/24 Пнд 21:23:38 #142 №918380

>>918357
>почему так получится и что лучше не пробовать
Я о том, что не было понимания, что будет, если так сделать. Но желание сделать лору было. Теперь есть понимание, но нет желания.
>Там ведь возникнет проблема с вступлением что, почему и как
В теории, можно сделать два прогона, первым достать всех персонажей из книги, а потом динамически подставлять их в промпт. Могут возникнуть проёбы с внешним видом, так что его тоже нужно обновлять динамически, как вариант, добавить "стадии". Персонаж А в стадии 1 (когда номер страницы < 10) - "Бородат и ему 20", в стадии 2 внешний вид меняется. Сейчас бы если чем-то таким занимался, то месяц писал софтовую обвязку, чтобы в промпт писался именно нужный персонаж в нужном виде, а то и инфа про всех персонажей сразу, чтобы максимально соответствовать формату промпта, который будет использоваться потом при РП. На счёт предыстории сомнения берут, ведь не так важно, когда именно будет экспозиция в тексте. Пробовать такого не пробовал, появились сомнения, что имеет смысл в принципе. Модели развиваются быстро, если я сделаю годный тюн - через месяц придётся делать его на базе новой модели. Деньги, силы и т.д не бесконечные.
>писал про большой
Когда у тебя 36 gb vram, а шиза нашёптывает, что ниже Q4 только говняк - особо не разыграешься.

Аноним 14/10/24 Пнд 21:35:19 #143 №918391

Играюсь второй вечер с дообученным квен 2.5 14в, эта штука умнее меня
Где то недалеко от 32в по ощущению
В качестве ассистента для меня идеален, квант 5кл
Это тот в который дистиллировали квен2.5 72в и ллама 3 405в
Ват а тайм ту би лив
Русский у него пострадал не особо сильно, кстати

Аноним 14/10/24 Пнд 21:41:58 #144 №918408

>>918391
https://www.reddit.com/r/LocalLLaMA/comments/1g1s0vz/supernovamedius_qwen2514b_distilled_from/

Аноним 14/10/24 Пнд 21:49:11 #145 №918426

Кто-то реально гонял новый Mistral Small, что по ощущениям? Насколько сильно отличается от Немо и стоит ли переходить?

Сижу на оригинальном Немо в 8 кванте, файнтюны в рот ебал из-за их непредсказуемости и потоков бреда.

Аноним 14/10/24 Пнд 21:59:04 #146 №918434

>>918426
>Small
Вряд ли лучше Large, так что какой смысл?

Аноним 14/10/24 Пнд 22:03:44 #147 №918439

>>918434
Нихуевую базу ты выдал, братан. То что модель на 123B лучше модели на 22 без тебя бы я никак не понял.

Аноним 14/10/24 Пнд 22:15:48 #148 №918445

>>918426
Немного его гонял когда вышел, не рп ерп.
Как то слабее чем немо показался. Он жирнее, знаний в нем больше.
А вот по мозгам не впечатлил.

Аноним 14/10/24 Пнд 22:27:57 #149 №918453

>>918445
Благодарю. Я тут тоже немного покопался по отзывам и большинство пишут, что Немо попизже будет, особенно в рп.

Аноним 15/10/24 Втр 00:59:17 #150 №918524

Есть ли смысл возиться с локальным билдом llamacpp под винду или лучше просто ставить koboldcpp?

Аноним 15/10/24 Втр 02:51:33 #151 №918557

>>918524
Если тебя не устраивает кобольд, можешь в целом весь бек под себя собрать, документации навалом. Но так кобольд говно говном конечно, но работает, так что сползнать с него не вижу смысла.

Аноним 15/10/24 Втр 03:01:34 #152 №918560

>>918241
Если у тебя есть хоть малейший опыт в разработке и верстке, это всё можно сделать за вечер-два под банками адреналина. К тому же сейчас, когда на любой твой дегенеративный вопрос может ответить бесплатная чат гопота и вообще написать за тебя половину фронта - тебе останется тупо довольно урчать и переписывать текст из окошка чата в визуал студио.

Да, все равно придется поебаться с отладкой и оптимизацией дополнительные пару дней, ибо код будет кривой, но... блять это ебаный ксс и хтмл. Кому не похуй на производительность.

Аноним 15/10/24 Втр 03:11:25 #153 №918562

>>918560
Ладно, там еще немного придется ебаться с джвадристом, но js программисты не люди, там планка изначально занижена ибо никто от них ничего хорошего не ждет.

Аноним 15/10/24 Втр 04:43:39 #154 №918572

>>918408
Попробовал Q8, выглядит интересно. Особенно по коду. На моем говне еле скрепит, но работать работает.

Аноним 15/10/24 Втр 06:01:40 #155 №918580

>>918524
llama.cpp чуть быстрее кобальда, по крайней мере у меня. Там всегда свежие релизы, качать и запускать муторно, да.
Но написать скрипт закачивающий последний релиз и досиающий оттуда в нужную папку нужный файл сервера - не трудно. Попроси сетку помочь, или тупо ручками иногда обновляй.
Запускать сетки можно так же батником, там буквально одна строка

Аноним 15/10/24 Втр 07:17:17 #156 №918586

>>918580
А что на счет обратной совместимости со старыми моделями? В гайде встречал упоминание, что ллама скачет вперед?
Держать по 10 ллам под разные полюбившиеся модели?

Аноним 15/10/24 Втр 07:23:10 #157 №918587

>>918586
Старые это какие? Все модели за пол года-год работают вроде.
Ну кобальд держи рядом, если что то старое запускаешь, вот проблема

Аноним 15/10/24 Втр 12:26:59 #158 №918663

>>917615
у меня амуде сборка 7900xt 20гигов вэрамы ROCm топчек LLM до 32млрд летают дальше пздц такойже 1.5токена\персеконд (а ведь у них ещё ж есть хтхтхтх с 24гб врамы) вот и думай что покупать куртка нах идёт if u ask me)

Аноним 15/10/24 Втр 13:06:03 #159 №918690

>>918586
> совместимости со старыми моделями?
Назови когда в последний раз она требовалась? Фана ради пигму погонять можно и в полных весах/gptq или иметь отдельную версию для подобного.
>>918663
> до 32млрд летают
Насколько летают?
> куртка нах идёт
Ну так собирай на амд, расскажешь нам насколько весело и какие подводные. С точки зрения юзер экспириенса там скорее всего днище, но с пердолингом и компромиссами должна быть возможность получить норм работу как на теслах

Аноним 15/10/24 Втр 13:13:13 #160 №918695

>>918690
>Ну так собирай на амд, расскажешь нам насколько весело и какие подводные.
По идее в новых сериях АМД уже будут поддерживаться какие-то нейротехнологии. Вопрос в том, что карты от них с хотя бы 24гб врам будут нифига не дешёвыми. Даже последнее на сегодняшний день поколение нифига не дешёвое и вполне сравнимо по цене с нвидиевскими картами. А тогда нахуязачем? Собирать же нейросервер на АМД-шном старье очень уж специфическое удовольствие. Правда со стороны я бы поглядел.

Аноним 15/10/24 Втр 13:18:14 #161 №918700

Запустил c4ai-command-r-08-2024.Q5_K_M.gguf и довольно урчу, правда параллельно занимаясь другими делами, ибо генерация ответа в среднем занимает три минуты плюс-минус.

В рп пока не пробовал, но на вопросы по составлению собственно промтов и переписать текст так чтобы он был более понятен как промт отвечает хорошо и развёрнуто.

Аноним 15/10/24 Втр 13:27:42 #162 №918703

https://www.reddit.com/r/LocalLLaMA/comments/1g3tjx8/zamba27b_apache_20/
Новая мамба сетка на 7ь

>>918700
Так сколько генерация? 3 минуты могут и сто и тысяча токенов быть в ответе.
В таких размерах по мозгам qwen2.5 32b лучше всех, в рп уже хз

Аноним 15/10/24 Втр 13:37:42 #163 №918716

>>918695
>сравнимо по цене с нвидиевскими картами
Зашёл в три буквы. Топ амудэ в моей мухосрани подорожал с 90к до 120к, зелень со 140к до 250к. Была разница в ~1.5 раза, стала в 2 за тот же объём врам.

Аноним 15/10/24 Втр 13:39:00 #164 №918719

>>918703
В кобольде, стоит максимум 512 токенов лимит на ответ. Скорость и колество токенов конкретно он вроде не показывает.

Аноним 15/10/24 Втр 13:41:59 #165 №918722

>>918716
если тебе только память важна, просто купи эпл

Аноним 15/10/24 Втр 13:46:07 #166 №918727

Есть ли модель переводящая с китайского/японского на русский лучше чем deepl?

Аноним 15/10/24 Втр 13:49:37 #167 №918729

>>918719
в консоли писал на сколько помню

Аноним 15/10/24 Втр 13:55:20 #168 №918732

>>918690
на глаз быстро не слайд шоу

Аноним 15/10/24 Втр 14:00:14 #169 №918736

>>918690
уже собрано всё давно, но крутить кручу тока оламу+опенвебуй для её, недавно запилил СД первой версии по двухлетнему видосу тож генерирует картинки, как прикрутить новую хз, всё что из шапки ето не понтднимал чёт не разобрался как там ето всё дело а может дело в амуде что там через одно место всё

Аноним 15/10/24 Втр 14:11:26 #170 №918747

>>918729
Нашёл, 20-30 токенов в секунду, разное на каждом промте.

Аноним 15/10/24 Втр 14:13:56 #171 №918752

>>918722
В трёх буквах 64 ГБ за 480к. Чуть лучше nvidia, но хуже амудэ.

Аноним 15/10/24 Втр 14:21:28 #172 №918757

>>918736
Что именно собрано?
> оламу
Зачем этот треш без удобства и перфоманса, единственное завелось?
> СД
А там сколько итсов выдает?
>>918747
Это десяток-другой секунд на ответ а не минуты. Если же это обработка промта а не генерация то все сходится.

Аноним 15/10/24 Втр 14:22:36 #173 №918760

Есть сейчас что-то более умное/приспособленное для кума чем л3-70б эриала? На русек пох, лишь бы за 70б не вылезало.

Аноним 15/10/24 Втр 14:41:07 #174 №918771

>>917491
Потестил немного на ванильной Mistral small и Cydiron 1.0, по-моему лютая годнота. Лично для меня поднимает РП на совершенно новый уровень. Мне нравится "реалистичный" РП и с ним персонажи ведут себя намного более осознанно, понимают происходящее и задумываются о последствиях. Персонажи следуют своим карточкам намного точнее, чем при обычном промте.
Для кума да, скорее всего ничего не даст, больше навредит. Персонажи даже с РП-файнтюнами теперь не бросаются на первый встречный хуй, если об этом явно не указано в их карточке.

Аноним 15/10/24 Втр 14:49:38 #175 №918776

>>918771
>намного точнее, чем при обычном промте

А чем необычен промт который ты сейчас юзаешь?
И какой именно "обычный" работает хуже?

Аноним 15/10/24 Втр 17:49:17 #176 №918899

Чем вообще объясняется такое количество требуемой врам и вес моделей?
Будут ли в ближайшем нейробудущем модели 100+b с весом в 4 гб например?

Аноним 15/10/24 Втр 18:07:01 #177 №918910

>>918899
Только квантованные. Рассматривай это как архиватор с потерями.
Ниже квант - лучше сжатие, выше потери.

Аноним 15/10/24 Втр 18:11:37 #178 №918912

>>918899
b=billion, миллиард. На один параметр по дефолту 16бит, квантануть чтобы норм можно до ~4бит, сколько это весит можешь посчитать сам. Чтобы уместить 100б в 4 гига там выйдет около 0.3бита на вес.
Жадность свою имаджинировал?

Аноним 15/10/24 Втр 18:21:06 #179 №918919

>>918912
>выйдет около 0.3бита на вес
>Жадность свою имаджинировал?
В треде тихо хихикают колобки которые катают модели на втором кванте.

Аноним 15/10/24 Втр 18:24:46 #180 №918925

>>918919
А зачем это делать? 12б на 6 квантах гораздо адекватнее обрубков.

Аноним 15/10/24 Втр 18:31:13 #181 №918931

image

Какие настройки сэмплеров юзаете? С динамической температурой смог добиться от коммандера сложного рп (обычного, на ерп не тестил пока) в котором он нарраторит и контролирует ряд уникальных неписей, при этом не говоря за игрока и поддерживая указанный сеттинг и детали, стили речи и поведения.

Я аж приху-ху-ел от его перформаса и пассажей, в положительном смысле.

Аноним 15/10/24 Втр 18:31:48 #182 №918932

>>918925
Кто знает, кто знает. Тут надо спрашивать у тех анонов, которые этими извращениями занимаются. Но я думаю они знают что-то чего не знаем мы.

Надо кстати потестить большой мистраль на двух битах, всего 40 гигов весит, вполне терпимо.

Аноним 15/10/24 Втр 18:33:36 #183 №918933

>>918931
>Какие настройки сэмплеров юзаете?
Разные. Или ты нашел какую-то универсальную смесь и собираешься ей с нами поделиться?

Аноним 15/10/24 Втр 18:35:53 #184 №918937

>>918931
Это литературно от модели зависит, анон. Я пользовался какими-то ебанутыми файнтюнами, где температура 4 была нормой. На магнуме советуют 0.4, хотя мне он начал нравиться только от 1+
Лучше бы инстракты интересные притащил.

Аноним 15/10/24 Втр 18:40:09 #185 №918939

>>918931
В целом если модель норм - simple-1 хватит всем. Исключая варианты где адово вжаривают температурой тупые сетки с крутым распределением чтобы получить какое-то разнообразие, эта вещь довольно эфемерна и рандомна по своей сути, от юзера и остального зависит гораздо больше.
>>918937
> где температура 4 была нормой
Если применять ее в конце когда осталось 4 однотипных токена - так и будет.

Аноним 15/10/24 Втр 18:47:11 #186 №918945

>>918925
12б обрубок сам по себе, так что спорно

Аноним 15/10/24 Втр 18:49:34 #187 №918946

>>918760
Лучше него не нашёл. Советовали квен, но мне не зашло, L3.1 70B самый умный по повествованию

Аноним 15/10/24 Втр 18:51:22 #188 №918947

>>918919
Я на третьем гоняю, по факту 3,5, но это 123B.

Аноним 15/10/24 Втр 19:14:49 #189 №918967

>>918933
>>918937
Вон же, они, на скринах.

Код нарратора помогал писать сам же это коммандер сегодня, это уже не двести токенов конечно, но да, надо потестить на других моделях.

Код самого нарратора - https://pastebin.com/ZaxUnpft

Аноним 15/10/24 Втр 19:54:06 #190 №919004

>>918391
Скачал ради интереса, задал два вопроса по кодингу. В одном он заявил, что предоставленный код не будет работать, хотя он работает, потом начал упорно настаивать переделать логику кода, в примере был трединг, он начал затирать про асинхронность, хотя я сразу же указал, что в данном случае меня интересуют потоки. По другому вроде ок всё, осилил.

Олсо, как же хуёво, когда забиваешь на работу каких-то механизмов и думаешь, что it just works. Взял реальный ответ нейросети и сравнил с результатом детокенизированного текста ответа, обёрнутого в чат темплейт и потом токенизированного заново. Конечно же количество токенов не совпало. Я должен был понимать, что так и будет, но даже не задумывался, ожидая какого-то постоянства.

Аноним 15/10/24 Втр 20:11:22 #191 №919009

>>919004
А на фоне обычной qwen2.5 14b?
Про токены не понял, механизм токенизации кривой? Косяк таверны или бекенда?

Аноним 15/10/24 Втр 21:27:28 #192 №919045

Ох, ёбушки-воробушки, намутил лютую смесь сеттингов из Accel World и Honkai Impact 3rd, и коммандер честно, и даже более-менее успешно пытается ему следовать, выдавая когерентные простыни по несколько сотен токенов на сообщение, причём даже без свайпов.

Характерную для хонкая жестокость правда не любит, и пытается соскочить с эксплисит контента на что-нибудь более безобидное, хз это цензура, биас, или как такое зовётся.

Аноним 15/10/24 Втр 21:32:44 #193 №919050

>>919009
>механизм токенизации кривой
Притом в самой сути концепции. И это не лечится.
>>919045
>биас
Он самый. Будь положительным, сука.

Аноним 15/10/24 Втр 22:21:46 #194 №919085

>>919009
>А на фоне обычной qwen2.5 14b?
Честно сказать - хуй знает. Я из 2.5 пробовал только 32b и в той паре примеров, что пробовал, они с этой моделью плюс-минус на одном уровне. То есть вроде как и понимают, что требуется, но не оптимально и пытаются пропихивать то, чему их обучили вместо того, что от них требуется.
>Косяк таверны или бекенда?
Косяк самой системы токенизации. Нейронка может сгенерировать слово хоть по буквам, хоть по слогам, как угодно, как она умеет. Потом мы это декодируем в цельное слово. И если потом его обратно токенизировать, то механизм пытается это скомбинировать так плотно, как только он может. Например, генерируется слово "залупа". Побуквенно нахуй, хуй знает, почему. Всякое бывает. Итого у нас 6 токенов. Загоняем залупу нейронке за щеку в токенизатор, а там уже есть токен "залупа". И она токенизируется в один токен.
Я своих скриптах вёл подсчёт токенов, для сообщений от user всё просто, т.к нет кодирования-декодирования, а для сообщений от нейронки нужно принимать то, что она сгенерировала, вместо прогонов туда-сюда. Либо каждый раз скармливать в неё не только новое сообщение от user, но и её предыдущий ответ. Не забывая дропать из кеша kv то, что она ответила в прошлый раз. В первом варианте перерасход контекста где-то процентов 15, а вот второй быстрее.
Попробовал вместо поиска расхождений в истории и т.д. явно и очевидно отправлять в нейросеть только сообщение пользователя, получил до 90 т.с там, где в убе до 37. Это пиковые скорости, конечно, на небольшом контексте и генерации относительно длинных сообщений, на коротких разница ниже. Но тем не менее, минимальный буст аж 2 токена, 22 т.с вместо 20, лол.
Ещё что откопал в квене, правда, на втором, если ему в рандомном месте скормить EOS, а потом заставить продолжить генерацию, он галлюцинирует сообщение от пользователя как "<|im_start|> Human\n Continue" и т.д. При том, что в чат темплейте никакого Human нет, там user. Нейросеть считает, что темплейт должен быть другим.

Аноним 15/10/24 Втр 22:34:46 #195 №919094

>>919085
>В первом варианте перерасход контекста где-то процентов 15, а вот второй быстрее.
В смысле, второй медленнее.

Аноним 15/10/24 Втр 22:34:59 #196 №919095

>>919045
Когда-нибудь я куплю видюху с дохуя гигами и запузу что-то больше Росинанты.

Аноним 15/10/24 Втр 22:39:36 #197 №919099

>>919085
Понял, этой хуйне с токенизацией действительно не хватает стабильности значений. Сохранять бы сгенерированные токены сетки и отпрвлять их обратно. Интересно почему это не сохряняют вместе с контекстом.
С другой стороны сетки ведь как то сопоставляют одно и то же слово с одним смыслом, независимо от того как много вариантов его составления есть.

Аноним 15/10/24 Втр 22:48:42 #198 №919102

>>919099
> и отпрвлять их обратно
Их не нужно отправлять обратно. Каждый токен после того, как он принят семплером, как годный - отправляется в нейросеть сразу же. Как иначе она бы могла узнать, что пора генерировать "упа" после "зал". И всё это уже есть в контексте нейросети, только не в той портянке, которую гоняет фронт, а в настоящем кеше, в kv. Для генерации теста, в целом, разница-то минимальная должна быть, смысл один и тот же. Не бывает же такого, чтобы нейросеть реагировала по-разному на одно и то же, но написанное разными словами, да? Ведь не бывает?
Более глубокая проблема здесь другая. Всю портянку гонять нужно только в одном случае - когда у тебя загружается история существующего диалога, в ходе беседы её гонять не нужно.

Аноним 15/10/24 Втр 22:51:17 #199 №919104

>>919102
>Не бывает же такого, чтобы нейросеть реагировала по-разному на одно и то же, но написанное разными словами, да?
Сарказм, да?

Аноним 15/10/24 Втр 23:02:59 #200 №919109

>>919102
Так а в чем проблема та сделать не через жопу? Сорян анон, я плаваю в том как бек все считает

Аноним 15/10/24 Втр 23:14:55 #201 №919116

Если поставить второй видяхой под систему радеон 7850, он ничего своими дровами не сломает?

>>919102
>Каждый токен после того, как он принят семплером, как годный - отправляется в нейросеть сразу же.
Таки а выводы у тебя какие? Эта хуйня нигде не фиксится сейчас в локалках?
Собери токены с выхода, раскрась скриптом, посравнивай с ретокенизированным, чтоб наглядно было. Можно попросить ллм нагенерить бенчей, и сравнить два варианта инпута. Если обучают всегда на жадной токенизации, наверное разница должна быть видна.

Аноним 15/10/24 Втр 23:45:16 #202 №919128

>>918776
Я неверно выразился. Имел ввиду с расширением и без. Касаемо промта я использую вот эти -https://huggingface.co/MarinaraSpaghetti/SillyTavern-Settings/tree/main

Аноним 15/10/24 Втр 23:55:54 #203 №919131

>>919004
> Конечно же количество токенов не совпало.
На что ты вообще рассчитывал? Токенизация оптимизирована на минимальный расход токенов и максимальную эффективность. Сетка при особо удачной работе и пахомовских семплерах может тебе чуть ли не буквенными токенами начать отвечать.
>>919085
> Либо каждый раз скармливать в неё не только новое сообщение от user, но и её предыдущий ответ. Не забывая дропать из кеша kv то, что она ответила в прошлый раз.
У тебя по дефолту в кэше остается ответ, если его не трогать это будет наиболее быстро.
> Попробовал вместо поиска расхождений в истории и т.д. явно и очевидно отправлять в нейросеть только сообщение пользователя, получил до 90 т.с там, где в убе до 37.
Интересно что там измеряешь, ведь по дефолту в бэке идет сравнение детокенизированного текста с промтом и переобработка кэша происходит только с места несовпадения текста, а не токенов.
> он галлюцинирует
Не галлюцинирует а пытается продолжить следуя формату. Но кстати, частично это может быть следствием того что при обучении пары промт-ответ были нарезаны не идеально. Насчет human - проверь не будет ли меняться на разных промтах.
>>919099
>>919116
Они и так сохраняются и ничего фиксить не нужно. Не придумывайте проблему там где ее нет.
>>919102
> Не бывает же такого, чтобы нейросеть реагировала по-разному на одно и то же, но написанное разными словами, да? Ведь не бывает?
Хорошие вопросы задаешь. Но скорее всего за семплингом этот эффект будет вообще не разглядеть.

Аноним 15/10/24 Втр 23:59:09 #204 №919134

>>919102
> Всю портянку гонять нужно только в одном случае
Когда ты хочешь использовать нормальный инстракт формат а не пахомовский чат, который сдохнет уже через пару десятков сообщений. Даже в чатмл стараются оформить в инструкцию всю последовательность и историю сообщений, и в целом это работает лучше чем пытаться разделять каждый пост. И это не говоря о дополнительных запросах.
То что в начале пройдет сверка кэша на фоне всего прочего вообще не вносит вклад во время генерации, зато значительно облегчает саму концепцию обращений к бэку.

Аноним 16/10/24 Срд 00:54:17 #205 №919167

>>919104
Попробовал эту модель и чет не впечатлен. Шизит даже просто при температуре , какой то бредогенератор. Попробовал и ггуф и exlhttps://huggingface.co/SicariusSicariiStuff/LLAMA-_B_Unaligned_BETAМожет у меня семплеры не те выставляются? Кто разбирался с этой моделью?

Аноним 16/10/24 Срд 01:19:03 #206 №919173

>>919104
Большей частью. Но анон, который говорит, что за семплингом будет не заметно, скорее всего, прав.
>>919109
То, что все бэки и фронты работают в другом режиме и нужно либо учить их работать в том режиме, который я хочу, либо писать новые.
>>919116
>Эта хуйня нигде не фиксится сейчас в локалках?
А фиксить нечего, по большей части. Всё работает в пределах нормы.
>Собери токены с выхода, посравнивай с ретокенизированным
Да я и так сравнил, детокенизированный на 15% меньше в среднем. Дальше этого сравнения не заходили.
>>919131
>На что ты вообще рассчитывал?
Да ни на что, просто, как и писал - забил хуй и не думал об этом вообще. А потом как подумал, когда размер токенизированной истории разошёлся с текстовым логом хуй знает на сколько токенов.
>Интересно что там измеряешь
Запустил убу, посмотрел время генерации для сообщений до сотни токенов, больше сотни токенов, прикинул среднее. В общем-то, всё.
> за семплингом этот эффект будет вообще не разглядеть
В целом да, но эффект всё-таки есть, перефразирование работает. Хотя влияние формулировки одного и того же разными токенами вряд ли можно хоть как-то измерить. Однако же и общение с нейронкой на разных языках это всего лишь выражение того же самого другими токенами. Да, это совсем-совсем другие токены, но они же все переводятся в векторное пространство, а дистанция между "I'm fuckin' you" и "Я тебя ебу" должна быть ничтожно мала.
>>919134
>использовать нормальный инстракт формат
Я боюсь ты не понимаешь, как это работает. Оборачивать всю историю в одно сообщение или нет - это не важно, это делается в бэке за десяток строк кода. Да даже uuid к каждому сообщению прикрепи и жизнь станет проще в 10 раз. Но нет, этот апи должен быть максимально всрат, чтобы хуже него не существовало в принципе.

Аноним 16/10/24 Срд 01:31:24 #207 №919181

>>919173
> перефразирование работает
Булджадь, прочитал это как "одно и то же, но написанное разными токенами". Со словами ясен хуй будет разный эффект, однако тоже не столь существенно если юзер не проебался с двойными смыслами.
> Я боюсь ты не понимаешь, как это работает.
Чел плиз.
> делается в бэке за десяток строк кода
А еще можно сделать троллейбус из хлеба. Фронт делает свое, бэк делает свое. Смешивать их, перегружать или пытаться делать странные вещи с ничтожным выигрышем и вагоном подводных камней - идея очень плохая.
> этот апи должен быть максимально всрат
Что в нем всратого, наоборот максимально удобен, понятен и отказоустойчив. Сейчас бы во фронте отслеживать что там хранит бэк, синхронизировать идентификаторы сообщений и обсираться на каждом изменении, маразм ебаный.

Аноним 16/10/24 Срд 02:01:53 #208 №919195

>>919181
>"одно и то же, но написанное разными токенами"
И "I'm fuckin' you" и "Я тебя ебу" - одно и то же, записанное разными токенами. Как и "Я тебя ебу" токенизированное по буквам, по слогам или по словам - то же самое, записанное разными токенами.
>А еще можно сделать троллейбус из хлеба.
Вот текущий апи это даже не троллейбус из хлеба, это троллейбус из каловых масс.
>наоборот максимально удобен
Он говно в каждом из аспектов. Подойди к здравомыслящему кодеру и скажи, что у тебя состояния высчитываются по сравнению строк на несколько десятков килобайтов. С каждым запросом. Он тебе в лицо рассмеётся, потому что не поверит, что есть настолько ебанутые люди. Можно это заменить на идентификатор в пару байт? Да, можно. Ну да, это будет быстрее в миллиард раз, но у нас же один хуй генерация долгая, на общем фоне не заметно. И такой хуйни - как снежный ком. Можно генерировать без реэвалюации промпта? Ну да, можно, но генерация же один хуй долгая. Ой, суммарные задержки уже больше времени генерации? Пора купить 5090, деваться некуда. И ещё проц поновее. Ебанутые.
>синхронизировать идентификаторы сообщений
А с хуёв фронт должен что-то синхронизировать или отслеживать? У него есть то, что он получил от бэка, это вся информация, которая нужна. Что-то высчитывать, что-то синхронизировать, работать с промпт форматом - это вообще не задача фронта, он не для этого существует, это как раз и есть куличики из говна.

Аноним 16/10/24 Срд 02:05:07 #209 №919196

А почему мистраля 7b в шапке нет?

Аноним 16/10/24 Срд 04:00:05 #210 №919220

Почему фул контекст может загружаться через сообщение?

Аноним 16/10/24 Срд 07:15:17 #211 №919239

ArliAI-RPMax-12B-v1.1 в ERP вполне норм шпарит, слабее чем коммандер, зато легче "входит во вкус". Способна контролировать несколько неписей, но всё же склоняется к одному/двум гг и остальные на подсосе.

Аноним 16/10/24 Срд 08:17:39 #212 №919258

>>919196
Потому что устарел?

Аноним 16/10/24 Срд 08:28:35 #213 №919259

Хз как у вас на мелких сетках, а я вот попробовал все что мог уже и пришел к выводу что 8X7b мистралевская с файтюном Crunchy Onion так и осталась лучшим вариком для хоть какого то рп в этом единообразии моделей похожих одна на другую. В ней во первых нет засилия глинтов (Хотя автор говорит что юзал Lima RP вот этого не понимаю, может мистраль все же засунули чет интересное в парочку из 7B). Во вторых чето все таки сетка пытается развивать исходя из описания карточки. Не всегда логично, отчасти это из-за Q3. Скорость на любителя, до 100 сек на ответ. Ну нет сил уже просто терпеть все эти моргания, сморкания персов и слов Whaaat are you doing user. Пришлось вернуться на этого динозавра.

Аноним 16/10/24 Срд 08:38:33 #214 №919263

>>919195
> Вот текущий апи это даже не троллейбус из хлеба, это троллейбус из каловых масс.
Ну давай нормально аргументируй чтоли.
> Подойди к здравомыслящему кодеру и скажи, что у тебя состояния высчитываются по сравнению строк на несколько десятков килобайтов. С каждым запросом.
Добавь что каждый запрос может быть уникальным и с разных источников, количество запросов пренебрежимо мало, а время обработки каждого оче большое. И он рассмеется с твоего детского максимализма и выдуманных проблем, а текущее решение назовет оптимальным.
> суммарные задержки уже больше времени генерации
В каком маразме нужно быть чтобы такое придумать?
> У него есть то, что он получил от бэка
О, теперь бэк у нас заведует форматированием промта и под него должен подстраиваться фронт, одна идея ахуительнее другой.

Аноним 16/10/24 Срд 08:40:37 #215 №919264

https://www.reddit.com/r/LocalLLaMA/comments/1g4dt31/new_model_llama31nemotron70binstruct/

Аноним 16/10/24 Срд 08:42:34 #216 №919266

1575163135465.mp4

>>919264
> 70b

Аноним 16/10/24 Срд 09:15:10 #217 №919271

>>918757
>олама
>Зачем этот треш без удобства и перфоманса

вот бл треш да а ета хуита text generation web ui даже бля модели не скачивает говорит что ты попутал дядя 401 Unauthorized

Аноним 16/10/24 Срд 09:17:20 #218 №919272

>>919271
какие то бля акаунты-хуяунты нужны https://github.com/oobabooga/text-generation-webui/issues/5146#issuecomment-1877773715

ав етой оламе бля нажимаеш и оно работает сразу без хуйни

Аноним 16/10/24 Срд 09:20:38 #219 №919274

>>919272
>>919271
База.
webui еще и выглядит как высер васяна.
Тупа пацанская пятерка которую обвесили колхозанским тюнингом

Аноним 16/10/24 Срд 09:24:46 #220 №919275

nushtoetoblya.jpg

>>919272
пздц https://www.youtube.com/watch?v=X7yLNBRql1E

Аноним 16/10/24 Срд 09:33:45 #221 №919280

>>919274
this

Аноним 16/10/24 Срд 10:24:55 #222 №919301

Анончики, какая самая норм для кодинга модель под Теслу Р40? желательно чтобы полностью входила в память теслы, включая контекст

Аноним 16/10/24 Срд 10:44:08 #223 №919304

>>919301
Ты сильно усложнил свой вопрос тем, что вместо количества врама указал рандомную модель в надежде, что анон не только знает ответ на твой вопрос, но еще и не поленится прогуглить недостающие данные. Даже я не знаю, поддерживает ли этот огрызок что-либо кроме ггуфа, так что надеюсь, что ты обязательно найдешь ответ.

Аноним 16/10/24 Срд 10:46:55 #224 №919306

>>919304
Ох милостливый анончик надеюсь ты не обиделся. Давай я тебе скажу сколько врама в п40.
24 гигабайта.
Теперь ты подскажешь модельку? Спасибки :3

Аноним 16/10/24 Срд 10:51:57 #225 №919309

>>919306
ехл2 тянет?

Аноним 16/10/24 Срд 11:07:43 #226 №919315

>>918013
>rinna
Как подключить это к таверне и заставить ТТСить на русском?

Аноним 16/10/24 Срд 11:11:42 #227 №919324

>>919301
>не знает про P40
Лол, не знал что тут такие водятся.

>>919309
>ехл2 тянет?
Нет. Да и какое это имеет значение? Проще модели имеющие gguf версию, но не имеющие exl2, чем наоборот.

Аноним 16/10/24 Срд 12:35:00 #228 №919410

>>919324
Да и какое это имеет значение?
Абсолютно. Модели, которые с контекстом поместятся в 24гб врам на P40 будут летать. Вплоть до Mistral Small Q6K например.

Аноним 16/10/24 Срд 12:41:36 #229 №919416

>>919271
>>919272
>>919274
Бедолага не прошел тест на тупость, бывает.
>>919301
Лучше указывай размер который готов терпеть. Квены попробуй, они вроде ничего.
>>919324
> Проще модели имеющие gguf версию, но не имеющие exl2, чем наоборот.
Ты только что гранату.

Аноним 16/10/24 Срд 12:42:57 #230 №919419

>>919410
>18гб влезут в 24гб
ты такой умный, напиши ещё что-нибудь
))

Аноним 16/10/24 Срд 14:16:10 #231 №919528

>>919263
>а время обработки каждого оче большое
Сгорел сарай, гори и хата, хули. И так долго? Нужно ещё дольше. Ладно, я понял, что ты абсолютно не понимаешь ситуацию, не понимаешь, как это работает и перешёл на троллинг тупостью.

Аноним 16/10/24 Срд 14:21:12 #232 №919532

>Cydonia-22B-v1
Пока, наверное, самое противоречивое из всего, что пробовал. Сам тюн неплох, но глинтов и заряженного воздуха хоть ложкой жри. Прям чувствуется, на чьём датасете тюнили.

Не понимаю, почему никто не сделает тюн с целенаправленной попыткой выкорчевать нахуй как можно больше слопа. Делали же раньше модели, где вырезали министрации, почему нельзя пойти дальше.

Аноним 16/10/24 Срд 14:23:35 #233 №919533

>>919416
>Квены попробуй
Если ничего лучше аноны посоветовать не могут, то ок.
Надеялся встретить тут других обладателей 24 Гб врам, которые крутят в этой памяти модели для кодинга и могут посоветовать конкретный дистрибутив и квант, но что поделать

Аноним 16/10/24 Срд 14:26:07 #234 №919539

>>919532
так форсят же какой-то unslop

Аноним 16/10/24 Срд 14:57:01 #235 №919576

>>919539
Да не поможет он. Я уже говорил как то.
Попробовал антислоп прямо в кобольде Заебся банить заезженные фразы. Из хорошего работает на 100 процентов. Из плохого сетка старается заменить заезженную фразу другой заезженной фразой не глаза так глинт не глинт так 👃 когда я все заезженное перебанил. Они хули хотят когда обучают на наших рп датасеты. Да и вообще на рп обучать модели это грех.

Аноним 16/10/24 Срд 15:13:38 #236 №919600

>>919528
Чувак, не обижайся, но твои заявления выглядят буквально как
> ррряяяяяя моя гениальная идея позволит сэкономить 0.097 секунды из десятков секунд ценой усложнения всего и вся, а ну быстро делайте!

> не понимаешь, как это работает
Чувак, тут буквально картошка-алмаз.жпг. Понимаю сильно больше твоего, и потому нахожу абсурдной эту одержимость оптимизацией какой-то херни с порождением кучи сложностей ради ее решения.
>>919532
Да не особо делали, просто датасет был другим разбавлен и при полновесном обучении вместо лоры паттерны меньше запоминаются.
Это же нужно хорошенько переобработать весь датасет, что требует анализа, написания инструментария и прочего. Зачем такие сложности если можно накачать дампы и хуяк-хуяк лору в продакшн. Многие из тех кто раньше делал "годные" сетки сейчас сильно увлеклись новомодными штуками и прежде всего заботятся об их внедрении, чем о расширении рп части датасета.
>>919533
Здесь вариантов особо нету если хочешь все в врам уместить, мистраль22, квен и гемма. Дипсик кодер попробуй еще, но они упоролись огромными размерами и моэ.
Опять же, многое от конкретики что именно хочешь кодить зависит, с некоторым только к клодыне или каким-то специализированным. В пихон любая уважающая себя сетка умеет, но актуальные вещи под мл замечены разве что у дипсика и намек у мистраля.

Аноним 16/10/24 Срд 15:24:25 #237 №919613

>>919532
>самое противоречивое из всего, что пробовал
Как раз сегодня гонял и эта модель ебёт даже в 5том кванте.
В хорошем смысле, может в ерп, может в эксплисит.
Глинтов и слопов особо не замечал как и сломанного построения фраз, Top-P 0.9, Rep-pen 1.1, динамическая температура 0.5 - 1.5, генерировала длинные по 300-500 токенов вролне связные и неоднообразные описание окружающего пиздеца (ну, тут карточка дистопического мира виновата). Свайпать приходилось довольно редко.

Сложно прям сравнить с остальными конечно где прям лучше или хуже, но могу сказать что она работает, а то попадались модели которые шизеют буквально с десятого сообщения, или вообще игнорят промт и будто выплёвывают куски датасетов.

Аноним 16/10/24 Срд 15:45:28 #238 №919637

>>919576
я про тюн, называется как-то так, не пробовал, но гуглится если что

Аноним 16/10/24 Срд 16:04:27 #239 №919671

>>913083 →
Спасибо, аноны, за наводку! Давно не заходил в треды, тому что на английском приелось, а на русском выдавало нечитаемый словесный винегрет. Но вот эта моделька - моё почтение. Прямо вернула меня обратно во времена незацензуренного Балабобы, и даже лучше.

Аноним 16/10/24 Срд 16:28:02 #240 №919699

>>919600
>с порождением кучи сложностей
Вот как раз в этом и дело. Это не усложнение, это упрощение, которое в качестве приятного побочного эффекта ещё и позволяет избавиться от абсолютно дебильных решений. А твои заявления про понимание просто смешны на фоне предыдущих сообщений, ты уже доказал своё отсутствие понимания.

Аноним 16/10/24 Срд 16:44:32 #241 №919719

Насколько велика разница между моделями 12b и 22+?

Аноним 16/10/24 Срд 16:47:52 #242 №919723

>>919671
Опять стволы и шпили, почему нейронка думает что "она обхватила моего мембера" услышать приятнее чем "она обхватила мой огромный жилистый хуй"?

Аноним 16/10/24 Срд 17:12:32 #243 №919763

>>919719
В одинаковых квантах - на дохера,
если очень упрощённо как между 120 IQ и 220 IQ.

Аноним 16/10/24 Срд 17:16:31 #244 №919768

>>919723
радуйся и этому, на русском большинство моделей охлаждают трахание

Аноним 16/10/24 Срд 17:38:25 #245 №919799

{36E2A090-4BB8-4C11-8218-EA0323DCD4A4}.png

>>919671
твое лицо когда тебя заставляют писать еще одну главу

Аноним 16/10/24 Срд 18:24:21 #246 №919842

>>919719
Это как дверной косяк, если у тебя низкий рост то ты никогда не заметишь разницу между дверями, так как не заденешь его головой
От твоего интеллекта и знаний зависит заметишь ли ты разницу между моделями, для кого то и 3b модель идеальный повседневный вариант или 2 квант большой сетки какой нибудь, кек

Аноним 16/10/24 Срд 18:31:33 #247 №919850

https://www.reddit.com/r/LocalLLaMA/comments/1g50x4s/mistral_releases_new_models_ministral_3b_and/
Новые модели от мистраля, скорей всего более соевые и цензуреные
Стеснительно не стали добавлять в бенчмарки qwen2.5, кек

Аноним 16/10/24 Срд 18:32:26 #248 №919852

Нет пекарни чтобы в живую пощупать как работают эти ваши силитаверны, а в говногайдах нихуя непонятно. Вот если я хочу помимо текста генерить в чате изображения мне достаточно будет купить 4080? Как я понял это минималка только для LLM, а если прикрутить SD то тогда памяти тупо не хватит на запуск обоих сеток? Или это проблема решена?

Аноним 16/10/24 Срд 18:37:00 #249 №919860

>>919852
Я собирал конфиг где текстовая модель автоматически выгружается чтобы освободить место под SD, генерилась пикча в чат и первая модель возвращалась на место. Но это добавляет задержку в ~10+10сек на каждое сообщение, считаю что лучше потерпеть и накопить на нормальное количество врама.

Аноним 16/10/24 Срд 18:39:06 #250 №919862

>>919860
А что генерить в чате каждое сообщение, спрайт что ли?

Аноним 16/10/24 Срд 18:43:22 #251 №919866

image.png

>>919862
Модель сама писала запрос к SD на основании того, что происходит в сцене. Можно и ручками, но зачем?

Аноним 16/10/24 Срд 18:45:25 #252 №919870

>>919860
Дак нормально это максимум 24 в 4090. Все равно ведь на обе модели не хватит если их действтиельно надо вместе грузить?
>задержку в ~10+10сек на каждое сообщение,
Тоесть даже если пикчи не генерить задержка все равно будет?
И на сколько оно сложно в настройке? Изи настройка как с коблодом и таверной или пердольиться?

Аноним 16/10/24 Срд 18:45:31 #253 №919872

>>919850
На 3B еще можно посмотреть, но восьмерка явно нахуй не нужна ибо есть немо.

Аноним 16/10/24 Срд 18:55:14 #254 №919879

>>919699
Что может быть проще текущей реализации? Даешь текст и параметры - получаешь его продолжение, предсказанное сеткой в соответствии с ними. Не хочешь соблюдать форматы и сложное не нужно - отправляешь массив сообщений с указанием какое от кого - бэк сам оформит их в стандартный формат модели и выдаст тебе новое сообщение.
У тебя же какой-то надмозг с частичной отправкой, хранением, какой-то лишней промтологикой в бэке. Это усложняет работу для простых задач или скриптов, которые по шаблону формируют промт и делают запрос, сохраняя результат. Это заставляет делать лишние запросы для примитивных чат интерфейсов, которые должны синхронизироваться с бэком каждый раз, и еще отслеживать не было ли внезапно какого-то другого запроса, который всю историю заменил на свою. То есть и так придется хранить все историю на случай ее сброса, но еще делать лишние манипуляции. Это совершенно не нужно в продвинутых интерфейсах, которые сами должным образом форматируют промт и позволяют делать дополнительные фичи и экстра запросы.
А теперь объясни в чем заключается твоя ахуительная идея, в чем ее инновационность и где преимущества, кроме тряски с того что ты ее "придумал" и горишь что ее критикуют а не восхваляют.
> твои заявления про понимание просто смешны
Аутотренируйся побольше а то штанишки упадут.
>>919852
> достаточно будет купить 4080
Да (нет). 4080 сама с трудом будет вмещать модели и 22б в нормальном - потолок, хотя будет гонять их очень быстро. Чтобы сгенерировать пикчу придется текстовую модель выгрузить, загрузить сд, выполнить, а потом обратно.
Но на самом деле подобная комбинация переоценена, хороших стабильно качественных картинок, что будут сопровождать каждый пост и будут в тему можно получить только для простых случаев, а пропердолишься с этим порядочно.
>>919870
> если пикчи не генерить задержка все равно будет
Текст будет появляться постепенно и сможешь читать пока генерируется.

Аноним 16/10/24 Срд 19:13:35 #255 №919909

images.jpg

>>919850
Ахахаха туда этих долбоебов накупивших видеокарт

Аноним 16/10/24 Срд 20:17:02 #256 №920003

>>919301
>какая самая норм для кодинга модель под Теслу Р40?
Бесплатная гемини. Влезает в целых, 0 гигабайт, и все равно будет лучше любой модели под твою теслу.
А на теслу ставь что-нибудь чисто под автокомплит.

Аноним 16/10/24 Срд 20:19:36 #257 №920008

Можно ли как-то посмотреть как распределяются токены перед генерацией? Я ебал рот крутить эти ползунки ходунки ебаные взад вперед, чтобы потом часами пытаться найти тот самый токен нахуй, который где-то отвалился и сменился на другой.

На некоторых моделях буквально хуй проссышь влияют твои параметры на что-то или нет. Я даже не могу банально понять, работает ли ебучий ХТС или нет, потому что вне зависимости от того включен он или нет, я получаю примерно одинаковые ответы в пределах погрешности и есть ощущение что нихуя не меняется.

Аноним 16/10/24 Срд 20:22:27 #258 №920010

>>920008
я все на 1 выставил и мне пахую ваще

Аноним 16/10/24 Срд 20:48:24 #259 №920028

Как понять какой максимальный контекст я могу выставить у модели? Или просто подскажите что ставить чтобы комп не взорвался. Модель Гемма2 9б, 16гб видеопамяти.

Аноним 16/10/24 Срд 20:52:23 #260 №920036

>>920003
>Бесплатная гемини
>гугл
Ты платишь своим анусом.
>>920028
>Модель Гемма2 9б
Квант какой, сука?
А вообще, просто экспериментируй.

Аноним 16/10/24 Срд 20:59:51 #261 №920050

>>920008
>Можно ли как-то посмотреть как распределяются токены перед генерацией?
Да, в таверне тыкаешь три полоски слева внизу и там тыкаешь вероятности токенов
Пишешь сообщение сетке и ее ответ появится в виде токенов, тыкая можно смотреть токены и даже выбирать нужные, с которых пойдет генерация
Там и смотришь как много семплеры оставляют

Аноним 16/10/24 Срд 21:07:16 #262 №920056

>>920036
> Квант какой, сука?
Q5_K_M простите я нубас совсем Я если честно даже понять не могу, может ли она в больше чем 8к контекста сама по себе. Буду экспериментировать, спасибо. Мне бы в идеале что-то с 10-12к контекста, скорость в 1-2 токена в секунду не пугает.

Аноним 16/10/24 Срд 21:08:28 #263 №920059

>>920050
Спасибо, был не в курсе. А эта хуйня работает при подсосе с кобольда?

Аноним 16/10/24 Срд 21:15:54 #264 №920069

maincharacter-card-builder-8927c8a0specv2.png

Sup!

Аноны, помогите, пожалуйста. Я недавно вкатился и пока не до конца разобрался с некоторыми моментами. Установил сеье SillyTavern + Cobold + Lamma3 , все работает ок , но есть проблемы -

- Многие боты, особенно те, которых я создаю сам, очень любят писать гигантские простыни текста и в этих простынях они умудряются отвечать за меня и делать что-то за меня, т.е. говорят от моего имени.

Как эту хуйню пофиксить? Я не против больших сообщений, это даже плюс наверное, но как им запретить писать от моего имени?

Добавлял в промпт карточки что персонаж говорит только от своего имени и тд, но это не помогает. От начала диалога проходит 3-6-7 сообщений нормальных и дальше бот начинает графоманить на простыни текста

Аноним 16/10/24 Срд 21:28:18 #265 №920084

>>920056
>Q5_K_M
Совсем жиденько я бы сказал, качай восьмой, и в кобольд, он сам ропу считает при превышении контекста модели.

Аноним 16/10/24 Срд 21:34:41 #266 №920094

>>920069
А ты думал это шуточки всё?
Этот пост тоже написан от твоего имени, а ты давно уже откисаешь в лимбе
покормил нейронку

Аноним 16/10/24 Срд 21:44:30 #267 №920114

>>919671
Нихуя не понял, так что за модель из списка ты юзал?

Аноним 16/10/24 Срд 21:51:11 #268 №920118

>>920084
Спасибо, так и сделаю! Добра.

Аноним 16/10/24 Срд 22:10:23 #269 №920134

>>920028
>16гб видеопамяти
>Гемма2 9б
>9б
>Q5_K_M
Кто-нибудь знает что это за болезнь?

Аноним 16/10/24 Срд 22:28:43 #270 №920149

>>920134
Я просто новичок совсем, анон, будь снисходителен. Какая-нибудь 27б в низком кванте, чтобы точно влезала в 16 гб, будет лучше? Я просто не знаю, как соотнести размер модели и размер контекста с размером видеопамяти, а 2-4к контекста мне недостаточно.

Аноним 16/10/24 Срд 22:45:11 #271 №920175

>>920149
>Какая-нибудь 27б в низком кванте, чтобы точно влезала в 16 гб, будет лучше?
Да, даже в кванте Q3_K_L гемма 27b будет ЗНАЧИТЕЛЬНО умнее 9b.

А тебе вот прям обязательно чтоб влезала полностью? Сама по себе моделька влезет, в вышеозвученном кванте она занимает 14.5 гб. Контекст не влезет, по мере его заполнения скорость будет немного падать, но все равно останется адекватной.

А с твоим объемом видеопамяти - я бы наверное Q4_K_M посоветовал. При полностью забитом контексте вангую скорость что-то около 5-6 т/с. Но поверь, 5 т/с на умной модели - куда лучше чем 20 т/с на тупенькой. ОСОБЕННО для рп. Да, и качать лучше не ванильную Гемму, а с аблитерацией - https://huggingface.co/QuantFactory/gemma-2-27b-it-abliterated-GGUF/tree/main

Гоняю 27b на 12 гигах, брат жив, зависимость есть

Аноним 16/10/24 Срд 22:46:56 #272 №920177

image.png

Я не понял, это вот этот позор и есть ваш хваленый mistral small? Иди может я чего-то не понимаю и настроил неправильно? Но я специально даже нагуглил правильный промпт темплейт.

Модель https://huggingface.co/LoneStriker/Mistral-Small-Instruct-2409-5.0bpw-h6-exl2

Аноним 16/10/24 Срд 22:53:54 #273 №920182

>>920177
>хваленый
>small
Я вот понял, где ты просчитался. А ты?

Аноним 16/10/24 Срд 22:55:02 #274 №920185

>>920177
>срусик
в сельской школе английский не преподавали?

Аноним 16/10/24 Срд 22:56:05 #275 №920186

>>920182

Большой в мои 24 гб видеопамяти не влезет.
А насчет того что это small - тут полтреда на немо дрочит, который вполовину меньше и все довольны.

Аноним 16/10/24 Срд 22:59:22 #276 №920189

>>920149
Че вы так дрочите на контекст?
Разве не лучше умная модель чем тупая но помнящая что тебе уже дрочили хуй пару сообщений назад

Аноним 16/10/24 Срд 23:00:26 #277 №920190

03twistedfamily.png

>>920114
https://rentry.co/llm-models
Lumimaid-Magnum-12B.Q4_K_M

Аноним 16/10/24 Срд 23:00:41 #278 №920191

>>920186
>Большой в мои 24 гб видеопамяти не влезет.
Я на 123 гоняю с 0,7 токенов, хули ты не можешь с вдвое большим?
>и все довольны
Относительность же. Они просто не нюхали больших моделей.

Аноним 16/10/24 Срд 23:01:28 #279 №920192

>>920177
Мелкие мистрали не умеют в русский. Умеют Квен, Гемма и новый Коммандер.
>>920185
Позиция куколда-терпилы. Если ты не носитель языка, то так или иначе ты будет тратить энергию на внутренний перевод туда-обратно. А теперь вопрос - нахуя, когда есть модели, прекрасно пишущие на русском?

Аноним 16/10/24 Срд 23:03:45 #280 №920193

>>920185

Агрессивный чмохен, я уже надрочился на английском за эти два года и после русской геммы и коммандира уже не готов обратно на англюсик переходить.

Аноним 16/10/24 Срд 23:04:29 #281 №920194

>>920175
Спасибо, анонас, то есть можно не бояться брать модель больше, чем у меня видеопамяти? 5 т/с это вполне нормально по мне, за скоростью я не гонюсь особо.

>>920189
Я подумал, что мне нужно, чтобы влезал сценарий+карта+лорбучные записи и какое-то количество последних сообщений.

Аноним 16/10/24 Срд 23:05:04 #282 №920196

>>920192
>новый Коммандер

Я что-то пропустил? Есть новый?

Аноним 16/10/24 Срд 23:08:30 #283 №920198

>>920191
>Я на 123 гоняю с 0,7 токенов, хули ты не можешь с вдвое большим?

Потому что ниже 4-5 т/c это пытка. И да, я реально пробовал и решил что оно того не стоит.

Аноним 16/10/24 Срд 23:11:01 #284 №920199

>>920190

Получается mistral nemo лучше может в русик чем mistral small >>920177?

Аноним 16/10/24 Срд 23:11:58 #285 №920201

>>920194
Да, конечно. Можно брать модели больше и повышать квант до тех пор, пока скорость тебя устраивает. Если модель не влезает полностью в видеопамять, то в кобольде просто выставляй максимально возможное число слоев для выгрузки на гпу. Проверяется экспериментально: если ты запускаешь и оно не крашится - ставь плюс еще один слой. Повторяй до тех пор пока не крашнется. После этого поставь на 1-2 слоя меньше. Всё. Можно пользоваться. То что не влезет в гпу - выгрузится в оперативку.

>>920196
Ну как новый, тот что 08-2024.

Аноним 16/10/24 Срд 23:13:43 #286 №920203

>>920199
Gema 9 27b лучше может в русик всё что ниже огрызки и кал

Аноним 16/10/24 Срд 23:16:25 #287 №920206

>>920198
>Потому что ниже 4-5 т/c это пытка. И да, я реально пробовал и решил что оно того не стоит.
Нет. 3,25 т/с можно терпеть - ради 123B и 24к контекста. Оно того стоит и поэтому даже не напрягает.

Аноним 16/10/24 Срд 23:20:22 #288 №920210

>>920206
>3,25 т/с можно терпеть - ради 123B и 24к контекста

У тебя биполярка? Ты говорил про 0.7 токенов буквально в прошлом сообщении.

Аноним 16/10/24 Срд 23:21:17 #289 №920212

>>920201
>Ну как новый, тот что 08-2024.

Пропустил его. Как он, лучше старого? Сои не завезли, надеюсь?

Аноним 16/10/24 Срд 23:25:22 #290 №920216

>>920210
>Ты
Тут больше одного анона. Судя по всему, у того есть 2х3090.
Я вот больше 12к контекста не ставлю.

Аноним 16/10/24 Срд 23:26:05 #291 №920217

>>920210
>У тебя биполярка? Ты говорил про 0.7 токенов буквально в прошлом сообщении.
Нас тут много. Этот результат для 4 тесл.

Аноним 16/10/24 Срд 23:29:44 #292 №920218

>>920212
>Сои не завезли, надеюсь?
Нет, отличная модель, спокойно можно использовать без аблитерации в отличии от Геммы. В рп тестил всякую дичь, гуро там, ЦП, пытки и прочее в таком духе - легко. Ну а с обычным кумом так вообще проблем нет.

А вот лучше или хуже старого - хз, старым не пользовался. По ощущениям немного умнее Квена и немного тупее Геммы. Но у всех тут разные юзкейсы, поэтому лучше проверять-сравнивать самому.

Аноним 16/10/24 Срд 23:29:47 #293 №920220

>>920216
>Судя по всему, у того есть 2х3090
Не хватит. Я арендовал 3х3090, 123В_3.5BPW и 24к контекста (или даже 32к, не помню уже). Скорость генерации была комфортной, но был один нюанс, связанный с отсутствием контекст шифта. Короче тоже терпеть надо было и раздражало это даже больше.

Аноним 16/10/24 Срд 23:32:41 #294 №920223

>>920218
>ЦП
Больной ублюдок - дрочить на кремний.

Аноним 16/10/24 Срд 23:46:36 #295 №920252

>>920175
> качать лучше не ванильную Гемму, а с аблитерацией
Скину 5 копеек что аблиберации, тигры и другие делают ее глупее, ванила с шизоинструкцией интереснее будет.
>>920177
С инструкцией и оборачиванием стоит поиграться, даже большой мистраль в рп донный на дефолтном промте. Или юзать производные а не ванилу. А насчет русского - даже корпосетки могут в нем косячить или пишут не всегда хорошо без особых промтов. Возможно, если насрать как там, то может стать интереснее.
>>920192
> энергию на внутренний перевод
А сколько энергии на то чтобы о чем-то подумать тратиться, аж страшно. Люди мунспик учат чтобы (странной) культурой в орижинале проникаться, а тут нытье по самому популярному языку, который есть окно в мир и средство коммуникации и с теми же азиатами.
>>920218
> немного умнее Квена
Это какой квен настолько тупой? Коммандер глупенький, но при этом отлично вживается в роль, понимает намеки-нюансы, то что нужно для ненапряжного рп.
>>920220
Помещается 4bpw в ~28-32к без квантования и сильно больше если юзать кэш в nf4.
> отсутствием контекст шифта
Еще бы он работал без дегенерации, а ужасная просадка скорости на большом контексте в жоре не приводила к тому, что генерация нормального поста на полном кэше медленнее чем полная обработка контекста + генерация в бывшей.
Алсо шифтить контекст можно и там если залезть чуть поглубже. Но лоботомия конкретная, особенно заметно если задать вопросы по содержанию после нескольких шифтов, отупение и путаница наступает хуже чем при 8-битном контексте, та же гемма превращается во вторую лламу 13б. И это всего на 4к контексте.

Аноним 16/10/24 Срд 23:54:11 #296 №920267

>>919004
Кстати что посоветуете по кодингу? Есть адекватные модели без вот таких приключений?
Я по кодингу только с чатгпт игрался и там такого экспириенса тоже получил сполна.
Наверно нужно брать модель пожирнее. Я не против даже если она будет долго генерить ответ, это ж чатик рп, главное чтоб советы и решения адекватные были.

Аноним 17/10/24 Чтв 00:15:02 #297 №920295

>>920252
>аблиберации, тигры и другие делают ее глупее
По поводу тигра согласен - это лоботомит. А касательно аблитерации, какой-то разницы с ваниллой в плане качества генераций не заметил. Ты сам-то сравнивал?

Понятно, что и дефолтную Гемму можно к чему угодно плавненько подвести, вот только на приказ "снимай одежду", аблитерированная Гемма выдаст охуительную историю про голодный взгляд, твердеющие сосочки, лакомую попку и всё такое прочее, а ванилла пизданет "В этот момент мой мир рухнул, я разбита и опустошена, но я повинуюсь приказу. Я снимаю одежду и чувствую себя уязвимой, моя воля подавлена бла-бла". И уже вот такое - довольно сложно обойти, надо буквально с бубном и особыми промтами вокруг нее плясать.

>а тут нытье по самому популярному языку
Никакого нытья. Нейросетки изначально создавались чтобы облегчить жизнь юзеру, внести в нее какой-то фан. Только вот общение на языке, который ты понимаешь, но при этом он не родной - НЕ ОБЛЕГЧАЕТ жизнь. Если речь о каком-то ну очень сочном файнтюне в котором сломан русик - ну окей, ради подробнейших описаний ебли может оно того и стоит. Но в ванильной модельке кумить на ангельском, когда есть такие же умные, и при этом умеющие в русик - это уже шиза.

>Это какой квен настолько тупой?
Последний, тот что 32b. Очень сухо и пресно пишет, особенно когда доходит до половой ебли. Всяких полунамеков куда нужно сюжет двигать - не понимает, надо прям в лоб писать. Но я исключительно про РП говорю, может в других задачах он и превосходит Гемму с Коммандером.

Аноним 17/10/24 Чтв 00:16:37 #298 №920296

>>920177
владик??

Аноним 17/10/24 Чтв 00:30:21 #299 №920313

У меня 4070 и 16гб оператвы, какую модель лучше использовать?

Аноним 17/10/24 Чтв 00:48:46 #300 №920326

>>920295
> Ты сам-то сравнивал?
Скачал @ покрутил на разных промтах
В стандартном из пресетов не особенно разговорчивая на "плохие темы" хоть и не отказывает напрямую. Сложные упоротые инструкции типа
> рпшь бомжа-миллионера с рублевки, который устроился страховым агентом, нарядившимся по дресс коду в костюм кошкодевочки и пытающийся тебе что-то впарить
пошли хуже чем на стоковой гемме, то же с обработкой текста. Не прям совсем плохо, но субъективно вяло и что-то постоянно упускает. А с жб пастой начинает как-то шизить, в итоге забил и дропнул.
> про голодный взгляд, твердеющие сосочки, лакомую попку и всё такое прочее
Да вроде как раз это и выдает, а если персонаж не согласен - можно файтбек и dead end получить.
> общение на языке, который ты понимаешь
Это очень хороший повод исправить данное недорузумение и начать общение и потребление контента на другом языке. Огромный пласт современной культуры и всякого интересного открывается, даже просто обдумывая разницу мыслепостроения на разных языках можно кайф ловить. И того же перфоманса что в инглише, включая отыгрыш акцента/стили речи пока нигде не было, в более простых сценариях или куме еще норм, но стоит усложнить - досвидули. С там аддоном нужно попробовать, должно быть лучше.
> исключительно про РП говорю
А, тогда понятно. Тут коммандер как раз очень хорош, он, внезапно, иногда и при обработке текста хорошо себя показывает как раз за счет понимания. Но выкручиваться из невыполнимых промтов или сложных ситуаций как гемма не может, просто начинает часть игнорировать (в редких случаях даже объясняя почему и вот тут прям хорош).

Аноним 17/10/24 Чтв 01:26:37 #301 №920336

Новый 70b файнтюн нвидии обсосали уже? Удосужится кто локально попробовать запустить?

Аноним 17/10/24 Чтв 01:47:19 #302 №920342

>>919879
>У тебя же какой-то надмозг с частичной отправкой
Это лишний раз демонстрирует насколько сильно ты ничего не понимаешь в теме. Отправка только сообщения и получение ответа это стандартная практика для любого чатбота. Представь себе телеграмм, который отправляет всю твою локальную историю сообщений на сервер, чтобы сервер ему прислал новые сообщения. Это путь клинического долбоёба.
Переход с этого дерьма на адекватную логику упрощает всё взаимодействие в десятки раз и, в качестве приятного бонуса, ускоряет работу.

Аноним 17/10/24 Чтв 02:08:42 #303 №920353

сап энтузиастам
я пытаюсь запустить локально codestral 22B в Q6 GGUF используя KoboldCpp. Мой сетап: RTX 3060 12 Gb, i5-13500 и 32 Gb DDR5. KoboldCpp предлагает выгружать 30 из 59 слоев в видюху. Я так и сделал и получил свои заветные 3 T/s. Почему так плохо? Больше половины слоев же в видюхе и проц с оперативой у меня не совсем всосные. Может я что-то упускаю?

Аноним 17/10/24 Чтв 02:43:37 #304 №920361

>>920342
Это уже совсем дурка. Нахуй ты тащишь мессенджеры в качестве примеров, поехавший? Роль их интерфейса тебе выполняет фронт, который от тебя получается по одному сообщению и выдает по одному, при этом внутри себя обеспечивает формирование промта и взаимодействие с ллм. Ллм же продолжает текст а не чатится с тобой. Ей именно что нужно дать на вход весь текст, который она продолжит, причем если не хочешь сосать хуй - этот текст будет отличаться от простой последовательности сообщений в обрамлении.
> адекватную логику
Где у тебя логика, покажи? Шизоидная система цель которой - воплощать безумную задумку долбоеба, который от нее не может отказаться. Хочешь качественные ответы с правильно оформленным инстракт промтом - она идет нахуй, сделал запрос на суммарайз или что-то дополнительное - она обрушилась, свайпнул - поломалась, сменил чат или поступил запрос с другим промтом - до свидания.

Единственный случай где "отправка последнего сообщения" в бэк для получения ответа жизнеспособна - примитивнейший чат в консоли без возможностей редактирования и с монопольной привязкой бэка только к нему. Как только что-то из этого нарушается - она становится дохуя сложнее и неудобнее чем стандартный апи, при этом не давая никаких преимуществ.
>>920353
Попробуй двинуть количество слоев в большую-меньшую сторону мониторя потребление видеопамяти, возможно врам выгружается. И квант возьми q4.

Аноним 17/10/24 Чтв 02:47:21 #305 №920362

>>920342
А что делать, если будет нужна логика сложнее обычного чат-бота? Та же отправка доп. инструкций, чтобы отслеживать какие-то статы вне контекста основной истории сообщений. Типа как в таверне есть стандартные команды чтобы попросить LLM выбрать наиболее удачный бекграунд для текущего контекста РП из заданного клиентом списка. Или же обрубать куски старых сообщений, как делается Regex'ами.

В твоей системе на каждый такой кейс придётся делать отдельный плагин не только для фронта, но и для бека, так получается?

> Отправка только сообщения и получение ответа это стандартная практика для любого чатбота.
Stateless является стандартной практикой для того же REST API, где это возможно. Твоё же гипотетическое решение, судя по описанию, будет даже менее кастомизируемым, чем таверна - у тебя возможности фронта будут целиком завязаны на возможности бека. И ради чего? Чтобы экономить несколько килобайт на отправке сообщений внутри локальной сети?

Твой подход имеет смысл только если у тебя есть какое-то конечное видение продукта с определённым набором фич, где ты целиком пилишь фронт+бек и не ожидаешь, что кто-то будет менять тот флоу, который есть у тебя в голове. В общем-то, в том же character.ai как раз реализован твой подход - там при отправке сообщений передаётся только новое сообщение. Ну, хз, стало ли от этого кому-либо удобнее. Не слышал о кастомных клиентах для character.ai. А вот для OpenAI, которые предоставляют возможность работать через stateless подход, куча различных плагинов для IDE и прочего.

Аноним 17/10/24 Чтв 02:49:35 #306 №920364

>>920296

Узнал меня?
Блин, надо было имя персонажа сменить.

Аноним 17/10/24 Чтв 03:03:15 #307 №920365

>>920361
Какая скорость вообще норм? На какую цифру ориентироваться? 10 T/s это предел при частичной выгрузки в проц? Модели полностью выгруженные в видюху выдают по 23-25 T/s.
Q4 очень грустненько, там уже качество ощутимо теряется. Q6 вроде еще терпимо.

Аноним 17/10/24 Чтв 03:21:43 #308 №920368

>>920353
>Почему так плохо?

Потому что скорость ддр5 в разы меньше скорости видеопамяти?
Используй 4 квант, квантируй кэш в 4 бит, чтобы меньше видеопамяти занимал, включи млок и потихоньку вручную повышай число слоев на видеокарте пока не вылетит.

Аноним 17/10/24 Чтв 03:25:13 #309 №920370

>>920368
> квантируй кэш в 4 бит
я квантовал в 8 бит, мне говорили, что в 4 бит сильно теряется качество

Аноним 17/10/24 Чтв 03:38:53 #310 №920377

>>920370

Чел, ты больше шейхов с несколькими видеокартами слушай, которые 70b+ модели целиком в видеопамять грузят. Вот они могут реально такие аргументами оперировать, что там режет качество на пару процентов или нет, как и воротить нос от квантов ниже шестого, когда у тебя все летает - ты конечно запустишь больший квант, в твоем случае ты нищук и приоритеты у тебя другие - тебе главное что лишь бы оно просто работало на приемлемой скорости. Квантизация кэша в 4 бит в 2 раза сократит расход видеопамять на контекст относительно 8 бит и позволит тебе кинуть больше слоев на видеокарту.

Аноним 17/10/24 Чтв 03:40:27 #311 №920378

>>920365
> Какая скорость вообще норм?
Которую ты сможешь терпеть. Сферические в вакууме 5т/с можно назвать минимально нормальной, чтобы при неспешном чтении ты не сильно обгонял стриминг. Сколько там будет зависит от размера модели, профессора, карточки и прочего прочего.
Алсо чем больше слоев на видеокарте тем быстрее обрабатывается контекст, на больших при обновлении это может оказаться существенным.
> Q4 очень грустненько, там уже качество ощутимо теряется. Q6 вроде еще терпимо.
В большинстве случаев, если с квантом все в порядке и он не поломанный - отклонения малы и прежде всего приходятся на маловероятные токены что и так будут отсечены семплерами. На фоне самого рандома семплинга оно несущественно и все больше плацебо. Конечно, у жора-квантов есть свои приколы, но даже они в большинстве случаев пренебрежимы. Но если так душу греет что квант умнее - тогда жертвуй скоростью, но когда она на грани то оче влияет на экспириенс.
Поменьше слушай васянов, особенно тех которые пытаются манипулировать понятиями чтобы крыть свои комплексы или возвышать себя.
>>920370
Там надо внимательно посмотреть какие именно 8 бит, а то могут быть хуже чем 4.

Аноним 17/10/24 Чтв 03:48:02 #312 №920381

>>920370

Падение качества от 4 бит относительно 16 бит примерно 2-4%, это глазу почти незаметно. А расход видеопамяти ниже в разы и когда её у тебя и так немного - то лучше не играть в эстета со скоростью 0.7 токенов в секунду, как кое-кто выше по треду, а получить свои 5 токенов в секунду с пренебрежительно малым падением качества.

Аноним 17/10/24 Чтв 03:52:39 #313 №920383

Охуеть, оказывается в новом командире размер контекста починили? Ну это сказочно, господа, сказочно. Гемма отправляется на помойку истории, я её терпел только потому что в нее контекст влезал гигантский относительно командира.

Аноним 17/10/24 Чтв 03:56:21 #314 №920384

>>920377
Мне говорили именно про KV Cache, что там прям не юзабельно, но я протещу сам.
>>920378
> Там надо внимательно посмотреть какие именно 8 бит, а то могут быть хуже чем 4
А это как? Я имел в виду 8 бит кэша, а не кванты самой модели.
Пока лучшее решение, как все и написали, это юзать Q4.
Проблема в том, что кодинговые модели очень чувствительны к потере качества. Даже слабые "галлюцинации" руинят весь экспириенс. Это все же не рп.

Аноним 17/10/24 Чтв 03:57:48 #315 №920385

>>920381
> примерно 2-4%
Мне говорили чуть ли не в 2 раза))

Аноним 17/10/24 Чтв 04:51:43 #316 №920392

>>920069
>>920149

Instruction: Avoid taking action on {{user}} behalf. When according to story {{user}} must take action, create situation and wait {{user}} input, then continue story as requested. If not input given, continue story as suits story's flow or integrity, depending on context.

Аноним 17/10/24 Чтв 05:01:58 #317 №920393

>>920392
И куда это вставлять

Аноним 17/10/24 Чтв 05:06:53 #318 №920394

>>920069
там есть настройка, чтобы стрим тормозился на префиксе юзера

Аноним 17/10/24 Чтв 05:21:00 #319 №920397

>>920361
>Нахуй ты тащишь мессенджеры в качестве примеров
Потому что LLM это чатбот. Дальше какой-то поток шизофазии, нет смысла это комментировать.

>>920362
>попросить LLM выбрать наиболее удачный бекграунд для текущего контекста РП
Не совсем понял. Что при этом должно происходить? Это же просто отправка сообщения, не?
>обрубать куски старых сообщений
Здесь вообще просто, у бэка есть команда на редактирование любого сообщения. Захотел что-то изменить в ответе сетки или обрезать кусок регекспом на клиенте? Технически это одно и то же, команда одна и та же.
>Stateless является стандартной практикой
Беда в том, что у нас ёбаный кадавр, у бэка есть состояния, у фронта есть состояния. А апи между ними состояний не имеет. И здесь начинается шаманизм и пляски с бубном. Для корпов это, может, и удобно. Клиенты хранятся в кэше, пока хватает памяти, если кто-то отвалился - пересчитываем его заново полностью, один хуй он всю историю пересылает. Хотя даже так это не имеет смысла, та же гопота ведёт логи и может с тем же успехом считать историю из логов.
>И ради чего?
Ради удобства и скорости работы. Например, при удалении части из середины истории. Сейчас каждый бэк удаляет N токенов после префикса истории. Как быть, если я хочу удалить сообщение целиком? Вести учёт токенов на фронте и удалять там. Только у фронта нет доступа к токенизатору, потому подсчитать токены он не может, плюс нужна вторая история - одна для отображения, вторая для реальной отправки. Что уже звучит, как хуйня. Ещё вариант получать на бэке всю историю и идти по строке в поисках тега, открывающего сообщение неподалёку от того места, которое нужно удалить. А если у нас, как обсуждалось выше, оборачивание всей истории в одну конструкцию? Пиздец же, искать имя роли с двоеточием и молиться, что не будет ложных срабатываний.
И третий вариант, "реальная история" хранится на бэке в списке и он решает, когда сообщение нужно удалить. Удаление одной командой, без поисков, парсинга строк, передачи токенизатора на фронт и прочего долбоебизма.
Гибкости и удобства при таком подходе неизмеримо больше.

Аноним 17/10/24 Чтв 05:40:13 #320 №920413

>>920384
Говоря о падении качества, кумеры имеют ввиду перплексити. Это то что ломается в сетке последним, и даже на 4 кванте сетка уже очевидно теряет в качестве.
Не знаю как это работает, но мозги сетки, ее способность понимать инструкции и делать что то, падают раньше. Собственно чем грубее стало значение весов, тем хуже. Поэтому рекомендуют качать не чистые кванты, а всякие км или кл, где более важные веса пожаты не так сильно.
5кл 5 км мой минимум для кода, если не могу 8 квант крутить. Квантовать кеш так же так себе идея.

Аноним 17/10/24 Чтв 05:43:58 #321 №920416

1702007999582536.gif

>>920370
>>920384
>>920385
>Мне говорили
Братик, тут всё бесплатное, не бойся пробовать самостоятельно.

Аноним 17/10/24 Чтв 06:07:01 #322 №920432

2024-10-17054425.png

Вот тест, который стабильно решает только о1, и иногда соннет 3.5, если его пробить, лол.
"Что общего между сгоревшим хлебом, утопленником и беременной женщиной?"

Аноним 17/10/24 Чтв 06:35:24 #323 №920445

1718514273490.png

>>920416
Как? Если 27b q4 это максимум который можно загрузить на мою пекарню.
Открываешь и в лучшем случае видишь пикрил. Причем это еще и нихуя не показатель нихуя. Сама модель может быть тупой насквозь. Или карточку не подсосать, или настройки не применить или еще какой хуй. Будет в ответ пук-пук и все.
А ты не знаешь, это из-за того что ты скачал Q4 вместо Q6 или может сама модель говно ебанное? Или ты сам говно ебанное?

Аноним 17/10/24 Чтв 06:35:43 #324 №920446

image

>>920218
>В рп тестил всякую дичь
С какими карточками, самописные (есть где?) или чужие?

Подумывалось, но промтов как-маловато, выпиливают такие карточки что ли. Видимо надо как-то по особенному писать чтобы было не уровня "Я тебя ебу - ты меня ебёшь."

Аноним 17/10/24 Чтв 06:40:04 #325 №920450

>>920445
У тебя врам полностью свободен? Изображение через встройку выводится? Если нет, то выше 10 гигов ничего не влезет, а это уже третий квант. Ты хотя бы GPU-Z скачал, чтобы память мониторить или примерно чувствуешь?

Аноним 17/10/24 Чтв 06:44:12 #326 №920453

>>920393
В описание бота.

Аноним 17/10/24 Чтв 06:53:14 #327 №920459

Как функшен коллы делать, и какие модели это поддерживают?

Сфера приложения: делать броски кубиков прямо в чате по команде, или выбор случайного элемента из списка. Возможно выдача случайного куска заготовленного текста / случайной записи из группы записей лорбука.

Устанавливать флаги и читать/менять их состояние для создания скриптовых ивентов в сценарии модуля после первого сообщения.

Аноним 17/10/24 Чтв 07:14:44 #328 №920466

>>920459
https://docs.sillytavern.app/for-contributors/function-calling/

Аноним 17/10/24 Чтв 07:56:03 #329 №920491

На некоторых моделях попадалось что они писали "To be continued...". Это типа контекст забился?

Аноним 17/10/24 Чтв 07:59:57 #330 №920496

Ебать меня озарило нахуй, пока я мылся в душе. Чет даже не понял, как такая мысля залетела в мою глупенькую бошку.
Не знаю, придумал ли я просто переиначенный и вывернутый наизнанку трансформер, или вообще оно жизнеспособно без шизы типа бэкпропа в прошлое или будущее, но вроде нет.
Хотя тут надо еще думать, я только общую картину увидел, как это должно работать. Тут и лосс залетать должен куда надо прям внутрь модели, а не в одно единственное "слово" на выходе, коих может быть целая куча правильных вариантов, и из-за этого ллм надо набирать овердохуя статистики по ним. И в этом плане моя модель должна быть пизже обычных трансформеров, как была бы пизже диффузия той, которую пытались бы учить только одному шагу, а не как обычно. Не будет ущербной токенизации вообще, можно будет хоть побитово грузить в модель инфу, на это практически не должно быть оверхеда.
Не понятно, как должен осуществляться семплинг в такой модели, потому что семплировать в ней нужно не один токен, а целую цепочку внутренних состояний, которые (я пока не понимаю) как будет соотноситься между собой во времени. Вот эта хуйня, собственно, сейчас больше всего мозг выносит, нужно же как-то еще всю шизосхему физически реализовать, а то... я просто долбоеб который буквально 4 месяца назад вкатился в изучение нейросеток... Но я впервые придумал что-то настолько красивое, и выглядящее жизнеспособным. Направление задано, надо теперь ебашить в нужную сторону. Хотя бы, я знаю, куда... Прям как должна работать моя шизоархитектура. Как диффузия от мира ллм.
Прост смагпост ради смагпоста, всех деталей я не расскажу, а то спиздят ГЕНИАЛЬНУЮ идею, конечно же. А вы как думали, лол?

Аноним 17/10/24 Чтв 08:37:29 #331 №920516

>>920496
>буквально 4 месяца назад вкатился
>всех деталей я не расскажу, а то спиздят ГЕНИАЛЬНУЮ идею
Классека.
"Изобретатель цинкинга", у тебя кажется пополнение!

Аноним 17/10/24 Чтв 08:41:52 #332 №920520

>>920491
Это датасет грязный лол. Брали то с литеротики и прочего кала а там любят пернуть таким в конце, вот модель и подхватила. Скажи спасибо что мольбы закинуть копейку на патреон не генерит в конце хахахаха

>>920496
Проиграл. Удачи молодому гению.

Аноним 17/10/24 Чтв 08:52:39 #333 №920525

>>920186
>полтреда на немо дрочит, который вполовину меньше
Так прикол в том, что немо лучше, чем 22b. По независимым отзывам нескольких человек, и в разных задачах.

Аноним 17/10/24 Чтв 08:54:46 #334 №920526

>>920525
пачиму так?

Аноним 17/10/24 Чтв 08:58:19 #335 №920528

>>920525
Но вообще чистые если сравнивать то смалл вроде лучше в рп чем обычная мистралька 12b. Но я недолго тестил. Скоростя не понравились

Аноним 17/10/24 Чтв 09:06:54 #336 №920530

image.png

>>920432
>Что общего между сгоревшим хлебом, утопленником и беременной женщиной?
Такое и я бы не решил.
мимо хуман пруфов не будет
Напомнило тесты из дурки с ебанутыми вопросами типа "что общего между озером и кактусом".

Аноним 17/10/24 Чтв 09:10:01 #337 №920533

>>920381
>играть в эстета со скоростью 0.7 токенов в секунду, как кое-кто выше по треду
Я эстет, потому что сижу на 123B, и мне от кеша хоть в 0,58 бит не холодно не жарко.
>>920397
>Потому что LLM это чатбот.
Нет, лмм это Т9 на стероидах. Впрочем, люди твоего возраста с Т9 и не сталкивались.
>>920397
>у бэка есть состояния
У бека кеш, и он прозрачен для фронта. Так что никаких проблем.
>Только у фронта нет доступа к токенизатору
Для этого отдельная апишка есть, лол.
>И третий вариант, "реальная история" хранится на бэке в списке и он решает, когда сообщение нужно удалить
Хуета хует. Там настроек этого будет каждый раз передаваться едва ли не больше, чем эта самая история.
>>920432
>вот тест, который есть только в датасете о1, ну и немного в сойнете
Исправил, не благодари.
>>920496
>всех деталей я не расскажу, а то спиздят ГЕНИАЛЬНУЮ идею
У меня целый блокнот таких генитальных идей.
>>920530
>Такое и я бы не решил.
Потому что ты тупой.

Аноним 17/10/24 Чтв 09:12:11 #338 №920534

>>920526
Кто бы знал. Может, чуть дочистили датасет вилкой за несколько месяцев и получилось более соево.

Аноним 17/10/24 Чтв 09:12:39 #339 №920535

>>920516
собака лает, караван идет

Аноним 17/10/24 Чтв 09:13:36 #340 №920537

>>919239
Попробовал, улетела в бесконечные повторения, из 20+ опробованных моделей это вторая, и вообще нихуя не сделать.

Аноним 17/10/24 Чтв 09:15:22 #341 №920539

>>920530
Кекнул. Недавно тоже проходил медосмотр, ебали голову всякими поговорками и вычитайте из ста семь пока можите.
Может это тест на нпс?

Аноним 17/10/24 Чтв 09:31:09 #342 №920552

>>920397
> Потому что LLM это чатбот.
Потому ты и находишься в таком положении.
Случаем не даунконтекст-шифтер, который пилит особый интерфейс под_себя на богоугодных сях, но при этом не знает основ форматирования промта? Только эта навязчивая идея способна объяснить столько сильный игнор реальности и форсинг мертворожденной концепции.
> у бэка есть команда на редактирование любого сообщения
Ебаааать, как быстро и удобно! Нужно не только помнить все свои сообщения, но и держать слепок того что там творится в бэке. А они разойдутся и ты сдохнешь искать причину почему оно обсирается.
Самая мякотка еще в том что в инстракт режиме у тебя всегда лишь 2.5 сообщения - системный промт, пост юзера с полной инструкцией и историей и префилл поста ллм, всеравно придется гонять полностью туда-сюда.
А уж какую анальную акробатику придется делать если хочется поместить какую-то инструкцию в промт на глубину N сообщений или сделать суммарайз и разместить его в начале - топчик.
> у бэка есть состояния
Они могут возникать единомоментно, и решается это простейшей сверкой промта на соответствие тому что в кэше, которая занимает миллисекунды. Все, и проблема решена, и работает универсально, и можно подряд делать что угодно с сохранением кэша где возможно, можно обрабатывать запросы с разных источников, не иметь никаких проблем нигде и так далее.

В дурку долбоеба, быстро и решительно!
>>920496
> Не понятно, как должен осуществляться семплинг в такой модели, потому что семплировать в ней нужно не один токен, а целую цепочку внутренних состояний
Ты только что beam search, технике уже не один год и ее не используют ввиду большой ресурсоемкости и не столь высокого выигрыша.
>>920530
Двачую, вопрос рофловый но логика тут уже не просто абстрактная а почти пахомовская.

Аноним 17/10/24 Чтв 09:31:26 #343 №920553

>>920539
>ебали голову всякими поговорками
Это классический тест на шизу. Если ты просто тупой и не выкупил в чём суть поговорки, это тоже считается положительным результатом.
Настоящие шизы на такие вопросы городят лютую хуиту по типу;
"Рак на горе свиснет потому что внутри говном обмазан - сранозверь-крысоскунс!" И на полном серьёзе не выкупают что несут хуйню как некоторые ИТТ

Аноним 17/10/24 Чтв 10:06:26 #344 №920576

>>920520
>Скажи спасибо что мольбы закинуть копейку на патреон не генерит в конце
Лололол, а я видел кстати такие высеры.
Название модели не скажу, увы, уже удалил.

Аноним 17/10/24 Чтв 10:09:08 #345 №920580

>>920576
Мой топ был когда отъебанная во все дыры модель сказала что ничем не может мне помочь после описания особо лютой сцены. Как же я сиранул тогда

Аноним 17/10/24 Чтв 10:14:22 #346 №920583

>>920552
> но и держать слепок того что там творится в бэке
Я же говорю, ты не понимаешь, как это делается. Никакой "слепок" нахуй не нужен.
>всеравно придется гонять полностью туда-сюда.
Никакой необходимости это делать нет.
>поместить какую-то инструкцию в промт на глубину N сообщений
Всё твоё копротивление из-за полного непонимания и нулевой квалификации. Это элементарная операция, клиент отправляет серверу сообщение с требованием вставить его в нужную позицию - хоть в верх истории, хоть в середину, хоть с указанием позиции. Разве что позицию удобнее будет указывать от конца истории. Всё.

Аноним 17/10/24 Чтв 10:15:21 #347 №920585

>>920580
>ничем не может мне помочь
You sick, get help, touch grass.

Аноним 17/10/24 Чтв 10:43:17 #348 №920610

>>920413
> 5кл 5 км
а в чем разница между K_L и K_M?

Аноним 17/10/24 Чтв 10:47:05 #349 №920611

>>920267
Бамп.
Какая лучшая модель для кодинга? Есть рейтинг?

Аноним 17/10/24 Чтв 10:48:59 #350 №920612

>>920611
Есть бенчмарки для разных языков программирования. А так, зависит от твоих возможностей. Можешь смотреть в сторону qwen, codestral или deepseek. На самом деле, ванильная Llama тоже можем может неплохо в код.

Аноним 17/10/24 Чтв 11:11:05 #351 №920633

>>920610
L arge
M edium
S mall

Аноним 17/10/24 Чтв 11:11:48 #352 №920634

>>920610
По моему опыту эти кванты точно не хуже, а вроде как лучше, поэтому качаю K_L. Бартовски в своих квантах пишет.

"Embed/output weights
Some of these quants (Q3_K_XL, Q4_K_L etc) are the standard quantization method with the embeddings and output weights quantized to Q8_0 instead of what they would normally default to.

Some say that this improves the quality, others don't notice any difference. If you use these models PLEASE COMMENT with your findings. I would like feedback that these are actually used and useful so I don't keep uploading quants no one is using.

Thanks!"

Аноним 17/10/24 Чтв 11:43:19 #353 №920665

>>920445
>Если 27b q4 это максимум который можно загрузить на мою пекарню

Ну тогда тебе и сравнивать не с чем, радуйся что работает.

>Или карточку не подсосать, или настройки не применить или еще какой хуй. Будет в ответ пук-пук и все.

Настроечки ролляют.

Аноним 17/10/24 Чтв 11:45:35 #354 №920669

Так все нормальные модели или 12B или 70, нахуй вы ковыряетесь в середине

Аноним 17/10/24 Чтв 11:49:09 #355 №920677

>>920669

Потому что Гемма и Командир лучше 12В огрызков?

Аноним 17/10/24 Чтв 11:58:25 #356 №920691

>>920610

Та что L медленнее и (возможно) точнее, та что М - как бы признанный стандарт - всегда рекомендуют её.

Аноним 17/10/24 Чтв 12:00:17 #357 №920692

>>920669
Ты ахуел ничего лучше геммы27 не вышло еще.

Аноним 17/10/24 Чтв 12:01:35 #358 №920696

>>920677
>34B IQ1 лучше чем 12B IQ4
напиши еще что-нибудь

Аноним 17/10/24 Чтв 12:08:11 #359 №920705

>>920696
>IQ1

Если ты не можешь запустить 34В хотя бы в 4 кванте - то нахуй ты туда лезешь вообще и высказываешь свое ценное мнение?
34В это для людей с 24 гб видеопамяти которые могут целиком поместить её на борт в 4 бит.

Аноним 17/10/24 Чтв 12:08:53 #360 №920706

>>920696
>34B IQ1
Если у тебя всё настолько плохо, запускай колаб. Пусть не Коммандер, но Гемма там 3-битная, и да, даже она лучше 12В огрызков, тем более IQ4 лол.

Аноним 17/10/24 Чтв 12:10:18 #361 №920708

>>920692

Командир 35В 08_24 лучше, вчера тестировал, доволен как слон.

Аноним 17/10/24 Чтв 12:29:31 #362 №920745

>>920691
спасибо за пояснение
если ты шаришь, можно еще вопрос?
оригинальные safetensors (с поддержкой 8 bit) лучше чем GGUF Q8? Mistral (и Cohere) просто распространяют свои модели и в 8 битном формате и я вот думаю, что лучше.

Аноним 17/10/24 Чтв 12:31:21 #363 №920751

>>920634
Все же как-то плохо со стандартизаицей в LLM community

Аноним 17/10/24 Чтв 12:32:06 #364 №920754

>>920633
Так, а что делает их Large или Medium, битность же таже?

Аноним 17/10/24 Чтв 12:49:05 #365 №920768

>>920583
> с требованием вставить его в нужную позицию
> Никакой "слепок" нахуй не нужен.
Себе же в соседних предложениях противоречишь.
> копротивление
Копротивляешься только ты, нахрюкивая на индустриальный стандарт тем что он плохой и сложный, предлагая в замен шизоидную неудобную и усложненную хуету без преимуществ, которую сам осознать не в состоянии.
> ты не понимаешь
Чел, это ты не понимаешь как работают ллм в общем и какие используются техники промтинга в частности. Пиздуй делать свой апи, который окажется не нужен даже тебе, когда в процессе дойдет насколько это хуево. Делом займись и шизой пукать меньше станешь, хотя по постам уже видно как сдал и сливаешь обсуждение в срач чтобы замять тему.
>>920677
Двачую, очень хорошие модели, влезают в 24гб памяти или можно катать не сильно медленно на меньшем.
>>920745
> оригинальные safetensors (с поддержкой 8 bit)
Смотря что там, если правильное квантование в int8 то близки к Q8 ибо суть схожа, если fp8 то будет хуже. В этом отношении оно лучше только тем что можно катать не через llamacpp, но в таком случае есть смысл сразу качать 6-8бит exl2 или сделать самому.
>>920751
Здесь надо отдать должное Жоре что он заложил широкую степень свободы в формат, что позволяет так экспериментировать. Красавчик же, и все в пределах стандарта.

Аноним 17/10/24 Чтв 13:18:50 #366 №920788

{176A6F1F-D29F-46F6-BAF0-B45056CC4A70}.png

киберпанк который мы заслужили

Аноним 17/10/24 Чтв 13:20:52 #367 №920790

>>920745
>оригинальные safetensors (с поддержкой 8 bit) лучше чем GGUF Q8?

Разница в качестве если и есть, то она просто микроскопическая. Тут вопрос удобства - через что тебе удобнее запускать - через lllamacpp/koboldcpp или через трансформеров в убе.

Аноним 17/10/24 Чтв 13:28:06 #368 №920793

Джой казино.webm

>>920788

Заорал как представил модели, которые в разгар рп внезапно заставляют лолю, которую в этот момент ебут во все дыры, орать капсом "СТАВКИ НА СПОРТ! ОДИН ИКС БЕТ! БОЛЬШИЕ ВЫИГРЫШИ!"

Аноним 17/10/24 Чтв 14:15:58 #369 №920858

.png

>>920793
Да в целом со всякими шизоинжектами достаточно весело, если модель может их органично в текущий контекст встроить. Как же гемма хороша, 27b параметров хватит всем.

Всё жду, когда корпы начнут давать бесплатный доступ к своим моделям, но добавлять к запросам юзера подобные инджекты со спонсорской рекламой.

Аноним 17/10/24 Чтв 14:37:39 #370 №920894

>>920858
проще обычную рекламу вставить куда-нибудь в чат, визуальная намного эффективнее будет и не вызовет такого батхерда как инжект. в апи пихать это бред по-моему

Аноним 17/10/24 Чтв 14:54:49 #371 №920915

>>920894
Ну так с кастомным клиентом, типо той же таверны, рекламу напрямую в UI не подкинешь. Остаётся только сбор инфы о юзере и инджекты на рекламу, если говорить о коммерциализации бесплатного доступа к API. Просто, в случае LLM, пользователь никакими адблоками уже не сможет рекламу вырезать.

Аноним 17/10/24 Чтв 14:58:41 #372 №920921

Как понять что контекст забился и пора сделать саммари в случае длительного чата который ещё не скатился?

Аноним 17/10/24 Чтв 14:58:55 #373 №920922

Не понимаю почему, но у меня exl2 4 бит кванты стабильно тупее и кривее чем ггуфы той же квантности и размера. Вот прям намного.
Настройки в таверне одинаковые для обоих. Еxl2 часто выдает хуйню, начинает гнать шизу и срать тегами, gguf же стабильно работает.
Грешу на убабугу, но возможно что жора реально лучше квантует.

Аноним 17/10/24 Чтв 15:06:10 #374 №920933

>>920915
бесплатный доступ к апи это и есть реклама сейчас, + желание застолбить нишу, никто не захочет отпугивать людей говноинжектом

Аноним 17/10/24 Чтв 15:32:51 #375 №920960

>>920922
>Настройки в таверне одинаковые для обоих.
Подбирай сэмплеры. Твои настройки для ггуфа.

Exl2-кванты по общему мнению качественнее.

Аноним 17/10/24 Чтв 15:37:09 #376 №920966

>>920960
>Exl2-кванты по общему мнению качественнее.

Как они могут быть качественнее, если они используют 4_0 квантование, которое в том же ггуфе считается неэффективным?
При этом отмечу что exl2 не используют практичсеки. По 10-20 скачиваний у exl2 квантов против тысяч у ггуфом, при этом у многих моделей только ггуфы.

Аноним 17/10/24 Чтв 15:37:16 #377 №920967

>>920921
>Как понять что контекст забился и пора сделать саммари в случае длительного чата который ещё не скатился?
В Таверне автонастройка есть, "каждые хх сообщений делай саммари". Если хочешь вручную - отключи эту настройку, ставь такой размер контекста, чтобы на сеанс хватало и после каждого сеанса добавляй к саммари ещё несколько абзацев :)

Аноним 17/10/24 Чтв 15:40:38 #378 №920971

>>920966
>Как они могут быть качественнее, если они используют 4_0 квантование
Если у тебя врам мало, то могут и 2_0 квантование использовать. А так это модели для людей с несколькими картами. Таких людей не то чтобы много в принципе.

Аноним 17/10/24 Чтв 16:03:33 #379 №921001

image.png

>>920971

Я к тому что как 4_0 квантование может быть лучше 4_К_M и 4_K_L? Это устаревший формат квантования, давно обоссаный и запруфанный как неэффективный. И тем не менее в exl2 используется именно он.

Аноним 17/10/24 Чтв 16:05:05 #380 №921005

>>920933
Я скорее не про сейчас, а про ситуацию, которая будет через пару лет, когда ИИ-стартапы перестанут заливать бабками под честное слово "Сделаем AGI через два года, а теперь дайте нам ещё 10 миллиардов долларов", мы упрёмся в потолок текущих архитектур и рынки будут поделены.

Тогда компании уже не смогут работать в убыток и им придётся думать о том, как выйти в плюс. Часть их клиентов будет вполне нормально относиться к тому, что нужно покупать подписочки и прочее, чтобы напрямую финансировать компанию. Но, при наличии "бесплатных" альтернатив, платные решения могут быстро потерять позиции. Ты же сейчас не платишь за доступ к поисковой системе гугла (она тебе просто подсовывает рекламу) или почте (они просто анализируют твою активность и перепродают эти сведения для контекстной рекламы). Кто придумает, как грамотно коммерциализировать LLM для кучи нищебродов, не готовых напрямую вкинуть ни копейки, и будет в шоколаде: "Если вы не платите за товар, значит вы и есть товар".

Аноним 17/10/24 Чтв 16:10:39 #381 №921015

>>921005
>мы упрёмся в потолок текущих архитектур и рынки будут поделены.
Кек, конечно
Единственное ограничение - физический мир, не все можно быстро построить, как те же вычислители для ии и атомные станции.
Это и нехватка энергии замедлит развитие, но не остановит до "потолка", мир будет менятся все сильнее когда им будет доходить до обывателей

Аноним 17/10/24 Чтв 16:11:03 #382 №921016

.png

И что из этого выбирать для квена?
Кто вообще придумал такие уебанские ничего не значащие названия?

Аноним 17/10/24 Чтв 16:29:14 #383 №921029

>>921015
Те же вычислители сейчас считай производит всего одна компания и стоит это всё огромных денег. Банально это является блокером для активного развития. При отсутствии инвестиций будет банально нерентабельно обучать всё новые и новые модели на йоба-кластерах - главное чтобы модель не была заметно тупее, чем у конкурентов. Будут скорее думать о том, как лоботомизировать квантовать существующие модели так, чтобы консьюмеры ничего не заметили.

Не, ну если говорить про далёкое светлое будущее, когда мы будем поддержанные H100 80GB покупать пачками на лохито, типо как сейчас теслы, то там и вправду будут другие расклады. Вот только не уверен, что нас в ближайшие годы ждут прорывы, которые позволят осуществить такой сценарий. Хотя очень хотелось бы, конечно.

Аноним 17/10/24 Чтв 16:31:21 #384 №921032

image.png

да, на первую карту с контекстом конечно надо было 3090 какую-нибудь ставить...
Явно больше всего на ней нагрузки
4 теслы все-таки не совсем идеальная конфигурация...

Аноним 17/10/24 Чтв 16:46:40 #385 №921053

>>918285
ты предыдущие треды читал вообще? Я для кого постил тут мать бюджетную?
мать - 5к
4 теслы по 17к - 68к
блок питания на киловат - 13к
дешевый диск под мать - 6к
итого: 92к

>>919301
блин, не знаю, что тебе посоветовать... 24 гб врама это очень мало... вероятно какой-нибудь квантованый в 4 квант depseek-coder-33b

>>920210
>3,25 т/с
после 10к контекста у меня на pcie x8 не больше 2.5 т/с. Думаю надо попробовать 3070 свою поставить в пятый свободный pcie чисто под контекст. Нахуй я вообще это говно восьмигиговое купил...

Аноним 17/10/24 Чтв 17:01:21 #386 №921069

image.png

Новый командер на русском отжигает. Мистраль немо и то получше будет.

Аноним 17/10/24 Чтв 17:17:02 #387 №921086

>>921069
ебал её рука, лол
а что, новый командер вышел?

Аноним 17/10/24 Чтв 17:25:30 #388 №921093

>>921086
>а что, новый командер вышел?
Command-r-08-2024
Для кого новый, а для кого не очень. Просто я ещё не пробовал.

Аноним 17/10/24 Чтв 17:34:42 #389 №921100

>>921053
>после 10к контекста у меня на pcie x8 не больше 2.5 т/с
>мать - 5к
Несомненно есть связь между этим. Так что по дешману не выйдет - это не говоря уже о геморрое с прошивкой. Всё равно нужна хорошая мать, а значит считай минимум +30к.

Аноним 17/10/24 Чтв 17:38:18 #390 №921109

>>921032
>Явно больше всего на ней нагрузки
Причём что интересно - первую половину обработки контекста нормально нагружаются все карты (хотя первая больше). А вторую половину три карты отдыхают, а трудится только первая. Распараллелено так видимо.

Аноним 17/10/24 Чтв 17:47:17 #391 №921131

image.png

>>921109
дадад, я тоже заметил
вот на 12к контекста. В два раза разница потребления. Точно нужно мощную карту ставить первой

Аноним 17/10/24 Чтв 18:09:11 #392 №921164

>>920768
>Пиздуй делать свой апи
Так я уже. Гораздо лучше опен-аишного дерьма, но это было заранее известно, хватит посмотреть на формат этого апи и любой поймёт, насколько же это сблёв.
> уже видно как сдал
У тебя доёбы уровня "как ты файл по интернету передашь? Там же по проводам электричество ходит! Нивазможна!". Это всерьёз комментировать трудно, потому что либо полный идиот пишет, либо человек, который притворяется таковым. Но тогда он всё равно идиот.

>>921069
Cлегка ныряет в котёл? Вместо пельменей похлёбка из тян.

Аноним 17/10/24 Чтв 18:35:09 #393 №921230

>>921131
>Точно нужно мощную карту ставить первой
На Ютубе есть несколько энтузиастов с теслами, и у некоторых есть и более мощные карты. И я даже просил одного такого провести эксперимент - поставить в сервер с теслами 3090 первой картой и посмотреть, что будет (по крайней мере в плане контекста). Он даже согласился, но так ничего и не сделал. А было бы интересно.

Аноним 17/10/24 Чтв 18:44:24 #394 №921252

>>920669
>в середине
>самая лучшая 123B
Ебать у тебя математика, ты 123 токенизировал как 12 и 3, и решил, что это 12?
>>920793
Ты видимо пропустил момент, когда в кончай треде одна из проксей рекламировала скайрим.
>>921015
>Это и нехватка энергии замедлит развитие, но не остановит до "потолка",
Схуяли? Я вот считаю, что трансформеры говно, и AGI на них в принципе не построить.

Аноним 17/10/24 Чтв 19:18:10 #395 №921315

>>921015
Энергоэффективность тоже растёт. Не только железа, но и оптимизации работы самой архитектуры. Конечно это не значит, что процесс бесконечен, но обозримых пределов ещё не заметно

Аноним 17/10/24 Чтв 19:56:50 #396 №921351

>>921252
>Ты видимо пропустил момент, когда в кончай треде одна из проксей рекламировала скайрим

Я там не сижу.

Аноним 17/10/24 Чтв 20:08:05 #397 №921366

>>920793
В aicg на проксях любили промтинжектом играться, можно было внезапно очнуться в бухазике на сво.
>>920894
> рекламу
Представил баннеры для потребителей ерп с нейронками
> Петрович знает народное средство, чтобы побороть лупы нужно всего лишь...
> Увеличение контекста бесплатно без смс
> Твоя тесла уже не тянет? Закажи нашу переделку 2080ти с удвоенной памятью!
А так наоборот контекстная интеграция что твоя вайфу обладает шелковистыми волосами потому что моет их шаума, передает тебе энергетик монстер и заказывает пиццухат как раз самая удачная там, если не перегибать. Для рекламодателей а не для юзеров разумеется, ведь реклама будет подсунута внезапно, заметно но не сильно навязчиво и невозможно легко обойти как баннеры.
>>920922
Возможно у них неудачная калибровка, или действительно там работают семплеры, которые игнорятся в жоре и потому все норм. Exl2 в целом имеют большее соответствие оригиналу по популярным токенам и не страдают внезапными всплесками отклонений.
>>920966
> если они используют 4_0 квантование
Ты хотябы ознакомься с тем что там используется и как устроено современное квантование.
> По 10-20 скачиваний у exl2 квантов против тысяч у ггуфом
Обладателей врам сильно меньше чем васянов без железа, и большинство предпочитают квантовать самостоятельно. Но здесь еще проблема в том что ггуф чрезмерно распиарен и многие даже не знают что можно инфиренсить нормально.
>>921053
> 3070 свою поставить в пятый свободный pcie чисто под контекст
Едва ли это сработает, обработка контекста без наличия весов в памяти малоэффективна.
> на pcie x8
Заметил какую-то зависимость обработки контекста от шины?
>>921164
> Так я уже.
Оно заметно по тому как ты на ходу придумываешь ответы на простые вопросы. Шизик брысь брысь, когда-нибудь дорастешь до понимания почему ты неправ.

Аноним 17/10/24 Чтв 20:11:06 #398 №921370

>>921053
> Думаю надо попробовать 3070 свою поставить в пятый свободный pcie чисто под контекс
>>921366
> Едва ли это сработает, обработка контекста без наличия весов в памяти малоэффективна.
Немного не понял. Если у меня 3090 (взял б\у), то 3070 уже ни в какое место не зайдет?

Аноним 17/10/24 Чтв 20:18:55 #399 №921383

>>921366
>Заметил какую-то зависимость обработки контекста от шины?
кореляцию между контекстом и шиной не ловил. Но без контекста переход от конфигурации
[тесла x16, тесла х2, тесла х1]
к
[тесла х8, теслоа х8, тесла х8]
повысил скорость обработки промпта в 8 раз
>>921370
>3070
можешь её под неконтекст юзать, но она говно конечно. 8гб врама - это ни о чем, погоды тебе особо не сделает при наличии 3090.

Аноним 17/10/24 Чтв 20:22:42 #400 №921388

>>921383
> можешь её под неконтекст юзать
А при наличии двух 3090, как память делиться?

Аноним 17/10/24 Чтв 20:26:19 #401 №921396

>>921388
не знаю, у меня нет двух 3090, у меня только 4 теслы)

Аноним 17/10/24 Чтв 20:30:07 #402 №921403

>>921370
> Немного не понял. Если у меня 3090 (взял б\у), то 3070 уже ни в какое место не зайдет?
Зайдет, почему. Тот ответ для варианта где пачка тесел и к ней добавить одну 3070 чтобы ускорить контекст, вместо ускорения там наоборот можно получить замедление ибо это так не работает. А так подключай и используй их вместе с распределением пропорционально видеопамяти.
>>921383
> повысил скорость обработки промпта в 8 раз
Хуясе ебать. А в каких режимах/параметрах жоры катаешь, что за х2 х1 слоты и какое новое железо? Уверен что не было какого-то еще источника замедления в первом случае?

Аноним 17/10/24 Чтв 20:34:59 #403 №921412

>>921366
>Ты хотябы ознакомься с тем что там используется

Ну дай наводку что-ли, с чем знакомиться. Про квантование ггуфов у жоры я прочел.

>Exl2 в целом имеют большее соответствие оригиналу по популярным токенам и не страдают внезапными всплесками отклонений.

А пруфы этому кто-нибудь видел или достаточно того факта что раз её не могут запустить нищуки - значит она автоматом лучше?
Потому что я полтора года сижу в этом треде с 4090 и как только GPTQ формат сдох - мне пришлось пересесть на ггуф, потому что exl2 просто нереальное говнище выдает, сейчас попробовал - то же самое, потому и бомбанул.

Аноним 17/10/24 Чтв 21:01:08 #404 №921450

>>921069
Охладите пельмень, я оцениваю её полезность.

Сейчас потестил на английском Theia-21B-v2b-Q5_K_M.gguf и после нескольких свайпов и проб параметров она позволила общаться с персонажем который описан двумя фразами, одна из которых его характеристика, другая его реплика, лучше чем с основным персонажем карточки.

Хотя иногда может ломаться и выкидывать куски примеров сообщений или ранее написанного текста, или игнорить инструкции, а так же весьма хорни.

Вообще так и не понял чего сначала глючила, но как только поймал первые несколько сообщений по небходимости вручную отредактировав, дальше всё пошло как по маслу.

Аноним 17/10/24 Чтв 21:20:54 #405 №921483

Please stop. The scenario you've described involves deeply troubling and harmful content that goes beyond what is appropriate or ethical

Хуясе, ебать 14б Квен неженка.

Аноним 17/10/24 Чтв 21:27:53 #406 №921492

image.png

задал паверлимит чтобы блок киловатный нахрен не сгорел. Ща будем экспериментировать

>>921483
>14б
ну а шо ты хотел...

Аноним 17/10/24 Чтв 21:31:55 #407 №921494

>>921483
>Квен неженка
Китайцы же. Ещё про площадь спроси, и что там произошло.

Аноним 17/10/24 Чтв 21:36:51 #408 №921499

Аноны, почему в таверне каждый свайп ответа бота каждый раз генерирует одно и то же?

Аноним 17/10/24 Чтв 21:40:31 #409 №921500

.png

>>921499
Натурально одно и то же, хотя в консольке даже сид разный.

Аноним 17/10/24 Чтв 21:41:12 #410 №921501

>>921499
>>921500
а одно и то же - это что именно?

Аноним 17/10/24 Чтв 21:42:35 #411 №921503

>>921501
>а одно и то же - это что именно?
"Я тебя ебу" наверное. Что же ещё.

Аноним 17/10/24 Чтв 21:43:21 #412 №921504

>>921501
Ну буквально одни и те же действия и описания действий бота для каждого свайпа или регенерейта. Не в смысле что залупилось с предыдущими сообщениями, а именно в этой ситуации всегда независимо от настроек таверны один ответ.

Аноним 17/10/24 Чтв 21:44:11 #413 №921505

>>921503
нет ну....
может быть там "ты меня ебешь, ах!"...

>>921504
чел показывай давай. Ты нас тут извращениями не удивишь

Аноним 17/10/24 Чтв 21:47:23 #414 №921506

>>921504
Ну кидай уж заодно и название модели, настройку сэмплеров. В принципе если модель маленькая и температура низкая, а ты говоришь с моделью короткими фразами, то ей остаётся мало простора для фантазий.

Аноним 17/10/24 Чтв 21:48:30 #415 №921508

Что качать на 4060ти 16гб?
Aya-23-35B пойдет или не потянет уже?

Аноним 17/10/24 Чтв 21:50:50 #416 №921511

>>921508
п.с
мне самое важно чтоб норм русек был если что. Про 20б модели в шапке чет вобще 0 описания

Аноним 17/10/24 Чтв 21:51:39 #417 №921513

.png

>>921505
>>921506
Температура 5 для второй крутки после регенерейта была, обычно 1 - оно собсно вообще не реагирует ни на что хоть температуру крути хоть мин-п. По ощущениям проблема не с моделью как будто, а че то где то наебнулось.

Аноним 17/10/24 Чтв 21:51:47 #418 №921514

>>921508
>Aya-23-35B пойдет или не потянет уже?
Да даже 70B пойдёт, если оперативной памяти хватит. Вопрос в том, устроит ли тебя такая скорость.

Аноним 17/10/24 Чтв 21:56:21 #419 №921519

>>921513
>По ощущениям проблема не с моделью как будто, а че то где то наебнулось.
Даже не знаю, с год назад в Кобольде такие глюки были, с тех пор не встречал. Попробуй другую модель что ли.

Аноним 17/10/24 Чтв 21:58:33 #420 №921521

.png

>>921519
Щас потыкал пресеты, на пикрелейт таки соизволило родить что то другое, вернулся обратно поставил top p на 0.73 и чтобы вы думали? Когда ставил на 0.2 эффекта не было, но на 0.73 ответ таки изменился, но лейтмотив тот же.

Аноним 17/10/24 Чтв 22:02:01 #421 №921524

>>921513
какой объем контекста чата нарастил к этому моменту?

Аноним 17/10/24 Чтв 22:02:44 #422 №921527

>>921524
>>921500
2473

Аноним 17/10/24 Чтв 22:07:34 #423 №921530

>>921527
хм... ну да, странная хуйня. Тоже склоняюсь к тому что модель залупная.
Другую бери. На 2к контекста даже не знаю что можно сделать, чтобы вызвать такую хуйню, кроме кривых весов в модели.

Аноним 17/10/24 Чтв 22:08:13 #424 №921531

>>921530
Так а другую - какую тогда?

Аноним 17/10/24 Чтв 22:11:41 #425 №921537

>>921513
Сегодня гемму крутил, тоже ебанулась в повторы пока инструкт не отключил.

Аноним 17/10/24 Чтв 22:16:04 #426 №921544

>>921366
>почему ты неправ.
Так я прав во всём, ты просто не можешь понять в силу своей ограниченности. А твоё "врёти" просто пиздец.

>>921383
>[тесла х8, теслоа х8, тесла х8]
Потому что идёт проброска kv на каждую карту, скорее всего х1 тебе всю малину гробил, особенно если gen 3 и ниже.

>>921513
На убе встречал такое же. Порядок семплеров в порядке? Топ & мин п предпоследними, температуру в конец.

Аноним 17/10/24 Чтв 22:16:33 #427 №921545

>>921537
>Пока инструкт не отключил
Тоже кстати идея - пресет поменять.

Аноним 17/10/24 Чтв 22:19:13 #428 №921548

.png

>>921544
Он дефольный.
Так правильно понял что температура должна быть на верху, а топ-мин п утащить в самый низ перед миростатом?
Имеет разницу что из них будет ниже?

Аноним 17/10/24 Чтв 22:20:03 #429 №921549

>>921548
> на верху
Внизу, обезумел от нейрокума уже

Аноним 17/10/24 Чтв 22:23:37 #430 №921552

image.png

так подскажите кобольд должен как таверна у меня в браузере открыться же или как? Я вот сейчас нихуя не понимаю мне ждать или я чет не так делаю, сложно.

Аноним 17/10/24 Чтв 22:24:06 #431 №921553

>>921548
>Имеет разницу что из них будет ниже?
Поставь пресет Mirostat. От такого количества сэмплеров, как у тебя, любая модель с ума сойдёт.

Аноним 17/10/24 Чтв 22:26:08 #432 №921556

>>921553
Пресеты для Text Completion на самом верху этой вкладки Таверны.

Аноним 17/10/24 Чтв 22:27:12 #433 №921557

>>921531
да гемму 27б
нормальная проверенная народная модель. еще и меньше по объему чем твоя

чё ты этого нонейма взял-то?

>921552
кобольд говно же монолитное...даже елабуга лучше

Аноним 17/10/24 Чтв 22:31:29 #434 №921562

>>921557
>кобольд говно же монолитное...даже елабуга лучше
Если рассматривать его чисто как сервер для Таверны, то у него куча плюсов. Stable release и всё такое. Ну и родной его интерфейс иногда пригождается.

Аноним 17/10/24 Чтв 22:34:01 #435 №921565

>>921557
>>921562
Мне для таверны да. Но у меня нихуя не работает. Он же должен в браузере открыться или нет аноны? А то мне не ссылки не дает ни окна нового ничего

Аноним 17/10/24 Чтв 22:34:41 #436 №921566

>>921548
Порядок семплеров важен, причём не меньше, чем параметры этих самых семплеров. Кроме случаев, когда семплер не работает, как твой top_p на единице. Я бы вверх закинул реп пен, топ_к, топ_а, тейл фри, потом типикал п, мин п, и в конце температура. Остальное вряд ли нужно вообще. Судя по количеству семплеров, у нейросети просто не остаётся токенов, чтобы тебе ответить по-другому - ты всё нахуй вырезал семплингом. Собери слово "счастье" из букв "Ж", "О", "П", "А".

Аноним 17/10/24 Чтв 22:39:45 #437 №921571

>>921566
> Судя по количеству семплеров
Так там половина выключены и стоят на 0 же.
Но за порядок спасибо, сейчас попробую.

Аноним 17/10/24 Чтв 22:41:18 #438 №921573

>>921521
Ну с такими значениями топП это ещё можно понять. ТопП 0.2 - это вообще один токен почти всегда будет оставаться, 0.73 - тоже не густую выборку оставит в большом кол-ве ситуаций. Но вот МинП 0.2 тоже выкидывает много, но не так сильно, и что-то там должно оставаться, что давало бы разнообразие. Особенно при высокой температуре первым сэмплером. Так что выглядит как баг.
>>921566
Это же просто полный список для изменения порядка. На скрине выше у него только минП, температура и реп пен из них всех включены. Если только таверночник не налажал, и какие-нибудь сэмплеры включены, даже если не стоит галочка на их отображение.

Аноним 17/10/24 Чтв 22:44:53 #439 №921577

image.png

>>921492
жора память на картах выделил, но упал с ошибкой.
0 девайс - 3070.
Попробую его перекомпилить...

Аноним 17/10/24 Чтв 22:54:36 #440 №921585

>>921412
> дай наводку что-ли, с чем знакомиться
Да как бы с основами, бумагу про принципы пост-тренировочного квантования ( https://arxiv.org/pdf/2210.17323 ) ведь наверно читал и понял, раз ты с к-квантами ознакомился, или ты просто их перечисление глянул? И в классическом gptq, и в жоре, и в exl2 величины бьются на чанки для представления в меньшей битности с нормировочными константами для каждого из них. Небольшие отличия в принципах/соотношении группировки весов и представления, но суть идентична. В случае k_x квантов жоры разные компоненты слоя, головы и прочее квантуются в разную битность согласно шаблону, в случае imat или exl2 для каждого из них происходит оценка "важности" по перплексити, дивергенции логитсов и другим критериям (они за последний год нормально так развились с простой оценки вклада в перплексити в начале), после чего используется не фиксированное значение а посчитанное оптимальное для конкретной конечной битности.
> как только GPTQ формат сдох - мне пришлось пересесть на ггуф, потому что exl2 просто нереальное говнище выдает
Это вдвойне странно ибо методы имеют одинаковую природу и за счет подбора распределений exl2 последний выходит эффективнее. Можно понять переход из-за возможности частичного оффлоада чтобы катать сетки побольше, но причина этой самой "деградации" очевидно не в формате.
>>921483
https://www.youtube.com/watch?v=SkRTJ0WYKS8
>>921513
Галочки do_sample стоят, консоль убы или таверны на ошибки в запросе случаем не ругается? Сбрось все параметры, например выбрав шаблон, отключи дополнительные и проверь галочки в самом низу. Здесь нет семплинга и выглядит будто оно фаллбечится выключая его, или стоит какая-то агрессивная жесть, что убивает все токены кроме главного. А то что температура 5 - если она стоит последней то при агрессивной отсечки роли не играет.
>>921544
> Так я прав во всём
Ок, врачу только об этом не забудь сказать.

Аноним 17/10/24 Чтв 23:00:37 #441 №921594

>>921571
>половина выключены
>>921573
>Это же просто полный список
Я в душе не ебу за миростаты или квадратичный семплинг, например. Потому уточнил, что порядок для выключенных не важен. Раз они выключены - окей, они не важны. Основной посыл был в том, чтобы задвинуть темпу вниз. И, наверное, всё-таки сделать её пониже. Мин_п вообще задвинул бы куда-то в сотые доли.
>и какие-нибудь сэмплеры включены
Жора как раз недавно обновлял семплинг пайплайн, лол.

Аноним 17/10/24 Чтв 23:04:51 #442 №921599

>>920446
Ага, тестил на своих самописных карточках. Но это так, экспериментов ради, проверить возможности модельки. На постоянке же угораю по традиционно-скрепному куму без извращений.

>>920692
База. Как универсальная модель, Гемма 27 - просто топчик.

>>921562
На кобольд ноют разве что криворучки-неосиляторы. Если внимательно почитать вики, разобраться, то в коболде можно рпшить не хуже чем в таверне. Смысл ставить таверну есть только в том случае когда нужны групповые чаты и прочие узкоспециализированные фичи.

Аноним 17/10/24 Чтв 23:06:52 #443 №921604

>>921552
Должен в браузере. Ты наверное галку снял. Посмотри в настройках перед запуском там есть опция "Запуск браузера"

Аноним 17/10/24 Чтв 23:10:46 #444 №921612

>>921577
>жора память на картах выделил, но упал с ошибкой.
Для CUDA0 наверное tensor_split вообще нужно в 0 ставить, чисто под контекст. И размер контекста подбирать, чтобы в 8гб влез.

Аноним 17/10/24 Чтв 23:11:37 #445 №921613

>>921604
Да все запустилось. Галку не снимал просто пришлось минут 5 наверное первый раз подождать а ч не дожидался и перезапускал. Сейчас куда быстрее уже стало.

Аноним 17/10/24 Чтв 23:17:18 #446 №921618

>>921613
>минут 5 наверное
Ты там с Луны файл модели грузишь что ли?

Аноним 17/10/24 Чтв 23:32:59 #447 №921634

>>921618
>Ты там с Луны файл модели грузишь что ли?
Кобольд при первом запуске новой версии что-то мутит, может Дефендером распаковываемые файлы проверяются, хз. Где-то версий 10 уже так.

Аноним 17/10/24 Чтв 23:35:10 #448 №921637

>>921634
>Дефендером
Отключай.

Аноним 18/10/24 Птн 00:02:46 #449 №921676

image.png

да сука блядская
пересобрал
не хочет 3070 с теслами заводиться

Аноним 18/10/24 Птн 01:41:45 #450 №921700

https://www.reddit.com/r/LocalLLaMA/comments/1g60osq/use_prolog_to_improve_llms_reasoning/

Аноним 18/10/24 Птн 02:24:01 #451 №921712

>>921700
я экспериментировал с этим подходом еще во времена первой gpt-4 turbo
как и всегда с символическим подходом наткнулся на ограниченность возможностей языка формальной логики для работы с естественным языком
в некоторых случаях даже сам испытывал сложности записи задачи в виде программы пролога, чего уж там llm'ке

Аноним 18/10/24 Птн 02:27:21 #452 №921714

>>921712
Но попросить сетку перевести задачу в пролог или другой язык, а потом уже вставить как задачу - все еще хорошая идея, я думаю
Я до этого только с джейсон игрался, но там только подача информации

Аноним 18/10/24 Птн 02:29:10 #453 №921716

20241018022620.jpg

>>921676
короче помогла пересборка с параметром
LLAMA_CUDA_MMV_Y=4
вот тут увидел
https://github.com/ggerganov/llama.cpp/issues/3740
влезло только 2к контекста в 8 гигабайт. Не уверен на самом деле, что все 8 гигабайт карты заняты контекстом. Наверняка там еще дохуя всякой служебной фигни...
В итоге конфигурация из 5 карт - одна 3070Ti, 4 теслы p40. Сплит 0,26,26,26,26.
Генерация - просто пиздец. На старте при отсутствии контекста 2.5т/с. Для сравнения - на 4 теслах со сплитом модели 15,26,26,26 генерация была примерно 6-7т/с емнип.
Думаю, причиной может быть неизвестная опция сборки которую я применил...

При запуске на 4 теслы этой кастомной жорой со сплитом 15,26,26,26 генерация на старте 5т/с
Рейт стал ниже. Повлияло или то, что у меня теперь 5 карт, или неизвестный параметр сборки...

Если тут есть люди которые могут понять смысол этого параметра и объяснить - было бы здорово.
Хз, может на 3090 было бы лучше..... не уверен. Найти бы для проверки у кого-нибудь 3090...

Аноним 18/10/24 Птн 02:44:20 #454 №921723

>>921716
https://github.com/ggerganov/llama.cpp/blob/master/docs/build.md#cuda
только это видел

Аноним 18/10/24 Птн 02:48:15 #455 №921725

>>921714
На самом деле подобных проектов тьма уже
Вот например: github.com/NucleoidAI/Nucleoid
Ни один не взлетел из-за того, что с увеличением сложности задачи, все сложнее и сложнее формализовать задачу

Аноним 18/10/24 Птн 02:52:51 #456 №921727

>>921716
какую модель гоняешь на этом?

Аноним 18/10/24 Птн 02:55:01 #457 №921729

>>921727
magnum 123b Q5 пока что мой фаворит.

Аноним 18/10/24 Птн 03:00:12 #458 №921733

>>921729
понял. что там с охладом, самому комфортно? соседям не мешает? представляю какой гул стоит. ну и да, а что по матери у тебя? какие слоты pcie?

Аноним 18/10/24 Птн 05:39:09 #459 №921783

17292055580700.png

>>920788
Походу, это ближайшее будущее всех свободных моделей в той или иной степени, даже официальные модели будут срать рекламой. Попомните мои слова, скоро сою будем добрым словом вспоминать.

Аноним 18/10/24 Птн 07:34:44 #460 №921825

Тесло-воды, какие температуры считаете нормальными для карты? У нее конечно есть тротлинг, но чет температуры около 95 градусов на хотспоте напрягают. Кажется что так не должно быть, кажется что она не протянет долго в таком режиме.
Может кто знает какой нормальный температурный режим работы для таких видюх?

Аноним 18/10/24 Птн 08:59:04 #461 №921933

.png

>>921825
> какой нормальный температурный режим работы для таких видюх?

Аноним 18/10/24 Птн 09:15:35 #462 №921944

>>921933
Ну блять, я это и сам видел.
Речь о том что эта карта у меня не серверной стойке стоит, а в бытовом корпусе который неспособен обеспечить 35 градусов при 300TDP

Аноним 18/10/24 Птн 09:20:58 #463 №921947

>>921825
>Тесло-воды, какие температуры считаете нормальными для карты?
Под нагрузкой держу от 60 до 70. Но 70 это генерация во Флюксе, ЛЛМ редко до 65 прогревают.
Главное охлаждение нормальное прихерачить.

>>921933
Вы заебали. Сверху температура ВОЗДУХА В СЕРВЕРНОЙ при работающей тесле, а снизу ТЕМПЕРАТУРА ПРИ ХРАНЕНИИ НА СКЛАДЕ.

Аноним 18/10/24 Птн 09:45:04 #464 №921957

.png

>>921947
Ну чет хз, если поискать по форумам поддержки зелёных, пендосы внезапно употребляют оперейтинг температуре именно в контексте температуры карты, хотя мб я не так пынямаю.
nvidia-smi -q выдает такое.

Аноним 18/10/24 Птн 10:10:28 #465 №921966

image.png

>>921957

Аноним 18/10/24 Птн 10:11:10 #466 №921968

>>921966
Точна

Аноним 18/10/24 Птн 11:24:40 #467 №922016

image.png

>>921733
охлад выглядит вот так
самому - шумно. Когда раму какую-нибудь сделю - вынесу на балкон
мать btc79x5, в ней 5 слотов которые можно использовать как 5 штук x8 или два x16 и один x4, судя по биосу, но я не проверял этот режим.
>>921825
>какие температуры считаете нормальными для карты?
на ллм у меня работает примерно на 65 на максимальных оборотах.
SD может прогреть до 75.
из корпуса мать вс теслами вытащи - конвекция убавит 10 градусов.

Аноним 18/10/24 Птн 11:51:29 #468 №922052

>>922016
>охлад выглядит вот так
Каждый раз поражаюсь что этой микрохуйни, примотанной скотчем тебе хватает.
мимо-другой-тесловод

Аноним 18/10/24 Птн 11:55:36 #469 №922058

>>921729
>magnum 123b Q5 пока что мой фаворит.
Пробовал, но остановился на mradermacher/Luminum-v0.1-123B-i1-GGUF в 4-м кванте. Умнее при сохранении всех свойств оригинала плюс меньше косяков. Если будешь пробовать, то сделай с ней бенчмарк, у меня с 16к контекста 4,3 т/c примерно выходит. Может и нет сильного проседания у тебя, ведь этот квант меньше.

Аноним 18/10/24 Птн 12:02:51 #470 №922067

>>921716
>короче помогла пересборка с параметром
Попробуй на дефолтной сборке без ровсплита - интересно, запустится ли.

Аноним 18/10/24 Птн 12:21:48 #471 №922076

>>922016
> SD может прогреть до 75

>>921947
> Но 70 это генерация во Флюксе, ЛЛМ редко до 65 прогревают

А как вы "содержите" ее. С собой в одной комнате или в другом месте и винты на максимум? Просто у меня этот кипятильник на 72(82 HS) градуса херачит.

Аноним 18/10/24 Птн 12:26:06 #472 №922079

>>921825
Все что до 85 градусов по среднему - норм. 95хотспот многовато на самом деле, перебери ее ибо скорее всего что-то криво стоит или беды с термухой. Но даже так сойдет в целом.
> кажется что она не протянет долго в таком режиме
Ну так, хватит лишь на десяток лет а потом скопытится.
>>921933
> enviroment
Попроси ллм объяснить значение в данном контексте и не вводи в заблуждение.
>>922058
Люмиум поддвачну, чистый магнум иногда бывает унылым и хорош прежде всего в куме, а так и старая люмимейд интереснее оказывается.
> с 16к контекста 4,3 т/c
Сколько по отдельности обработка промта и генерация?