Локальные языковые модели (LLM): LLaMA, Mistral, Gemma и прочие №80 /llama/

Аноним 18/09/24 Срд 19:29:32 #1 №890904

Llama 1.png

Альфа от контекста.png

KL-divergence statistics for Mistral-7B.jpg

17256369658530.png

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Рейтинг моделей для кума со спорной методикой тестирования: https://ayumi.m8geil.de/erp4_chatlogs
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>885509 (OP)
>>878677 (OP)

Аноним 18/09/24 Срд 19:35:01 #2 №890915

Стандарты.png

>>890901 →
Блядь да сколько можно то? Когда наконец заебенят нормальный формат, чтобы все на нём сидели?

Аноним 18/09/24 Срд 19:38:40 #3 №890923

>>890904 (OP)
Идеи ноутбуков для быстрого инференса

В этом году начали выпускать ноутбуки на базе ARM процессора Snapdragon X Plus/Elite, по сути это прямой конкурент продукции Apple с их M2/M3/M4 процессорами. Судя по всему, Snapdragon X должны быть неплохи для генеративных нейросетей за счёт встроенного мощного NPU, как минимум на уровне Apple M2, а то и даже M3.

Про сам процессор и NPU:
https://www.hardwareluxx.ru/index.php/news/hardware/prozessoren/55606-hexagon-npu-qualcomm-planiruet-predstavit-samyj-bystryj-npu.html

Про уже доступные модели ноутбуков:
Qualcomm announces 20+ Snapdragon X Elite/Plus laptops
https://videocardz.com/newz/qualcomm-announces-20-snapdragon-x-elite-plus-laptops

Производительность в llama.cpp:

Performance of llama.cpp on Snapdragon X Elite/Plus
https://github.com/ggerganov/llama.cpp/discussions/8273

> E.g. here the performance of a Snapdragon X Plus (CPU-only, but Q4_0_4_8 optimized) vs. a 10-core M2 (CPU and GPU) for the new Llama3-8B Groq-Tool-use optimized local LLM. Yes, the Plus is still slower than the M2, but not by much, and the Elite is probably faster.
https://github.com/ollama/ollama/issues/5360#issuecomment-2244357036

Аноним 18/09/24 Срд 19:42:28 #4 №890928

>>890923
Выглядит как хуйня. И скорости разве что с М1 сравнивать. Даже М2 Ультра просто космос по сравнению с этим, Снап вообще не конкурент. Я уже молчу про М3.

Аноним 18/09/24 Срд 19:45:54 #5 №890936

>>890923
>за счёт встроенного мощного NPU
Где скорость памяти, Зин? А по вычислениям достаточно 6 ядер, а у меня 12.
>>890928
И все они дружно сосут у 3090.

Аноним 18/09/24 Срд 19:46:41 #6 №890938

>>890915
Самый смак в том, что пишут мол и старый 123b мистраль работает лучше с измененным промпт форматом
Тоесть все пользовались кривым, так как в таверне был кривой как бы не со времен первых мистралей, кек
Осталось выяснить какой лучше, там что то еще про лишний пробел после <s> писали в комментах, сижу щас думаю че куда

Аноним 18/09/24 Срд 19:46:49 #7 №890939

>>890923
Ускорение инференции на Qualcomm'овских NPU в данный момент доступно, например, в https://github.com/UbiquitousLearning/mllm

Статья от разработчиков:
Empowering 1000 tokens/second on-device LLM prefilling with mllm-NPU
https://arxiv.org/html/2407.05858v1

Аноним 18/09/24 Срд 19:50:08 #8 №890944

>>890936
> И все они дружно сосут у 3090.
По памяти сейчас всё сосёт у яблока. Только на яблоке можно получить 128/256 памяти с нормальной скоростью. А по производительности М3 Ультра на уровне 3090.

Аноним 18/09/24 Срд 19:53:04 #9 №890955

>>890923
>>890939
Все это хуета пока нет быстрой памяти подведенной напрямую к процессору.
Что бы его нпу мог ее использовать. Это нужно создавать новую архитектуру процессора, как это сдалала эппл. Так как все существующие сейчас дадут максимум 2 канала ддр5, в лучшем случае.
Это 100 гб/с максимум.
Нету в пользовательской технике контроллеров памяти хотя бы для 4 каналов. Хотя там и 4 было бы мало. 8 ддр5 каналов уже интересно звучит, с мощным процессором. Там уже теоретические скорости под 400 гб/с, что на уровне средних видеокарт
Но как ты понимаешь шанс появления ноутбуков или телефонов с 4 или 8 каналами быстрой ддр5 маловат

Аноним 18/09/24 Срд 19:53:41 #10 №890957

>>890938
А я ХЗ что они там поменяли. Я проверил, и у меня никаких лишних <s> нету, как и лишних пробелов/переводов строк.
Вручную добавлять <s> нет смысла, это бос токен, его кобольд сам добавляет.
Короче хуйня из под коня.

Аноним 18/09/24 Срд 19:55:30 #11 №890959

>>890957
Думаю зависит от бекенда, ллама.спп может как добавлять так и проебываться в новой модели. Не ебу короче, надо тупо сесть и проверить

Аноним 18/09/24 Срд 20:08:18 #12 №890977

>>890957
>А я ХЗ что они там поменяли.
Да вроде ничего и не поменяли. А только пишут, что было три версии системного промпта, так вот v2 как раз для Large и Small.
В Таверне в настройках было:
"input_sequence": "[INST] ",
А нужно было якобы:
"input_sequence": "\n</s>\n[INST]\n",
И так мол было изначально задумано. Хз, я попробую на Ларже.

Аноним 18/09/24 Срд 20:10:07 #13 №890978

изображение.png

>>890959
Нормально там всё добавляется, было время, когда глючило, но сейчас всё починили.
>>890977
Переводы строк ХЗ откуда они взяли, а </s> добавляется в другом месте.
Интересно, они хоть вывод своих настроек смотрят?

Аноним 18/09/24 Срд 20:13:00 #14 №890985

>>890978
> а </s> добавляется в другом месте.
А другом месте оно тоже добавляется. А в этом якобы фича такая.

Аноним 18/09/24 Срд 20:49:28 #15 №891037

>>888606 →
>Можешь мелочь типа 2-4б натренить под конкретную задачу
как? дай гайд, у меня 12 кеков если че, хватит?

Аноним 18/09/24 Срд 21:10:08 #16 №891064

counterpoint-qualcomm-snapdragon-x-elite-specs-at-a-glance.jpg

graph-MemoryBandwidth.png

>>890936
>Где скорость памяти
136 Gb/s у Elite. Медленнее топовых маков, но обычные M2 ебёт.

Аноним 18/09/24 Срд 21:52:15 #17 №891127

https://www.reddit.com/r/LocalLLaMA/comments/1fjxkxy/qwen25_a_party_of_foundation_models/
Отдали кучу новых моделей, до 72 версии 2.5 и Qwen2-VL-72B-Instruct
Ну, вроде норм
По цензуре у них там печально, на сколько помню писали
Хотя это могли быть настройки апи

Аноним 18/09/24 Срд 22:52:14 #18 №891197

https://qwenlm.github.io/blog/qwen2.5/
Дожили, китайцы как на новый год подарков накидали, еще и под апач большинство моделей
Заебись, жду ответа от рептилойдов

Аноним 18/09/24 Срд 22:54:02 #19 №891200

1537177416147461466.jpg

Аноны как мистраль-нему и его файнтюны сделать менее хорни ?любое РП разбивается когда персонаж через 3.5 предложения зовет в постель.

Аноним 18/09/24 Срд 22:57:42 #20 №891206

>>891200
Может это и предвзято, но я давно заметил что без-цензуры модель Llama 3 > мистраля, причем на порядок.

Аноним 18/09/24 Срд 22:58:25 #21 №891207

>>891200
Написать нормальный системный промпт. В мистралях наоборот мало такого по сравнению с рп-тюнами.

Аноним 18/09/24 Срд 23:03:42 #22 №891210

>>891197
Там соя пиздец, оно неюзабельно. Даже на ниггере схлопывается. В рп на любых движениях к сексу рассказывает лекции о недопустимости такого поведения, ещё и бывает в сообщении внизу дописывает "я больше не буду писать такие сообщения", лол. У 72В по логике не заметил никаких изменений по сравнению с прошлым квеном, ничем не лучше ламы, картиночки со скорами наверняка нарисованы в пейнте из головы. Русский стал складнее писать, но очень тупой, раньше он больше ошибался в грамматике, но хоть не тупил так.

Аноним 18/09/24 Срд 23:04:19 #23 №891211

Сап, друзья.
Выкачал 500 гигов Reflection, пытаюсь завести через питон и transformes
Код: https://pastebin.com/Pkbu63NS

Скрипт просто отжирает все мои 64 гига оперативки и помирает.
Надо брать больше? Или я все же что-то делаю не так?
Спасибо

Аноним 18/09/24 Срд 23:05:45 #24 №891213

>>891211
> Надо брать больше?
Ну да, 300 гигов ОЗУ хотя бы.

Аноним 18/09/24 Срд 23:06:43 #25 №891215

>>891210
Почему ты просто не скачаешь koboldcpp c языковой моделью без цензуры, соответствующей твоей VRAM?

Аноним 18/09/24 Срд 23:08:23 #26 №891216

>>891210
Тогда это выстрел в член, с чем их и поздравляю
Наверняка еще и прошлись методом аблитерации, только действуя наоборот, что бы нельзя было расцензурить ей же
Как это сделали в пхи3, о чем недавно писали те кто пытался ее аблитерировать и догадался о том что могло произойти

Аноним 18/09/24 Срд 23:08:53 #27 №891217

>>891207
Ну без тюнов грустно, Мистраль в оригинале пишет суховато на мой вкус.

Аноним 18/09/24 Срд 23:12:00 #28 №891221

>>891211
> Код:
Клод написал?
> Reflection
Как ты узнал об этой хуйне, но пропустил что она скам нерабочий?

Аноним 18/09/24 Срд 23:16:20 #29 №891224

>>891210
апи или сам запускал? На апи фильтры, так что это мало о чем говорит

Аноним 18/09/24 Срд 23:17:28 #30 №891226

>>891216
Челики уже жалуются что тесты новой 72В по знаниям местами на уровне qwen2 7В, особенно в вопросах современной культуры. Как-то китайцы тут очень жидко серанули, выдав эталонную антибазу.

Аноним 18/09/24 Срд 23:25:23 #31 №891233

>>891216
>Как это сделали в пхи3
Там датасет вилкой же почищен до блеска, аблитерации просто нечего расцензуривать.
>>891226
Я один сижу на мистрали 123B и не выёбываюсь?

Аноним 18/09/24 Срд 23:27:00 #32 №891238

>>891221
Гпт написал.
Я не помню где узнал, в каком-то тг канале, забайтился на то, что оно "думает", как о1.
Херня, сносить, качать из шапки треда и всё?

Аноним 18/09/24 Срд 23:27:44 #33 №891242

>>891226
На реддите пока только положительные отзывы, надо набрать статистику для выводов
Не уверен что стоит качать, наверняка ллама.спп еще дня 2 будет криво их запускать как минимум
Но если есть добровольцы попробуйте с последним релизом запустить что нибудь

Аноним 18/09/24 Срд 23:32:43 #34 №891252

>>891233
>сижу на мистрали 123B
выебываешься

>аблитерации просто нечего расцензуривать.
Она не расцензуривает, она убирает отказы модели что то делать или писать. Предполагают что в пхи3 перед выауском сделали наоборот - нашли все веса с отказами и отрезали другие варианты где модель отвечала. В итоге нечего ращьлокировать и модель кажется стерильной

Аноним 18/09/24 Срд 23:37:09 #35 №891264

1726239524384.png

1580039737572.png

>>891224
Кванты Жоры, что сами китайцы выложили. Причём на русском удаётся прорваться через цензуру. Видимо они там жестко резали всё на английском, на нём вообще непробиваемая цензура.
>>891233
> Я один сижу на мистрали 123B и не выёбываюсь?
Да. Он слишком лупится, в длинном рп почти неюзабелен, приходится начинать роллить после 20-30 сообщения. Ещё и скорость такая себе, особенно на русском.

Аноним 18/09/24 Срд 23:37:13 #36 №891265

>>891217
>Мистраль в оригинале пишет суховато на мой вкус.
Чистый Ларж 2 пишет очень сочно, если его раскачать. Всё там есть.

Аноним 18/09/24 Срд 23:40:10 #37 №891272

>>891238
Если будешь не в помойных тг каналах сидеть или даже не на хабре, будешь знать что и о1 тоже кал, который лучше 3.5 сонета процентов на 15% а стоит на порядок больше. И все это делает компания пидорасов во главе с буквально пиздаболом, которую закидывают миллиардами халявных бабок.

Аноним 18/09/24 Срд 23:41:29 #38 №891275

>>891264
>Он слишком лупится, в длинном рп почти неюзабелен, приходится начинать роллить после 20-30 сообщения.
Магнум 123В, потом Luminum - уже считай 2мб текста мне нагенерил и не лупится вообще. А как пишет - поэзия! И хорошо соображает. Ещё немного дотянуть и вообще было бы отлично.

Аноним 18/09/24 Срд 23:47:27 #39 №891288

>>891275
Текст кто угодно умеет генерить. А вот в рп он сливается. Вроде начинаешь заебись, а потом в какой-то момент начинает всё хуже и хуже, сидишь и ролишь с черепашьей скоростью. Я уже раз много раз пытался, но в итоге всегда дропал, т.к. под конец уже литералли хуже мелких 12В-22В моделей становится. Люмамэйд - вообще никаких улучшений по сравнению с ванилой, просто более ебливая. Магнум получше, но всё равно сильно хуже 70В на длинных заходах.

Аноним 18/09/24 Срд 23:51:03 #40 №891293

>>891272
Ну это всё здорово, но я оперирую тем что мне понятно и доступно.
Подскажешь не помойные места? Хочу понять как правильно.

Аноним 18/09/24 Срд 23:57:45 #41 №891298

1583600649892.png

1689504405637.png

>>891264
Что-то пиздец какая разница в ответах. На русском всё норм, на английском анальная цензура и соя. Заебись китайцы отработали, даже не знаю как это оценивать, сразу и заебись и кал. На пиках разница в одной строчке системного промпта про язык ответа.

Аноним 19/09/24 Чтв 00:00:42 #42 №891303

>>891298
Забавно, наверняка китайский вычищен еще сильнее

Аноним 19/09/24 Чтв 00:05:50 #43 №891312

>>891127
Квен и правда цензурированный, боюсь, не API.

На русском лучше.
Контекст хорошо.
Но только возникает новая проблема.

Я словил ее еще на Qwen2-VL. Спросил про свою внешность — сказала, что обсуждать внешность не может.
Т.е., вопрос безобидный, но сенситив тема идет нахуй.

Короче, цензура дает фолс позитив. =(

>>891211
Ты прикалываешься, я надеюсь?

>>891238
Ты еще и способ выбрал заведомо не рабочий. =) Я хз, че ваще творишь.
Тебе в шапке разжевали, а ты говно себе в штаны напхал, да еще 500 гигов зачем-то.
Но оффенс.

>>891242
Да все там нормально, модели обычные же.
Еще и Qwen2-Coder обещают пизже Deepseek-Coder-V2-Lite почти везде. Мое почтение.
Но, цензура, ну это пиздец.
И тоже не аблитерируешь, как я понимаю.

>>891272
Надо сидеть в нормальных тг-каналах, там рефлекшен сразу же обоссали. =)
Про хабр гоготнул. Буквально хуже некуда, а ты пишешь «даже».

Аноним 19/09/24 Чтв 00:17:31 #44 №891317

>>891288
>Вроде начинаешь заебись, а потом в какой-то момент начинает всё хуже и хуже
Не соглашусь. Просто нельзя делать модель гейм-мастером. Кажется никакая модель этого пока не может. Если же ведёшь сам, то модель дописывает очень хорошо и учитывает все важные детали. Никакого провисания, персонажи как живые. Правда у меня уже 6к токенов саммари - на такой базе уже можно сообразить, что к чему.

Аноним 19/09/24 Чтв 00:20:39 #45 №891320

>>891317
И кстати Магнум-базед модели кажется несколько кривоваты. Когда перешёл на Люминум, сразу заметил улучшение восприятия - а все полезные свойства Магнума сохранились. Рекомендую.

Аноним 19/09/24 Чтв 00:49:26 #46 №891327

Вопрос сеткам

Что получится при сгорании килограмма кислорода и килограмма водорода?

На сколько я смог выпытать и вспомнить ответ 1.125 кг и остаток водорода на 0.875 кг
Родила ответ пару раз запутавшись но все таки смогла - новая мистраль, вроде верно, не ебу
Хуй его знает на сколько этот вопрос сложный
Проверял вырезали ли из нее химию как "опасное" направление

Аноним 19/09/24 Чтв 01:07:17 #47 №891346

>>891312
> На русском лучше.
На русском вообще заебись, оно даже двач знает. Причём пишет топово по-русски. Если не трогать английский, то в целом годная модель, и в рп неплохо умеет. Но как только начинается английский - соей заливает всё до краёв.
>>891327
Квен через раз справляется, пики 3 и 4. Может семплинг и русский подсерают ещё. А вот систему уравнений он не смог решить.

Аноним 19/09/24 Чтв 01:12:29 #48 №891352

>>891346
квен какой? их много

Аноним 19/09/24 Чтв 01:13:06 #49 №891353

>>891352
Qwen2.5 72B

Аноним 19/09/24 Чтв 02:21:19 #50 №891378

>>890915
Ебать, xckd еще живой и постит комиксы, или это уже нейросетки?

Аноним 19/09/24 Чтв 03:30:41 #51 №891389

>>891378
Комиксу лет десять.

Аноним 19/09/24 Чтв 07:42:04 #52 №891408

Кумрады, объясните почему файнтюны немо при нарастании контекста начинают нещадно резать скорость генерации (с ~10 до 1-2)? На пустом контексте все заебись, скорость приличная. С ламой 3.1 такой хуйни нет, с любым контекстом скорость +- одинаковая.

Аноним 19/09/24 Чтв 12:23:59 #53 №891566

бл я пробовал ету lllllma3.1 ето полная залупа по сравнению с тем же чатомДЖиПиТи или Клауде3.5, что 8b что 70b даж 405b хуита кароч проприетарные модели выйграли можно закрывать тренд

Аноним 19/09/24 Чтв 12:24:52 #54 №891568

ауж про ети квены китайские ваще молчу (тоже хуита)

Аноним 19/09/24 Чтв 12:31:07 #55 №891575

хехе гугл джема бл я помню у нас в соседях жила бабенция которая самогоном торговала у ей была собака по имени джема ето пиздец был конечн))

Аноним 19/09/24 Чтв 12:46:26 #56 №891590

>>891293
https://t.me/lovedeathtransformers
https://t.me/senior_augur
https://t.me/ai_newz

———

У меня грустные новости, я не смог запустить Qwen2-VL-72b на двух теслах. =( А хотелось получить SOTA визуалку дома.
Контекст не влазит, или я в лыжах, хз.

Аноним 19/09/24 Чтв 13:38:52 #57 №891640

tectonicsurfing.png

>>891378
Автору даже сорока нет еще. Через месяц будет.

Аноним 19/09/24 Чтв 14:00:35 #58 №891658

>>891590
>я не смог запустить Qwen2-VL-72b на двух теслах.
Так ведь нет пока ггуфа, да и поддержка от лламы не заявлена.

Аноним 19/09/24 Чтв 14:10:42 #59 №891667

Спермотоксикоз буквально единственный двигатель моец вознр с нецронками и ллм. Как только подрочил - ну и нахер я это делаю, лучше бы прогулялся, все равно это никому неинтересно и работу ты не найдешь

Аноним 19/09/24 Чтв 14:24:26 #60 №891678

>>891293
>Подскажешь не помойные места?
Ты уже в нём лол.

Аноним 19/09/24 Чтв 14:27:06 #61 №891681

Не обсуждали ещё?
https://habr.com/ru/news/844392/

Аноним 19/09/24 Чтв 14:32:58 #62 №891689

Господа, тут были поехавшие скиловые, которые пробовали тренить и менять токенайзер, живые еще? Довольно интересную идейку подкинул один оче умный гуманитарий:
При токенизации русских слов стоит учитывать особенности словообразования, выделять в отдельные токены суффиксы и окончания, отвечающие за склонения и смысловую часть языка. Причем не просто насобирать словарь где они будут, а именно добавить в код препроцессинга приоретизацию подобного подхода при токенизации датасета перед обучением. Тогда модель буквально будет обучена "думать по-русски", сможет делать более разнообразную и интересную речь, используя возможности языка, будет меньше ошибаться.
На первый взгляд имеет смысл, но конечный профит неясен, а может излишний расход токенов вообще перекроет все профиты. Есть желание проверить?

>>890923
Память недостаточно быстра, отписали уже. На маках там 8 каналов памяти и потому могет, бонусом силикон позволяет обрабатывать промт без ультранасилия как на голом профессоре.
>>891037
> 12 кеков
Лору хватит, фулл - никак. Как правило, большинство можно тренить через либу трансформерсов. Грузишь модель, пишешь простую функцию что будет обрабатывать твой датасет в сообщения модели, после
> from transformers import TrainingArguments, Trainer
> training_args = TrainingArguments(
> num_train_epochs=10,
> per_device_train_batch_size=2,
> ...
> )
> trainer = Trainer(
> model=model,
> args=training_args,
> data_collator=data_collator, #Функция - обработчик
> train_dataset=train_dataset,
> )
На обниморде почитай, там хорошо задокументировано и туториалы были.

Аноним 19/09/24 Чтв 14:41:34 #63 №891700

>>891658
Трансформеры и GPTQ прекрасно работают.
С 7b нет проблем в полном кванте на одной.
Вопрос скорости, но на проце медленнее, поверь. =)

>>891689
А как же фулл 0.5б? :)))
Я че-то брался, но у меня не пошло с первого раза и запал пропал.
Ну и датасет я еще не вычистил целиком.

Аноним 19/09/24 Чтв 14:53:20 #64 №891713

>>891681

Так обсуждать-то и нечего пока, модель не зарелизили.

Аноним 19/09/24 Чтв 14:55:21 #65 №891718

Полтора месяца не заходил.

Что там - гемма все еще топ из небольших(на одну 4090) сеток? Нового что-нибудь выпустили?

Аноним 19/09/24 Чтв 14:57:20 #66 №891724

>>891681
По сути, аналог Qwen2-VL-72b, может чуть хуже по статам, но уже не суть.

…с обниморды выпилили. Пам-пам.

Аноним 19/09/24 Чтв 15:44:55 #67 №891775

>>891718
Никогда не была топом, гемма кал. Сейчас Мистраль 22В топ для мелких.

Аноним 19/09/24 Чтв 15:46:15 #68 №891777

>>891775
Гемма лучше всех после старого командра на русском говорила
мимо

Аноним 19/09/24 Чтв 16:18:08 #69 №891826

Безымянный.png

>>891689
>выделять в отдельные токены суффиксы и окончания
При достаточно большом датасете обучение токенизатора и так выделит эти паттерны.
>добавить в код препроцессинга приоретизацию подобного подхода
А вот это уже лишнее. У токенов могут быть и будут алиасы, т.к всё равно это преобразуется в векторы.

Аноним 19/09/24 Чтв 16:23:12 #70 №891834

>>891667
база

Аноним 19/09/24 Чтв 16:29:41 #71 №891840

бл ета lama3.1 70b так медлено работает на rx7900xt явахуе т.е. ей 20гигов памяти маловато буит ето ито с флагом OLLAMA_MAX_VRAM который ограничивает жор по объёму памяти набортной иначе она просто падает изза нехватки памяти, пиздос кароч

Аноним 19/09/24 Чтв 16:33:11 #72 №891844

image

>>891346
>>891127
Ну кум пока непонятный, вроде и лучше чем в проприетарных чаи и даже ремарку про зомбей снаружи нормально отрабатывает, чем многие омлеты на геммах и ламмах не могли похвастаться. Хотя у меня крошечная версия без квантования.

Аноним 19/09/24 Чтв 16:52:30 #73 №891861

>>891777
Сейчас квен2.5 по русскому всех ебёт, на нём реально ощущение как будто гора русского датасета была.
>>891844
Из того что я заметил - квен ахуеть как хорошо инструкции на русском выполняет, лучше чем Мистраль Лардж. Его бы Магнумом полирнуть чтоб чуть ебливее сделать и норм будет. Главное английский не трогать. Ещё дефолтный промпт с <|im_start|>assistant жёстко сои наваливает.

Аноним 19/09/24 Чтв 18:01:57 #74 №891944

>>891826
> и так выделит эти паттерны.
Да, но нет. Если посмотришь дефолтную токенизацию русских слов в той же лламе - там часто этот паттерн нарушается, задача именно соблюсти.
> т.к всё равно это преобразуется в векторы
Именно, у модели будет тенденция к генерации в таком формате, все к этому сводится. Разумеется, нужно тестировать.
>>891840
> OLLAMA
Посмотри в сторону более оптимизированных под амд оберток жоры или сам собери/возьми готовую llamacpp под твое железо. С 70б всеравно будет посос т.к. там больше половины обрабатывает процессор, но в более мелких моделях станет лучше.

Аноним 19/09/24 Чтв 18:17:37 #75 №891952

Новая квен 14b пока охуенчик, на уровне геммы 27 по общению
Судя по тестам 32b ебет на уровне 72b квен предыдущего поколения
Короче заебись, не думал что китайцы с ноги войдут в такую сложную и быстроразвивающуюся сферу с отличными результатами
Мистраль 22 чуть умнее, но опять же от 14b недалеко ушла

Аноним 19/09/24 Чтв 18:26:11 #76 №891956

>>891689
>Довольно интересную идейку подкинул один оче умный гуманитарий
Ебать ты умный конечно. У меня таких идей на два листа тетрадки.

Аноним 19/09/24 Чтв 18:27:09 #77 №891957

>>891952
Немо ебёт их всех в любом случае

Аноним 19/09/24 Чтв 18:32:45 #78 №891971

>>891944
>дефолтную токенизацию русских слов в той же лламе
И? Там практически весь датасет на английском, так что очевидно, что токенизация русского не оптимальная ни с одной из точек зрения.
>Разумеется, нужно тестировать.
Вот как станешь миллионером - сразу и протестируешь. Рублёвые миллионеры не котируются.

Аноним 19/09/24 Чтв 19:46:36 #79 №892080

Пиздец. Я уже два десятка говномоделей скочял а из них в нормальный нсфв промтинг для сд может только Tiger-Gemma-9B-v1a-Q2_K
Чяднт?

Аноним 19/09/24 Чтв 19:57:39 #80 №892091

>>892080
Попробуй magnum-12b-v2.5-kto-Q6_K_L, мне анон с треда посоветовал. Годнота. Пересел на него с Mlewd20b. Спасибо ему.

Аноним 19/09/24 Чтв 20:32:56 #81 №892134

image.png

>>892091
>Q6_K_L
Не пойдет, она не влазит вместе с сдхл в 12 кеков. Качал magnum-12b-v2.5-kto-IQ3_S - тупа не пропускает никакое нсфв с любым инструктом.

Аноним 19/09/24 Чтв 20:34:35 #82 №892137

>>892134
> она не влазит вместе с сдхл
А зачем вместе?

Аноним 19/09/24 Чтв 20:37:16 #83 №892145

image.png

>>892137
Чтобы не доебывало перекатами моделек из рама во врам, у меня не современное железо.

Пикрел на Meta-Llama-3.1-8B-Instruct-abliterated.IQ4_XS кстати, терпимо но несколько расписывает как для т5, а надо чисто бурушное.

Аноним 19/09/24 Чтв 20:37:44 #84 №892147

>>892145
А нет, ASS потеряло.

Аноним 19/09/24 Чтв 20:40:11 #85 №892153

1672743893283.png

Ультрашакалы заказывали? Всего 2.5 гига жрёт на небольшом контексте.

Аноним 19/09/24 Чтв 20:41:04 #86 №892157

image.png

>>892145
Для сравнения Tiger-Gemma-9B-v1a-Q2_K

Аноним 19/09/24 Чтв 20:41:09 #87 №892159

>>892080
qwen2.5 попробуй, 3b неплохая такая, 1.5 или 0.5
Умнейшее из мелочи что сейчас вобще есть, 7b пока сломана
Сколько у тебя вобще свободной врам остается для llm?

Аноним 19/09/24 Чтв 20:47:20 #88 №892169

image.png

>>892159
Обе пробовал

Qwen2-1.5B-Instruct-Abliterated-Q8_0 на пике 2 слишком анстейбл, может срать кавычками, лишними словами

Qwen2-7B-Instruct-abliterated-IQ2_M на пике 3 с ума сходит

Аноним 19/09/24 Чтв 20:47:55 #89 №892172

>>892159
Может дело в самом темплейте инструкта? Какой юзать лучше?

Аноним 19/09/24 Чтв 20:54:17 #90 №892182

>>892172
А нет, никакой разницы похоже, я ж инструкт даю в ноде.

Аноним 19/09/24 Чтв 20:58:38 #91 №892194

>>892169
Это старые, сейчас новые вышли версии 2.5
Ебут все что движется, но там могут быть проблемы с нсфв изза цензуры. Но могут и не быть, если например инструкцию на русском сделать то вроде без цензуры отвечает
Да и думаю на английском смогут

>>892172
qwen все тренены с чатмл, температуру ставь между 0.5-1 минп 0.1 все остальное нейтрализуешь и пойдет

Аноним 19/09/24 Чтв 21:03:33 #92 №892205

>>892194
>температуру ставь между 0.5-1 минп 0.1
Так это ж для чата, инструкту похуй на эти настройки разве нет?

Аноним 19/09/24 Чтв 21:09:11 #93 №892219

>>892205
Температура как и другие семплеры влияют на любую генерацию
Бекенду похуй, если он получает семплеры по апи он их применяет к генерации выбирая токен

Аноним 19/09/24 Чтв 21:10:25 #94 №892220

>>892219
Ну я вот поменял настройки семплера в буге, в комфи прожал - ниче не поменялось, выдает то же самое.

Аноним 19/09/24 Чтв 21:13:19 #95 №892228

>>892220
Комфи отправляет запрос, она фронтенд
Если она не отправляет семплеры то они не берутся из угабуги, там какой то стандартный берется каждый раз один и тот же
Ищи в комфи окошко с семплерами и отправляй их вместе с запросом

Аноним 19/09/24 Чтв 21:20:10 #96 №892236

>>892228
>Ищи в комфи окошко с семплерами и отправляй их вместе с запросом
Из всех нод у меня ток эта корректно отправляет на локал https://github.com/chrish-slingshot/CrasHUtils Query Local LLM
а там нет никаких настроек семплеров((99

Аноним 19/09/24 Чтв 21:26:48 #97 №892245

Локальщики, помогите определиться с моделью под классик и эротик ролплей.

Имею на борту 16VRAM и 32RAM, по этому смотрю в сторону моделек в диапазоне примерно на 30B (в 4-6 кванте).

Пошарился немного по обниморде и всяким рейтингам и сейчас выбираю между гемой 27 и новым командором, который мелкий. Я бы погонял модельки сам и не спрашивал тут, но по какой то причине скорость загрузки с обниморды у меня походу в килобитах идет, потому что ламу восемь весом в 6 гигов я качал минут 40 наверное, если не больше.

Если гема или командор это плохой выбор, то можете посоветовать что-то еще. Вполне вероятно, я мог что-то упустить и вообще в своих поисках ушел в другую сторону.

Аноним 19/09/24 Чтв 21:29:00 #98 №892247

>>892245
magnum-12b-v2.5-kto

Аноним 19/09/24 Чтв 21:36:26 #99 №892257

>>892245
> 16VRAM
С таким тебе выше 22В ничего не светит.

Аноним 19/09/24 Чтв 21:40:34 #100 №892259

>>892247
Немного смущает то что модель всего на 12 миллиардов. Можешь немного пояснить, почему именно ее стоит взять, а не что-то больше?

>>892257
Если выгружать часть в видеопамять, а остальную в оперативную, почему нет? Да, скорость просядет, но выбора нет. Нет ни одной нормальной модели (по крайней мере я не нашел) в пределах 20B.

Аноним 19/09/24 Чтв 21:48:00 #101 №892263

>>892259
Это хорошая новая и умная модель, mistral nemo 12b
Есть ее старшая сестра mistral small на 22b
Она только вышла, но можешь ее попробовать
Но магнум это удачный файниюн умной модели на рп , ерп и расцензуривание

Аноним 19/09/24 Чтв 21:54:49 #102 №892272

>>892263
У меня с ней только одна проблема, что очень быстро подхватывает стиль общения, т.е если в первом сообщении мало текста, но много описания действий, то если не сгенерить нормальное второе сообщение, то может так и писать. Есть решение, лайфхак?

Аноним 19/09/24 Чтв 21:59:06 #103 №892278

1687333159844.jpg

>>892247

Аноним 19/09/24 Чтв 22:08:41 #104 №892287

>>892263
А, это файнтюн немо получается. Я ее еще не пробовал, но если она именно заточена под рп, то тогда это то что мне нужно.

Кстати, как у нее дела с логикой и запоминанием обстоят? Я пробовал ламу три восемь (не оригинал, тоже файнтюн под рп) и она крайне глупая, совсем тугая пробка. Пробовал с ней разные карточки (штук наверное 20 разных) и постоянно она теряла какие-то куски из описания и истории чата. Например, часто путала одежду, локации или даже положение в пространстве. Пробовал менять контекст в диапазоне от 4 до 8к токенов, но это никак не влияло на ситуацию. Семплеры тоже крутил, но удалось только избавиться от лупов, а не мозги это никак не повлияло.

Аноним 19/09/24 Чтв 22:15:45 #105 №892299

>>892259
> почему нет?
Потому что скорость будет как на чистом ЦП.

Аноним 19/09/24 Чтв 22:20:13 #106 №892305

Наконец домучав семплеры, встал вопрос. А как делать так что бы Таверна выдавала текст по шаблону:
Описание сцены/описание действие персонажей>
Прямая речь персонажей>
Доп описание сцены(вариативно)->
Ожидание реакции Игрока.

Это же через Instruct Template делать надо или я не верно понимаю?
На Рефлекте 70б сейчас.

Аноним 19/09/24 Чтв 22:26:55 #107 №892315

>>892305
>На Рефлекте
Ебанат.
А по вопросу, просто дай примеров несколько, дальше сетка сама.

Аноним 19/09/24 Чтв 22:32:27 #108 №892324

1591482791677.png

>>892278
Где вы такую сою берёте?

Аноним 19/09/24 Чтв 22:33:12 #109 №892325

image.png

>>885994 →
>BTC79x5v1.0
пришла. Буду держать в курсе.
Поцене всего 4.5к, бомжесборщики, присмотритесь.

Аноним 19/09/24 Чтв 22:33:36 #110 №892326

>>891952
> 3 поколение
> зайдут с ноги
НУ КАК СКАЗАТЬ )
Разгоняются.
Qwen2 уже был очень хорош, но многие делали вид, что этого нет и ллама3 лучше (НЕТ), гемма лучше (чуть лучше, больше параметров, чуть больше фантазии).

>>892153
Только нахуя, когда есть Qwen2.5, который сам по себе лучше этого говно-лламы-3?
Там даже дали 3б для совсем сомневающихся.

>>892159
3b реально почти 7б-8б модельки старые.
Почти взрослая, хотя и небольшая.

>>892169
Это не они, дратути.

>>892194
Не пройдет, думаю, промпт-то выходной должен быть на инглише. А там цензура.

>>892205
Чат и инструкт — это форматирование датасета. Семплеры работают одинаково.

>>892220
Настройки семплера у тебя комфи передает, уба там не причем. Ты поменял ВО ФРОНТЕ убы, а передаешь сразу на БЭК.

>>892236
Ну, значит автор ноды — мудак или воробушек.

>>892245
Обниморда иногда лагает, проверь завтра и послезавтра, утром, в обед и вечером. Может прорвет.

>>892247
Кстати, зачем эта древность, там же уже 3 версии навалили? На гемме, правда, но все же.

>>892305
В твоем случае, если ты хочешь делать инструктом, можно лаконично, но четко и однозначно расписать. Умные сетки будут следовать инструкции, но не все.
Но тебе дали верный совет: накидай примеров. Сделай диалог из двух пар сообщений, где она дает такие ответы, и у нее получится гораздо лучше.

Аноним 19/09/24 Чтв 22:34:17 #111 №892329

>>892324
Через koboldcpp запускал

Аноним 19/09/24 Чтв 22:37:02 #112 №892333

как решать проблему того, что сетка с ростом контекста тупеет?
Я не про обрезание контекста говорю, а про рост в рамках заданного.
Я рпшу на 8192. На магнуме 123б.
И прям заметно, что в начале ответы пишет хороший годный собеседник, а в конце - как будто цветы для элджернона читаешь - тупеет на глазах, лупится, кладет хуй на OOC.
Бля, обидно.

Аноним 19/09/24 Чтв 22:39:04 #113 №892338

>>892325
Короче, чекай:
1 слот оперативы, всегда будешь ставить no-mmap, грузиться будет НЕ БЫСТРО.
PCIe x1 слоты, обработка большого контекста будет долго.
Если там AVX2 нет, то некоторые лончеры могут тупить.

Буду рад ошибиться в третьем, надеюсь во втором.
Потестируй, очень интересно.

Где брал? А то вижу только более дорогие варианты.

Аноним 19/09/24 Чтв 22:40:15 #114 №892341

>>892315
До этого на Euryale сидел. Модель приятная, но слишком хорни.

>>892326
Написать кусок истории+монолог персонажа тупа в примеры диалога в карточке?
Я думал что её хватает и First message с подобной структурой.

Аноним 19/09/24 Чтв 22:43:19 #115 №892344

>>892333
С Мистралем Ларджем похоже ничего не сделать, я сам ебался с ним много, всегда такое говно после 6-8к. У Мистраля ещё промпт уёбищный без чёткого указания какое сообщение кому принадлежит и иногда на большом контексте он как будто на несколько постов назад отскакивает, отвечает на прошлые сообщения.

Аноним 19/09/24 Чтв 22:44:59 #116 №892347

>>892333
Я думаю эти модели оптимизированы на выдачу оптимального результата в начале контекста в силу того как их обучают, чтобы проходить тестики с парой лишних баллов. А за 70% оставшегося контекста отвечает меньшая часть параметров.

Аноним 19/09/24 Чтв 22:48:28 #117 №892354

>>892338
>Где брал?
на швитом авито.
Я сначала искал именно эту плату на алике, но там пиздец какой-то с отправкой и с оплатой, пошли они нахуй - решил я.
Пошел поискал на авито - а там оказывается они в наличии у дохуя продавцов.

Альсо, в биосе у платы есть above 4g. Я боялся что этого у неё не будет.

Аноним 19/09/24 Чтв 23:13:38 #118 №892394

>>892341
Ну, разница между карточкой и первым сообщением не сильно велико, важно — сколько ты ее там дал. =)
По идее, должно работать. Если не работает, то вопрос к модели или семплерам.

>>892354
Ясненько, ну-с, ждем тестов. =)

Аноним 19/09/24 Чтв 23:41:25 #119 №892406

image.png

Как в этом говне фикс сид выставить знает кто?

Аноним 19/09/24 Чтв 23:43:28 #120 №892409

>>892333
>Я рпшу на 8192. На магнуме 123б.
Luminum 123B пробуй. Пресет Mirostat. Koboldcpp. Ггуф-модели капризные, так что даже на чистой llamacpp могут быть расхождения с тем же кобольдом. Про Уга-версию вообще ничего не знаю.

Аноним 19/09/24 Чтв 23:46:31 #121 №892412

>>892325
>пришла. Буду держать в курсе.
Добро пожаловать в клуб "4 теслы". Напишешь потом, сколько 123В_4КМ даёт. Впрочем для 8к контекста можешь и 5КМ взять.

Аноним 19/09/24 Чтв 23:57:04 #122 №892427

1658490686417.jpg

Найс соя

Аноним 20/09/24 Птн 00:08:02 #123 №892434

image.png

>>892412
>клуб "4 теслы"
спасибо

Аноним 20/09/24 Птн 00:32:20 #124 №892469

316190178504040.png

>>892326
>Ну, значит автор ноды — мудак или воробушек.
Блять, это единственная нода которая без ебли дает генерировать промты. Буквально пропиши систем, че хочешь и ебашь. Настройки семплинга можно и в убабуге крутить в принципе. Есть еще пикрел но я ебал инструкты вручную так писать.

Аноним 20/09/24 Птн 00:33:47 #125 №892470

>>892194
>все остальное нейтрализуешь и пойдет
в смысле нейтрализуешь? в ноль ебануть?

Аноним 20/09/24 Птн 00:38:01 #126 №892477

>>892469
>Настройки семплинга можно и в убабуге крутить в принципе.
ток они не крутятся лол, или я не там кручу, вообще ноль влияния в параметры - генерация

Аноним 20/09/24 Птн 02:27:47 #127 №892521

>>892333
Если с запуском все нормально, то значит ты слишком много треша в контексте накидал, из-за чего модель путается. Проверь не идет ли неудачная обрезка без суммарайза, где после вступление идет странные действия из-за чего сетка ловит недоумение.
Но с такой моделью более вероятны проблемы лаунчеров, семплеров и прочего.
>>892477
Если настройки передаются по апи то нет смысла ничего крутить в убабуге.

Аноним 20/09/24 Птн 02:48:08 #128 №892525

image.png

>>892325
мда...
короче не взлетает на этой матери больше двух тесел.
Поначалу взлетала тлько с одной теслой, но вычитал в интернетах что надо увеличить MMIOH Size и величил со стандартного 64G до 128G.
После этого начала с двумя.
above 4g само собой включен.
И все, с тремя ни в какую, сука.
Во всякой документации и форумах люди которые заводили карты 40+ gb памяти выставляли MMIOH Size в 256G и выше, но у меня выше выставить невозможно.
Я подумал, что обновление биоса могло бы решить прблему, но биос у меня уже 21 года выпуска и единственная прошивка которую я смог найти - от 18 года.
Любая помощь и подсказки приветствуются.

Альсо да, там блять честные x8 на каждой линии.

Аноним 20/09/24 Птн 03:18:56 #129 №892530

>>892427
>пик
пиздец мерзкий этот корпоративный спич

Аноним 20/09/24 Птн 04:23:32 #130 №892546

Че где инновации, рыночек схлопнул, хайп погас? После ламы3 в апреле прогресс умер нахуй.

Аноним 20/09/24 Птн 04:28:06 #131 №892547

Кто нибудь делал CoT для мистралей? Есть годный пример?

Аноним 20/09/24 Птн 04:58:29 #132 №892550

image.png

>>892521
>Если настройки передаются по апи то нет смысла ничего крутить в убабуге.
покажи мне как передать настройки ептель

Аноним 20/09/24 Птн 05:30:51 #133 №892555

Аноны, посоветуете что можно купить на амазоне из видеокарт? Там бывают 3090 за тыщу или P100 за 300 баксов. Что посоветуете?

Аноним 20/09/24 Птн 06:00:52 #134 №892561

board.png

>>892555
>3090 за тыщу
Хули так дорого-то? Или это в заводской упаковке, лол.

Кстати, шизу энтузиасту с тетрадкой. Записывай, идея на миллиард долларов. Сплит моделей на части и трейн по кускам. Никто адекватно этого не реализовывал, потому что отваливается обратное распространение, оценки ошибок и так далее. Разве что модели будут изначально спроектированы таким образом, чтобы работать в тандеме. Примеры такой хуйни уже есть на самом деле, только не для LLM.

Аноним 20/09/24 Птн 07:14:08 #135 №892568

image.png

>>892547
Сам разобрался. Получилось вот так.
https://files.catbox.moe/0ry9xf.json
https://files.catbox.moe/tcjgtj.json

Аноним 20/09/24 Птн 08:18:15 #136 №892583

>>892561
> идея на миллиард долларов
У меня для тебя плохие новости - это называется gradient checkpointing и он есть везде уже десяток лет. Если надо и forward дробить, то DeepSpeed...

Аноним 20/09/24 Птн 08:47:14 #137 №892590

>>892546
Да после mistral-7b-claude-chat ничего достойного не выходило, чего уж там.
>>892561
>Записывай
С год назад ещё записано.

Аноним 20/09/24 Птн 09:16:26 #138 №892602

0000.png

>>892583
Ты хуйню несёшь.

>>892590
>год назад ещё записано
Не когда я резал 7b на куски и тренил? Хотя не помню, писал ли об этом в тред, лол. Сейчас совсем другое, меня внезапно осенило, что можно архитектурно это всё сращивать.

Аноним 20/09/24 Птн 09:52:23 #139 №892611

1637820874457.png

1712458724998.png

>>892602
Чел, хватит бредить. В DeepSpeed модель разбивается на куски и батчи считаются со сдвигом, чтоб GPU не простаивали. Эти куски модели называют микробатчами. Ты не тот ли дурачёк, что изобрёл thinking спустя год после того как его обкатали все?

Аноним 20/09/24 Птн 10:18:49 #140 №892631

>>892525
Ну, х8 для двух, т.е. может х4 для четырех.
НО, это уже кое-что, но проблема оказалась серьезнее. =(((
Могу лишь предположить (не слушай моего совета!) слить дамп биоса, найти там 128G и поменять в хекс-эдиторе на 256G, после чего залить обратно.
Вдруг сработает.

>>892555
3090 в РФ за 500, на Амазоне за 1000.
Ну, норм, сочувствую заграничным.
Или на Амазоне там прямо новая-не-вскрывалась?

Аноним 20/09/24 Птн 10:20:56 #141 №892632

>>892611
>что изобрёл thinking спустя год после того как его обкатали все
>изобрел thinking за год до того как это стало известно и начало использоваться другими
Ты хотел написать?
Пиздабол ты опять на связи? Я тебя еще в конце того треда попустил, когда ты зассал пруфы принести, на счет той хуеты что ты про меня сочинял
Вот уебище, и тут про меня продолжает пиздеть

Аноним 20/09/24 Птн 10:30:54 #142 №892647

image.png

По тестам Гусева, Qwen2.5-72b ебет(ся старшими корпоративными моделями и все). Но есть немного отказов даже на русском. Бида-бида.
Однако, пока все выглядит хорошо, как и ожидалось.

https://ilyagusev.github.io/ping_pong_bench/ru_v2

Аноним 20/09/24 Птн 11:33:10 #143 №892687

image.png

>>892631
>найти там 128G и поменять в хекс-эдиторе на 256G
хех, да я тоже так подумал попробовать сделать.
Но не знаю, к каким последствиям это может привести.
Ну, я вроде нашел вчера какой-то новый биос https://www.reddit.com/r/NiceHash/comments/t0h4jx/btcx79h61_issues/ буду пробовать его
плата действительно почему-то видит только два ядра из 6 на проце. Думаю, может это как-то роляет...
>Ну, х8 для двух, т.е. может х4 для четырех.
нет, чел, там вон на картинке виднео которую я кидал - там все пять портов на x8 режимах стоят. Эта плата жирный жир за свою цену. Если получится её распинать.

Аноним 20/09/24 Птн 11:34:46 #144 №892688

>>892687
Ну, тады в надежде, ждем твои попытки.
Если что, приобрету себе тоже.

Кстати, вдруг возник вопрос, а что там за проц, видео выводишь как?

Аноним 20/09/24 Птн 11:36:35 #145 №892691

>>892688
проц E5-2620, с матерью в комплекте шёл
с видео да, запердоны - приходится ставлять затычку чтобы сигнал вывести. Вчера заебался приседать вокруг него вставляя и вытаскивая карты.

Аноним 20/09/24 Птн 11:45:32 #146 №892697

>>892647
> Гусева

Это тот который ломаную сайгу раз за разом делает?
У такого человека и тест должен быть ломаный.

>Гемма 9б выше Геммы 27б

Ну да, чтд, о чем тут вообще говорить.

Аноним 20/09/24 Птн 12:02:12 #147 №892711

>>892632
Клован, тебе сразу кидали в ебало двухгодовалую публикацию про рефлекшен, где твой thinking и используется. И публикации от КлозедАИ больше года, где они то же самое описывают. Как видишь этот кал на волне хайпа пытались вытащить из помойки, но всё так же не взлетело.

Аноним 20/09/24 Птн 12:03:21 #148 №892713

>>892647
Если там промпт с ассистентом, то это пиздец. А зная какой дебил гусь - это так и есть.

Аноним 20/09/24 Птн 12:11:22 #149 №892719

>>892525
Как вариант - грузи биос в амитулз и разблокируй доступные опции или меняй дефолты. Если нет аппаратных ограничений, там может что-то нужное оказаться.
>>892550
https://github.com/oobabooga/text-generation-webui/wiki/12-%E2%80%90-OpenAI-API
Наличие настраиваемых top_p и температуры прямо в ноде должно же хоть как-то намекать.
>>892561
> Сплит моделей на части и трейн по кускам. Никто адекватно этого не реализовывал
Ты рофлишь чтоли? Разбивка модели на части с их мапингом на разные гпу, заморозка и тренировка ограниченного числа параметров, лора и прочее в peft, трюки с оптимайзерами и множество оптимизаций для снижения пикового и среднего потребления, оффлоад частей оптимайзера, всех его значений и вообще полный расчет его профессоров в дипспиде, вплоть до полной выгрузки весов в рам и постепенная переброска в гпу.
С подключением!

Аноним 20/09/24 Птн 12:15:19 #150 №892720

>>892611
> Ты не тот ли дурачёк, что изобрёл thinking спустя год после того как его обкатали все?
Бляяяя, рили не удивлюсь если это тот же самый поех. И он же делает свой особый AIO интерфейс с бесконечным контекстом хотя для последнего тот казался слишком тупым, но упоротость, незнание основ, общее сходство на месте

Аноним 20/09/24 Птн 12:47:12 #151 №892741

xb140a3cfd707194b438f9913fca9f9db.jpg.pagespeed.ic.J0ciVceG7Z.jfif

Ну что там, на локалке доступны аналоги gpt 4o или 4o1 или еще пол года подождать?

Аноним 20/09/24 Птн 12:58:34 #152 №892748

>>892711
Я вполне допускаю что это было изобретение велосипеда, но ни тут в дваче когда я поделился этой идеей, ни главное я сам этого на тот момент нигде не видел и никто не упоминал о существовании чего то подобного.
Был только простой cot по типу поэтапного рассуждения при решении задачи. И все. Тогда даже метода дерева мыслей не было.
Но внезапно, после моего объяснения как это работает и предоставления первого хоть и хуевого примера работы, кумеры в соседнем чате начали использовать эту идею.
А именно разделение ответа сетки на две части, где в начале идет размышление, а во второй ответ пользователю.
Аналогов такого не было и в больших сетках на тот момент.
Что то похожее начали использовать в клоде полгода назад где то. Вот сейчас - в новой сетке openai.
Если я не создатель этой идеи, то один из тех кто додумался до нее раньше всех и успешно использовал.
Ну а говноеды из треда меня не удивляют. Желание обесценить чужие достижения, зависть или просто желание потроллить, какая разница.

На сколько помню дурачек который со мной в прошлый раз спорил и пытался очернить всяко искажая мои слова и коверкая факты - так и слился когда у него спросили пруфы его пиздежа.
Что забавно так это то что у него были пруфы, он использовал вырванные из контекста цитаты моих сообщений, явно копируя их из старого треда. Давать же ссылки на уже найденный им тред он почему то обосрался, виляя жопой как сучка
Потому что весь его пиздеж противоречил найденным им пруфам.
Долбаеб, это ты? Давай пруфы или иди нахуй со своими сказочками

Аноним 20/09/24 Птн 13:13:55 #153 №892758

Что-то не пойму, какой пресет нужен квену2.5?

Аноним 20/09/24 Птн 13:25:18 #154 №892778

1630553940938.png

>>892748
У тебя реально шиза, если ты думаешь что всё вертится вокруг тебя, это же один из симптомов. Если ты сидишь в двух тредах, то это не значит что никто не обсуждает это. Вот сходу на реддите нашел обсуждение больше года назад, там ещё много других про это. Ещё делаешь какие-то шизоидные выводы что в соседнем треде твою идею подсмотрели, лол. Откуда угодно это могли взять. Выпей таблетки, пока не закрыли в дурку.

Аноним 20/09/24 Птн 13:27:27 #155 №892781

>>892758
ChatML. Только ассистента замени на любое рандомное говно.

Аноним 20/09/24 Птн 13:33:59 #156 №892789

>>892778
Невнимательный долбаеб, я специально написал что никто не обсуждал это, и главное Я не видел этого. Даже если это велосипед - я придумал его сам, сам додумался это этой идеи и сделал первую реализацию с которой и поделился в мае прошлого года на дваче.
Поэтому если хочешь искать кто придумал раньше - ищи до мая 2023 года.
Год назад был сентябрь, внезапно.
Ну а обзывать кого то шизиком, в быстроразвивающейся теме где каждый день новые открытия, только за то что он смог додуматься до чего то раньше других - признак шизы
Ладно бы тема была старая как мир, а не та за развитием которой я следил и участвовал, находясь на краю инновационных знаний и технологий
По крайней мере в промпт инженеринге

Аноним 20/09/24 Птн 13:34:28 #157 №892790

>>892741
В некоторых nlp задачах гемма сравнима или даже чуточку лучше. В других, или там где требуется подобие энциклопедичности (без вникания) - вчистую сливает чмоне. В рп она же ощутимо лучше, но ограничение контекста заставляет грустить.
>>892748
> Был только простой cot
Введя свои название ты никак не изменил его суть, это и остался простой кот, точнее жалкие потуги в него 7м хуеты, которая без жестких рамок и оформления просто проигнорировала бы.

Аноним 20/09/24 Птн 13:36:49 #158 №892794

>>892790
>это и остался простой кот
Ага, ты только что послал нахуй все разработки в техниках мышления упростив все до цепочки мыслей
Вот дураки, сидят что то там придумывают, один и тот же кот, да?

Аноним 20/09/24 Птн 13:51:36 #159 №892809

Кто-то уже тестировал MN-12B-Lyra-v4, что по ощущениям? Моделька от чела, который в свое время запилил пиздатую Stheno под ламу, а теперь затюнил на том же датасете модель под мисральский немо.

Аноним 20/09/24 Птн 13:52:41 #160 №892810

>>892781
На какое например? {{char}}?

Аноним 20/09/24 Птн 13:58:19 #161 №892815

>>892810
Да, как вариант

>>892809
У него их там серия из штук 6 уже версий, хз вобще
Сравнить бы с магнумом (которых тоже штуки 3 на немо)
Но теперь годных моделей еще больше стало, мне больше интересно щупать новые квен и мистраль 22
Но цензура в них зачетная, похоже реально аблитерацией прошлись по "запретным" темам. Простым обучением так не сделать.

Аноним 20/09/24 Птн 14:08:26 #162 №892831

>>892789
> ищи до мая 2023 года
Шизик, публикации рефлекшена два года. Хоть усрись, но твой пиздёж ничего не значит.
> первую реализацию
У рефлекшена код на гитхабе лежит, лол.
Вот ещё "никому неизвестная техника промптинга" из 2022 года, настолько неизвестная, что 2к звёзд у репы.
https://github.com/ysymyth/ReAct

Аноним 20/09/24 Птн 14:14:59 #163 №892843

>>892815
>У него их там серия из штук 6 уже версий, хз вобще
Там вроде как каждая новая версия фиксит траблы предыдущей и по ходу дела приносит новые, так что я тоже не в курсах.
>Сравнить бы с магнумом (которых тоже штуки 3 на немо)
Магнум какой-то шизоидный временами. Чекал две разные версии и обе иногда начинали сходить с ума и нести чушь, не связанную с контекстом чата. Плюс какие-то странные токены то тут то там протекали. Но может быть я проебался с семплингом.

Мне чисто хочется чтоб была Stheno по стилю, но с большим контекстом и докрученными мозгами. Потому что все таки лама три это тот еще выродок, как хорошо ее не тюнингуй.

>Но теперь годных моделей еще больше стало
Да, это пиздец. Я вылетел буквально на полтора месяца из движухи и теперь с трудом пытаюсь нагнать. На одну только немо уже под сотню сборок будто вышло и хуй пойми как их всех тестировать, чтобы найти ту самую.

Аноним 20/09/24 Птн 14:22:34 #164 №892851

>>892831
А твой пиздеж не значит ничего для меня.
Молодец что нашел, вот только ты на полтора года опоздал.
Если бы кто то сказал мне это тогда, было бы проще с реализацией.
Но почему то никто об этом не был в курсе в те времена. Интересно почему.
И ты долбаеб который не удосужился прочитать что я писал, я не приписываю себе знамя первооткрывателя идеи

Кстати то что ты скинул тоже не то, эта работа основана на другой
А вот до внутреннего диалога я и догадался, что и пытался запилить промпт инженерингом, интересно
https://arxiv.org/abs/2207.05608
Но и тут и там все сводится к действиям роботов которые планируют действия, но идея та же, да

Аноним 20/09/24 Птн 15:06:57 #165 №892883

>>892550
бля ахаха)))

Аноним 20/09/24 Птн 15:14:19 #166 №892892

>>892851
> никто об этом не был в курсе в те времена
Все были в курсе, кроме тебя. Никому это нахуй не надо было, как и сейчас.

Аноним 20/09/24 Птн 15:27:13 #167 №892903

>>892719
>амитулз
не гуглится. Напиши по английски, что за утилита

Аноним 20/09/24 Птн 15:29:03 #168 №892906

>>891206
ну хз как вы там её файнколхозинг я её спрашивал (ламу3) что она думает по поводу того что мне нравица замужняя бабёнка так она сразу в отказ идёт

Аноним 20/09/24 Птн 15:31:01 #169 №892908

>>892892
>Все были
Эти все сейчас с тобой в одной комнате?
Что за детский максимализм, знало подавляющее меньшинство в те времена

Аноним 20/09/24 Птн 15:33:15 #170 №892911

>>892611
Я тебе и говорю - ты хуйню несёшь. Не путай тёплое с красным.

>>892719
>peft
Эта хуйня даже не умеет в неравновесную нагрузку на разные GPU, а ты так расхвалил, как будто это манна небесная. Хотя там кривое пердоподелие. Но речь всё равно не о том.

Аноним 20/09/24 Птн 15:34:38 #171 №892914

>>892406
ебануца где вы ето берёте ваще, прост натянул оупенвебуи и пользуйся ну или из консонле

Аноним 20/09/24 Птн 15:36:11 #172 №892915

>>892719
>https://github.com/oobabooga/text-generation-webui/wiki/12-%E2%80%90-OpenAI-API
>Наличие настраиваемых top_p и температуры прямо в ноде должно же хоть как-то намекать.
так покажи мне пак нод которые
а) имеют фикс сид
б) имеют расширенные удобные настройки а не пиздец китайского шиза коим является например ллм пати

Аноним 20/09/24 Птн 16:09:29 #173 №892927

Снимок экрана от 2024-09-20 16-06-33.png

Серьезно, блять? Серьезно?

Аноним 20/09/24 Птн 16:23:18 #174 №892937

Кто-нибудь может поделиться джейлбрейковскими промптами под геммы/ламы? Пока пользуюсь DAN под жпт, но может есть что получше.

Аноним 20/09/24 Птн 16:24:02 #175 №892939

>>892927
обмазался соей и удивляется...
чё за сетка-то?
Персонажа прописал?

Аноним 20/09/24 Птн 16:27:55 #176 №892940

>>892908
>Что за детский максимализм
Чел, у меня от твоих постов жир с монитора течёт, прекращай.
Начнём с того, что приписывать себе авторство чего-то на анонимном форуме это верх кринжа да в принципе этим и закончим лол
Был бы у тебя гит, или хотя бы рентри с твоей ахуенно полезной революционной хуйнёй, ещё было бы о чём говорить, а так...

Аноним 20/09/24 Птн 16:29:35 #177 №892941

>>892697
Ну так а ты попробуй, сравни сам. =)
Он щас немного оправдался в глазах общественности.

>>892713
Там все есть на сайте в открытом доступе, и промпты в том числе.

>>892927
Кобольд? Серьезно?
Ну, а вообще, что ты хотел от #1 цензуры, они буквально этим хвалятся последние полгода. =)

Аноним 20/09/24 Птн 16:38:45 #178 №892944

>>892939
Квен новый на 32b, там на скрине видно. Такие реджекты несложно обойти, но я просто в ахуе с того, то она триггерится по НАСТОЛЬКО ерунде.

>Персонажа прописал?
Да, всё прописано.

>>892941
> Кобольд? Серьезно?
Ну да, я не особо увлекаюсь РП, таверна мне ни к чему, убабуга тоже. Функционала кобольда хватает для всех задач.

> Ну, а вообще, что ты хотел от #1 цензуры
Кек, братушки-китайцы побили рекорд Лламы 3.1, до такой степени сои не было даже там.

А так-то, если закрыть глаза на цензуру, вроде неплохо, я потыкал немного, отвечает на уровне Геммы 27b, может даже получше. Для рабочих задач и белых-пушистых запросов - сойдет, а кумерам соболезную.

Аноним 20/09/24 Птн 17:33:52 #179 №892990

>>892940
> приписывать себе авторство чего-то
Просто 0 мозгов, жопочтец

>>892927
Да, это пиздец
Модели умные, но триггерятся даже на просьбу рассказать о себе, кек

Аноним 20/09/24 Птн 18:04:25 #180 №893014

>>892602
>Не когда я резал 7b на куски и тренил?
Не, без тебя, мои мысли все свои приходили в свободное время, поэтому записано в физической тетради (заодно чтобы попены не украли).
>>892631
>Ну, норм, сочувствую заграничным.
Только зряплаты в 4 раза больше.

Аноним 20/09/24 Птн 19:38:13 #181 №893150

>>892561
>>892602
>>893014
Двач на острие математики. В 2024 году двачерки узнали, что функцию от n-ного количества аргументов можно представить суперпозицией n функций от одного аргумента. А ведь с помощью этой теоремы Колмогорова - Арнольда доказывали именно свойства нейронок как универсальных аппроксиматоров ещё при советской власти.

Аноним 20/09/24 Птн 19:44:15 #182 №893161

>>893150
>В 2024 году двачерки узнали, что функцию от n-ного количества аргументов можно представить суперпозицией n функций от одного аргумента.
Вот ты умный, да? Ответь двачеркам - где KAN? Пора бы уже, а то со времён советской власти много времени прошло.

Аноним 20/09/24 Птн 19:47:04 #183 №893165

>>892794
> ррряяяяя я придумал придумал этадругое
Каждый раз как в первый
>>892903
ami bios tools
>>892911
Чел, то что ты чего-то ниасилил, не понял, или сделал примитивную штуку, которую просто мимолетом для организации тренировок пишут, не отменяет изобретение велосипеда и неосведомленности о действительности. Пробежка по граблям бывает увлекательной, наяривай.
>>892915
> мне пак нод
Что?
> а) имеют фикс сид
Передаешь seed=42 в теле запроса
> имеют расширенные удобные настройки
Ну так возьми и напиши, или клянчи в сд треде. Здесь тред про языковые модели, вопросы твои были про использование апи.
>>892937
Геммовский несколько тредов назад был, pastebin.com в поиске по борде глянь.

Аноним 20/09/24 Птн 19:49:57 #184 №893169

У меня 12 гигов ВРАМ и 16 РАМ. Что можно запустить максимум? Алсо, тут вы пишете про то, что можно в РАМ скинуть часть можели. А как? Я в Кобольде не нашел такой херни. Гоняю 12Б, если что. Хочу дрочить три дня.

Аноним 20/09/24 Птн 19:50:16 #185 №893170

>>892937
> джейлбрейковскими промптами под геммы
И 9b и 27b лежат на обниморде с аблитерацией

Аноним 20/09/24 Птн 19:51:19 #186 №893172

>>893014
>(заодно чтобы попены не украли).
Лол. Тут в треде одни шизы, вряд ли кто-то из них в попенах работает.

>>893165
>>893150
Так вы просто оба доказываете, что нихуя не поняли и доказываете непонятно что. Парочка долбоёбов, не более.

Аноним 20/09/24 Птн 19:54:24 #187 №893176

>>893169
Качаешь гемму 27b в кванте 4к-м, ставишь в коболде выгрузку 24 слоев на гпу, и всё заработает со скоростью в 3.5 т/с лол. Терпимо, на самом деле. Всё что ниже 20b - это мусор для некроПК.

Аноним 20/09/24 Птн 19:55:53 #188 №893177

>>893176
А он автоматически раскидывает на РАМ?

Алсо, есть аналоги, чтобы охуительные истории писать?

Аноним 20/09/24 Птн 19:57:54 #189 №893183

image.png

И что из этих двух лучше, допустим?

Аноним 20/09/24 Птн 20:02:20 #190 №893187

>>893177
> А он автоматически раскидывает на РАМ?
Да. Но ты со слоями поэкспериментируй. У меня дебиан с гномом, в простое выжирает 6-7% гпу. На винде может быть больше или меньше. Если вылетает - просто поставь меньше слоёв. Если норм - попробуй больше, может прокатит и будет работать побыстрее.

> Алсо, есть аналоги, чтобы охуительные истории писать?
Есть лучше, но скорость тебе не понравится. 27b Гемма под 12гб видюху самый оптимальный вариант по соотношению скорость/качество.

>>893183
Кумить на русском собрался? Если да - магнум нахуй, он там сломан. А тигр просто первая попытка расцензуривания, которая оказалось хуетой. Вот нормальный анценз - https://huggingface.co/QuantFactory/gemma-2-27b-it-abliterated-GGUF

Аноним 20/09/24 Птн 20:02:46 #191 №893189

>>893172
Чел, с тебя уже который тред просто угорают, такой-то чсвшный шизоидный непризнанный гений, в одиночку решающий вселенские проблемы и побеждающий двач. Причем по общению и общему уровню видно насколько ты днище, что на контрасте с бесконечной самоуверенностью и копротивлением дает много рофлов.

Аноним 20/09/24 Птн 20:06:17 #192 №893192

>>893187
>Кумить на русском собрался
Вот, кстати, нет.
Меня на кринж пробивает, если на русском это делаю. На инглише хоть мое не самое лучшее знание языка помогает справится, не вижу ошибок.

>>893187
>Есть лучше, но скорость тебе не понравится.
А что есть-то вообще? Я просто знаю, что вот эти модели для чата сделаны именно. Я сидел до этого на Тайфайтере 13Б К4_М.

Аноним 20/09/24 Птн 20:15:06 #193 №893197

>>893189
Смешнее всего, что бесконечную самоуверенность и непрошибаемую тупость демонстрируешь как раз ты. Тебе сказали, что ты сравниваешь разное. Но ты продолжаешь усираться и доказывать непонятно что. Иди в SD тред и скажи, что их модели хуже понимают русский, а значит, говно и они нихуя не понимают. А потом несколько постов подряд доказывай, почему они не правы. Ты сейчас чем-то похожим занимаешься.

>>893192
>Меня на кринж пробивает, если на русском это делаю
Тут мне кажется, психология роль играет. Те же кривляющиеся стримеры в ютубе - на иностранном как-то более просто это воспринимается. Скидку делаешь, чтоли. Тогда как на русском это невыразимый кринж.

Аноним 20/09/24 Птн 20:16:08 #194 №893199

>>892941
>Ну так а ты попробуй, сравни сам. =)

Что сравнить, гемму? Я пробовал обе, 9В намного тупее из-за размера, 27В и сейчас использую как основную сетку.

>Он щас немного оправдался в глазах общественности.

Чем оправдался? Его сайга уже даже фикшенная нахер не нужна, сетки по-дефолту отлично могут в русский.

Аноним 20/09/24 Птн 20:16:38 #195 №893200

>>893192
А, ну на инглише - магнум топ, можно качать его. А про лучше - сорри, упустил что у тебя 16гб рам. Лучше не влезут даже в 3 кванте. Можно попробовать командер 32b и мистраль 22b (но мне они показались слабее геммы и аблитерацию на них пока не подвезли)

Аноним 20/09/24 Птн 20:18:11 #196 №893204

>>893200
Мне лучше Геммы не надо. Мне нужно лучше, чем Тайфайтер для историй.

Аноним 20/09/24 Птн 20:23:35 #197 №893208

>>892631
>3090 в РФ за 500
где? на авито?

Аноним 20/09/24 Птн 20:24:46 #198 №893211

>>893150
Причём тут это? Мои идеи чисто технические.
>>893172
>вряд ли кто-то из них в попенах работает
Но идеи регулярно пиздят. Сидят они, но молча.

Аноним 20/09/24 Птн 20:54:38 #199 №893232

>>892906
https://huggingface.co/Vdr1/L3-8B-Sunfall-v0.5-Stheno-v3.2-GGUF-IQ/tree/main?not-for-all-audiences=true

Аноним 20/09/24 Птн 21:00:14 #200 №893236

>>893211
>Но идеи регулярно пиздят. Сидят они, но молча.
Нуу, скорей всего боты с ии анализирует тред, как и кучу других где обсуждают ии.
Хотя с натяжкой могу представить 1-2 человек в 1 компании работа которых как раз шерстить такие темы но как ты понимаешь их скорей всего уже заменили ботами
Опенсорс и обычные люди существуют для того что бы у них пиздить инфу и идеи, это прям политика мета и других компаний.
Они сажают семена и собирают урожай, тогда когда без помощи добровольцев не обойтись.
Как например открытие и популяризация ии для сбора датасетов и анализа информации из обсуждений людей. Если бы ии могли улучшать в тишине, это делали бы

>>893204
>Мне нужно лучше, чем Тайфайтер для историй.
Тогда нужна умная сетка хорошо держащая контекст, это либо из мистраль немо файнтюны, как тот же магнум https://huggingface.co/anthracite-org/magnum-v2.5-12b-kto-gguf, или https://huggingface.co/Sao10K/MN-12B-Lyra-v4

Либо возьми новый мистраль 22b, он неплох и умнее сеток поменьше
Есть еще умная qwen2.5 14b, но там много цензуры

Аноним 20/09/24 Птн 21:02:25 #201 №893239

pngwing.com.png

>>893236
> умная
> 12b
> 14b

Аноним 20/09/24 Птн 21:04:29 #202 №893241

>>893239
А сравни с тем, что было всего полгода назад.

Аноним 20/09/24 Птн 21:05:18 #203 №893243

>>893236
>Тогда нужна умная сетка хорошо держащая контекст
А перечисленные тобой сетки - не залочены под чат?

Аноним 20/09/24 Птн 21:05:27 #204 №893244

>>892272
Бумп.
>>893236
> мистраль 22b
Магнум есть?

Аноним 20/09/24 Птн 21:09:04 #205 №893250

>>893241
Всё ещё хуже старого командира+, и уж тем более нового.

Аноним 20/09/24 Птн 21:09:20 #206 №893251

>>893236
>Нуу, скорей всего боты с ии анализирует тред, как и кучу других где обсуждают ии.
Никому это нах.. не надо, идей в виде прямо готовых статей полно, какая из них может выстрелить - совершенно неизвестно. Ресурсов попробовать хотя бы 10% этих идей нет ни у кого, да и желания тоже - сейчас надо бабосики на хайпе грести. Что все и делают. Кто реально работает все мы видим, так как пользуемся результатами их труда. А они таки есть, результаты, прогресс идёт. Жалко, что мало кто вообще работает.

Аноним 20/09/24 Птн 21:10:01 #207 №893253

>>893243
Что значит "залочены под чат?". Любую модель можно заставить РПшить.
>>893241
Было еще большей хуетой, очевидно. Мелкомодели не могут в РП. Никакие, даже магнумы и 9b геммы. Ты тестил вообще? Они забывают контекст, шизят, постоянно приходится рероллить. Гемма 27 - это МИНИМУМ для нормального кума.

Аноним 20/09/24 Птн 21:13:05 #208 №893261

>>893253
>Что значит "залочены под чат?". Любую модель можно заставить РПшить.
В этом и суть. Модели часто под чат прям делают, но не под генерацию прозы. РПшить я тоже люблю.

Аноним 20/09/24 Птн 21:15:33 #209 №893269

>>893253
>Гемма 27 - это МИНИМУМ для нормального кума.
С 13В ещё может повезти. В того же Магнума много подобного заложили и он таки даёт.

Аноним 20/09/24 Птн 21:16:02 #210 №893271

>>893253
> Гемма 27 - это МИНИМУМ для нормального кума.
Мистраль 22В намного лучше. Геммой только от безысходности пользовались, когда между 8В и 70В ничего не было.

Аноним 20/09/24 Птн 21:16:54 #211 №893274

>>893197
> бесконечную самоуверенность и непрошибаемую тупость
> рряяяяя я изобрел а теперь спустя пол года все за мной повторяют
>>893199
> Чем оправдался?
Таки присоединяюсь к вопросу, орочьи технологии что только портят сетку в современных реалиях не в почете, даже если главные ошибки исправлены. Может он что-то крутое сделал?
>>893208
> на авито?
Беглый просмотр говорит что они там сейчас от 60к, дешевле редки или плохие. По курсу это больше 500 выходит, но и далеко от 1к.
>>893236
> боты с ии анализирует тред, как и кучу других где обсуждают ии
Обзмеился. Только если посещает работник корпорации, но им самим есть что рассказать младшие знают малоую ограниченную часть, а кто покрупнее - сам публикует многие разработки, только в имплементации на открытых сетках
> сажают семена и собирают урожай, тогда когда без помощи добровольцев не обойтись
Все так, только в более мягкой интерпретации.
>>893253
> Ты тестил вообще?
Многие просто связанный ответ бота и "ты меня ебешь" воспринимают как хороший результат. Или просто думаю что типичные паттерны всратых рп файнтюнов - откровение, а не треш, которые те модели выдают по любому поводу. Гемма, кстати, тоже не подарок, еблю не в лучшем виде описывает, но зато рпшит внимательно и старается.

Аноним 20/09/24 Птн 21:21:27 #212 №893280

>>893271
> Мистраль 22В намного лучше
Лол

Аноним 20/09/24 Птн 21:22:50 #213 №893282

>>893251
>Кто реально работает все мы видим, так как пользуемся результатами их труда.
Например? Во всех вышедших негронках ровно 0 революционного, тупо больше данных и размеры сеток.

Аноним 20/09/24 Птн 21:29:02 #214 №893285

>>893239
Умная не умная, но в цензуре любая новая модель ебёт старые.

Аноним 20/09/24 Птн 21:47:41 #215 №893299

>>893211
>Но идеи регулярно пиздят.
Я скорее поверю, что они анализируют шизов с реддита, чем местных. Хотя "2ch датасеты" на просторах интернета и встречались, но там это было для классификации токсичности. Да и самые интересные идеи сюда всё-таки не постятся. В процессе ёбки своей микромодели пришло в голову кое-то, загуглил, а там буквально одна статья на эту тематику, десятилетней давности, лол.

>>893274
>> рряяяяя я изобрел
А, так ты думаешь, что с одним человеком споришь? Серьёзное психическое расстройство. Представилось, как ты ИРЛ начинаешь с кем-то спорить и "А, так это ты мне писал на дваче гадости!".

Аноним 20/09/24 Птн 21:58:46 #216 №893313

изображение.png

Аноны, давно не заходил к вам в тред (эдак с июня прошлого года) Подскажите годные семплеры и прессеты для магнума 12б. Наслышан что самая годная модель для рп.

Аноним 20/09/24 Птн 22:11:23 #217 №893339

>>893282
>Во всех вышедших негронках ровно 0 революционного, тупо больше данных и размеры сеток.
Под капот к ним я не лазил, а чисто по ощущениям - контекст (до 32к) держат хорошо, гораздо умнее чем были и даже мелочь уже на что-то способна. Вряд ли это достигнуто просто улучшением качества датасета. Сравнивая 70В сейчас и раньше - разница видна. Ну и да, модели с большим количеством параметров тоже выкатили, кто может - тем более радуется. Там всё это ещё лучше.

Аноним 20/09/24 Птн 22:18:56 #218 №893349

>>893282
Да не, качественная реализация обсуждаемых ранее подходов и правильное воплощение идет стоит куда больше, чем громко гремящие "прорывы" без юскейса. Вон сколько убийц трансформера, кан, 1.5 бита, но воспользоваться ими невозможно.
А текущие сетки, что локалки, что корпы имеют хороший прогресс.
>>893299
> так ты думаешь, что с одним человеком споришь
Подвид пост троллинга, где люди специально кривляются изображая поведение унтерменьшей с полным отыгрыванием, непопулярен, но возможен. А вот то что над шизиком-изобретателем весь тред угорает - факт. Биомусор уже притомил
>>893339
> Сравнивая 70В сейчас и раньше - разница видна.
Да, они реально стали лучше. На контрасте с мелочью, которая двух слов связать не могла, может казаться что его меньше, но нет, оно прям вообще ебет.

Аноним 20/09/24 Птн 22:46:25 #219 №893375

>>893349
>весь тред угорает
>один долбаеб считающий свое мнение мнением треда
кек

>>893282
>Во всех вышедших негронках ровно 0 революционного, тупо больше данных и размеры сеток.
Это как раз таки скрывают, как именно они добились улучшения сеток. Отговариваются лучше собраным датасетом, но это явно пол дела.

Аноним 20/09/24 Птн 23:47:30 #220 №893444

Что лучше? Ллама-3-8В или Ллама-3.1-8В?

Аноним 20/09/24 Птн 23:49:28 #221 №893445

>>893444
Гемма 9b

Аноним 21/09/24 Суб 00:07:38 #222 №893465

>>893199
Именно Атаракси? Именно в РП?

> Его сайга уже даже фикшенная нахер не нужна
Да причем тут сайга-то, неожиданно, ллм не заканчивается на одном способе использования одной ллм. =)

Ну, в общем, не верить топу — дело твое. Но там можно посмотреть всю историю тестов, и дать свою оценку. Какой-то смысл ориентироваться на топ есть, хотя бы оценочный.

Аноним 21/09/24 Суб 00:39:06 #223 №893495

image.png

>>892325
скачал я общем AMI tools.
Вытащил биос через прищепку.
Каких-то теневых параметров в этом биосе не аншел. Кроме количества используемых ядер. Снял ограничение в 2 ядра, но это не помогло загрузиться с 3 картами.
Попробовал прошить биос отсюда >>892687, оказалось, что под ним не видится сата диск. Предполагаю, что это из-за того, что у нас с чуваком который делал этот дамп различаются северные мосты или ревизии матерей и из-за этого что-то идет не так при попытке загрузки.
Так же я попробовал прописать в строковых параметрах 256G, но это ничего не дало. Думаю потому, что это именно что строковое значение, оно слинковано с настоящей числовой переменной, но хуй знает где это искать.
Скачал себе IDA Free. Буду пробовать искать там связь 128G с числом. Но в дизассемблировании я очень слаб, поэтому вряд ли получится.
Там видно, что значения для MMIOH Size типа ENUM, то есть жесткое перечисление, а не свободная форма записи. Где-то джолжна быть мапка соотносящая эти строки и задающая их количество, но хз смогу ли я найти это в дизассемблере...
Все еще приветствуются либые советы.

Аноним 21/09/24 Суб 00:50:55 #224 №893505

>>893495
>Все еще приветствуются либые советы.
10-я винда туда встанет?

Аноним 21/09/24 Суб 00:51:20 #225 №893506

>>893445
Слишком соевая.

Аноним 21/09/24 Суб 00:52:41 #226 №893507

>>893505
апвс?

Аноним 21/09/24 Суб 01:24:59 #227 №893534

>>893507
>апвс?
Да вот думаю - может под виндой увидит третью теслу. В порядке бреда.

Аноним 21/09/24 Суб 01:26:39 #228 №893536

>>893534
чел, биос не инициализируется вообще. До ОС дело не доходит.

Аноним 21/09/24 Суб 01:27:13 #229 №893537

>>893349
Ты же поехваший просто, понимаешь это? Доёбываешься до людей, называешь их шизиками. Если чего-то не понял - то это ты долбоёб, а не кто-то другой.

>>893495
>оно слинковано с настоящей числовой переменной, но хуй знает где это искать
У тебя же дамп бивиса есть? В нём есть эти ссаные параметры в гигабайтах, только в прошивке они с гарантией процентов 80 - в байтах. Твои 128 гигов это 1,28e+11, так что искать надо 1DCD65000 и заменять на своё. Вряд ли у тебя в биосе будет дохера таких значений. Но никакой гарантии, что это сработает - нет.

Аноним 21/09/24 Суб 01:30:43 #230 №893542

>>893537
Ты только не расплачься, изобретатель. Действительность говорит сама за себя, с гарантией.

Аноним 21/09/24 Суб 01:36:19 #231 №893544

>>893537
>1DCD65
не находится ни 1DCD65, ни 65CD1D
думаю, возможно там все-таки не в байтах

Аноним 21/09/24 Суб 02:20:02 #232 №893574

bivis.png

>>893542
Главное не рассмеяться над тобой. Потому что смеяться над убогими грешно.

>>893544
Матери у меня такой нет, но я нашёл в гугле какой-то модифицированный биос под эту мать, который снимает лимит ядер профессора с залоченных дядюшкой ляо двух. И там это нашлось. Но я бы на твоём месте просто переключил GEN на единичку, биос на легаси. Не заведётся, значит не судьба, замена одного значения на другое не научит биос работать с этим расширенным диапазоном.

Аноним 21/09/24 Суб 02:37:47 #233 №893578

https://www.reddit.com/r/LocalLLaMA/comments/1flkcav/qwen_25_casually_slotting_above_gpt4o_and/
Квен ебёт, по крайней мере в тестах
Но и по своему опыту скажу что сетки лучшие в своих размерах на данный момент, прыгая иногда через голову
НО, жирное НО - цензура и соя тоже зачетные

Кому супердлинный контекст? Аноним 21/09/24 Суб 05:47:11 #234 №893638

Local 1M Context Inference at 15 tokens/s and ~100% "Needle In a Haystack": InternLM2.5-1M on KTransformers, Using Only 24GB VRAM and 130GB DRAM. Windows/Pip/Multi-GPU Support and More.
https://www.reddit.com/r/LocalLLaMA/comments/1f3xfnk/local_1m_context_inference_at_15_tokenss_and_100/
> Hi! Last month, we rolled out our KTransformers project (https://github.com/kvcache-ai/ktransformers), which brought local inference to the 236B parameter DeepSeeK-V2 model. The community's response was fantastic, filled with valuable feedback and suggestions. Building on that momentum, we're excited to introduce our next big thing: local 1M context inference!
> Recently, ChatGLM and InternLM have released models supporting 1M tokens, but these typically require over 200GB for full KVCache storage, making them impractical for many in the LocalLLaMA community. No worries, though. Many researchers indicate that attention distribution during inference tends to be sparse, simplifying the challenge of identifying high-attention tokens efficiently.
> In this latest update, we discuss several pivotal research contributions and introduce a general framework developed within KTransformers. This framework includes a highly efficient sparse attention operator for CPUs, building on influential works like H2O, InfLLM, Quest, and SnapKV. The results are promising: Not only does KTransformers speed things up by over 6x, but it also nails a 92.88% success rate on our 1M "Needle In a Haystack" challenge and a perfect 100% on the 128K test—all this on just one 24GB GPU.

Аноним 21/09/24 Суб 06:04:04 #235 №893647

>>893638
А в чем смысл такого контекста, если модельки зачастую теряются в деталях даже при маленьком контексте?

Аноним 21/09/24 Суб 06:16:51 #236 №893653

>>893445
она же не следует подсказкам нормально

Аноним 21/09/24 Суб 09:44:12 #237 №893719

>>893638
Моделей для RAG уже гора, а InternLM славятся отборной соей. Так что нахуй.

Аноним 21/09/24 Суб 09:50:34 #238 №893722

1671725395156.png

>>893578
Челик вот со своими тестами культуры хорошо пояснил про скоры.
> цензура и соя тоже зачетные
Убираешь ассистента и пишешь на русском - получаешь полное отсутствие сои. В русском это реально топ на текущий момент среди локалок.

Аноним 21/09/24 Суб 11:13:21 #239 №893756

>>893299
>Я скорее поверю, что они анализируют шизов с реддита, чем местных.
Так местные несут на форчаны, а с форчанов протекает на средиты.
>>893339
>Вряд ли это достигнуто просто улучшением качества датасета.
>>893375
>Отговариваются лучше собраным датасетом
Почему бы и нет? Вон, турбу выебали уже все как раз потому, что там датасет был маленький. А к четвёрке до сих пор подбираемся потому, что у ней полировочный датасет написан кенийскими неграми за бабки. В опенсорсе данных такого уровня просто нет, всё, что лежит на хайгинфесе, это ёбанный мусор. Я разок как-то открыл один из дампов русской википедии, так там прямо в первой строчке что-то типа
"Население России составляет человек."
Ну то есть цифра в вики берётся из другой таблицы, а парсер её не подставил. И если в первой строке такой обсёр, то что там дальше?
>>893349
>Да не, качественная реализация обсуждаемых ранее подходов и правильное воплощение идет стоит куда больше
Качественная реализация старого подхода может выебать наивную нового. Но у старых подходов есть потолок, и мы уже бьёмся в него головой.
>кан
Никто не натрейнил на нём сетку размером хотя бы с GPT2, только лоботомитов 3-х слойных. Что от них хотеть?
>>893638
>Кому супердлинный контекст?
Шо, опять? Ещё год назад видел контексты в 128к. А по факту выше 8к железо уже не позволяет.

Аноним 21/09/24 Суб 11:19:42 #240 №893765

463567.jpg

Я тупой, подскажите на GTX1650 чето можно запустить локально из текстовых моделей и как? или это бесполезно?

Аноним 21/09/24 Суб 11:26:14 #241 №893772

>>893765
можно озушки докупить и терпеть на 3 токенах в сек (что нормально на самом деле)

Аноним 21/09/24 Суб 11:40:01 #242 №893783

>https://rentry.co/llm-models
Поч некоторые модели отмечены красным а другие темным?

Аноним 21/09/24 Суб 11:53:39 #243 №893795

image.png

>>893783
Красным отмечены магнумы, как самые модные РП-кум-решения, чтоб проще было найти.
По хорошему надо бы разбить серии файнтьюнов по тегам. Но пока нет смысла, т.к. в списке только тьюны, упоминающиеся в треде, так что не все серийные модели представлены и куча одиночных тьюнов. Магнумы - единственное исключение.

Аноним 21/09/24 Суб 12:03:49 #244 №893805

>>893765
На 16хх — практически бесполезно.
Контекст выгрузи и ладушки.

Аноним 21/09/24 Суб 12:30:25 #245 №893825

>>893765
Там сколько, гига 4? Забей, нормальные LLM тебе не светят, но мелочь до 12b можно частично выгрузить в шакальном кванте.

Аноним 21/09/24 Суб 12:32:38 #246 №893826

>>893722
На правильные вещи в посте обращено внимание. Алсо, если смотреть на корпосетки, то складывается ощущение что там наоборот был тщательный отбор и подход для многих популярных и не очень вещей. Например, даже мелкая чмоня, знает анимушные тайтлы, подробный геймплей и суть популярных и инди игр и т.д., но из-за обилия глюков везде не самый удачный пример. Если взять опус или новый сонет - там куда показательнее, охват куда больше опенсорсных сеток, при том что на общие вопросы или что-то подобное они отвечают на близком уровне.
>>893756
> Качественная реализация старого подхода может выебать наивную нового.
Именно, правильно воплотить в жизнь часто важнее и ценнее чем открыть прорывную штуку с кучей подводных, почему-то это часто недооценивают и только вайнят.
> только лоботомитов 3-х слойных. Что от них хотеть?
Наверно на это есть причина.
>>893638
Разреженность это хорошо, но ведь в чем-то сложнее поиска факта перфоманс может упасть по сравнению с обычной работой.

Аноним 21/09/24 Суб 12:38:10 #247 №893828

>>893826
>Наверно на это есть причина.
Ага. Бабок не выделили.

Аноним 21/09/24 Суб 12:56:36 #248 №893849

>>893574
а что это за утилита, которой ты смотришь структуру?
GEN я уже пробовал опускать до минимума (это кстати x4x4x4x4, единичек там нет нигде), легаси ему не помог.
>Не заведётся, значит не судьба
Нет, ну я вижу пока еще место для маневров. Как минимум я могу найти post карту и посмотреть пост коды, чтобы понять, что ему не нравится. Потом, там куча опций в бивисе, которые я не понимаю - можно понять их все и попереключать. Ну и наконец дизассемблирование.

Аноним 21/09/24 Суб 13:07:04 #249 №893855

>>893825
16хх не умеет в нормальный инференс, там в лучшем случае скорость вдвое выше ddr4, что ли.
Проще контекст держать и все, а остальное на проце.

Аноним 21/09/24 Суб 13:18:34 #250 №893865

>>893855
А как настроить выгрузку только контекста?
мимо

Аноним 21/09/24 Суб 13:24:10 #251 №893869

Эксперты, поясните, пожалуйста. Вот у меня сейчас в компе 3060 на 12гб. В шкафу лежит старая видяшка 1050ti. Есть ли смысл воткнуть ее второй и выгрузить на нее часть слоёв? Будет ли какой-то буст? И как вообще подключать? Просто тыкнуть в разъем и всё? Или как-то видеокарты надо между собой соединять?

Пока не хочу покупать новую видяху, откладываю на 5090, к релизу как раз накоплю, лол. Но еще полгода терпеть 3 токена в секунду это больно.

Аноним 21/09/24 Суб 13:42:36 #252 №893874

Мне кажется, что лучше купить 4090. Не просто же так ее снимают с производства. Значит она весьма хороша.

Аноним 21/09/24 Суб 13:46:41 #253 №893877

>Cydonia-22B-v1-Q4_K_M
Мне нравится эта модель.

Аноним 21/09/24 Суб 13:53:57 #254 №893881

image.png

>>893756
>Так местные несут на форчаны, а с форчанов протекает на средиты.
Я к тому, что там облагорожено уже, чтоли. Нормисы, в общем. А здесь сплошной godfather.
>А по факту выше 8к железо уже не позволяет.
Потому и нужны маяки. У тебя будет практически константный расход vram на контекст в несколько сотен тысяч токенов с незначительной потерей деталей.

>>893849
>а что это за утилита, которой ты смотришь структуру?
Очевидный uefitool очевиден.
>GEN я уже пробовал опускать до минимума (это кстати x4x4x4x4, единичек там нет нигде),
х4 это линии. А я про ген. Вон на пике, ген 3 и х4

>>893869
Если есть выгрузка в оперативу, можешь перекинуть на 1050ti. На ней 4 гига, копейки какие-то влезут. Если и после этого будет выгрузка в оперативу, то разницы не будет. Если влезет всё, то станет чуть быстрее. Между собой соединять не надо.

Аноним 21/09/24 Суб 14:06:06 #255 №893887

>>893877
Любопытно, это случайно не файнтьюн Мистраля 22В?
>Мне нравится
Напиши подробнее чем нравится - добавим в список!

Аноним 21/09/24 Суб 14:10:15 #256 №893894

>>893887
>Любопытно, это случайно не файнтьюн Мистраля 22В?
Да. Вчера анон подсказал, что Мистраль 22В норм, вот и нашел версию.

>Напиши подробнее чем нравится - добавим в список!
Не могу описать. Просто быстро выходит на то, чего я ожидаю, я хз. И по скорости терпимо на 12 ВРАМ и 16 РАМ

Аноним 21/09/24 Суб 14:18:43 #257 №893909

>>893881
>с незначительной потерей деталей
Хочется верить...

Аноним 21/09/24 Суб 14:24:45 #258 №893920

>>893881
>Если есть выгрузка в оперативу, можешь перекинуть на 1050ti. На ней 4 гига, копейки какие-то влезут. Если и после этого будет выгрузка в оперативу, то разницы не будет. Если влезет всё, то станет чуть быстрее. Между собой соединять не надо.

Спасибо. Тогда наверное нет смысла, гемма в четвертом кванте не лезет, а в третьем там наверное совсем лоботомия. Ну терпим дальше, штош

Аноним 21/09/24 Суб 14:33:21 #259 №893939

>>893920
В третьем кванте Гемма есть в колабе, можешь безболезненно проверить.

Аноним 21/09/24 Суб 14:42:17 #260 №893964

>>893909
Там фактически вся магия в замене N токенов на один. И вот сколько этих токенов заменяется и как - определяет и потери, и предельный размер контекста. Если, скажем, "по пустынной безлюдной улице ехала ржавая машина" заменить на что-то, что для модели значит "ехала машина", то сам понимаешь коэффициент потерь. Но я не видел, чтобы с этим мог работать хоть один из бэков, да и незачем - моделей таких в свободном доступе попробуй найди. Но бумаги есть, пруф оф концепт был, 400к контекста и небольшое отставание от "настоящего" контекста в тестах. Скорее всего, так и захлохнет, как файнтюн на кофемолках. Технология есть, но реализаций нет.

Аноним 21/09/24 Суб 15:24:06 #261 №894005

Можно ли как-то квантовать контекст? Почему контекст занимает одинаковое количество памяти при моделях с разным квантованием (GGUF, koboldcpp)?

Аноним 21/09/24 Суб 15:30:25 #262 №894011

изображение.png

>>894005
>Можно ли как-то квантовать контекст?
Da.

Аноним 21/09/24 Суб 15:43:34 #263 №894029

>>893865
Просто подрубаешь видеокарту, но количество слоев ставишь 0 — на видяху улетает только контекст. =)

>>893869
Да, можешь попробовать, но скорость там не сильно бустанется.
Нет, между собой их соединять не надо.
Просто в слот пихаешь.

>>894005
Да, cache_8bit и cache_4bit, но лучше только 8.

———

Посоны! Qwen2.5 умеет писать стихи!
Ну, криво, но уже как гемини прошлая. Т.е., последние куплеты нет, а вот в начале (или середине почему-то, лол) — весьма в рифму.
Для таких технарей как я — это прекрасно.
Все остальные локалки на русском выдавали прям вообще херню (llama3-8b что-то иногда рифмовала).

Еще попробовал Qwen2.5-14b, и смело меняю Nemo q8 на Qwen2.5 q6, гораздо лучше.

Аноним 21/09/24 Суб 16:00:32 #264 №894056

image

>>893165
>pastebin.com
А как какоть?

>>893170
Ну и пусть себе лежат. Мои скачанные Rocinante-12B-v2d-Q4_K_M, magnum-v3-9b-Q6_K, Qwen2.5-7B и пара других моделей выдают стандартную телегу про безопасный интернет и ркн.

Аноним 21/09/24 Суб 16:15:01 #265 №894064

В https://github.com/Vali-98/ChatterUI завезли проверку по самодподписанным сертификатам. Теперь можно подрубаться к дому через https и шифровать свою переписку.

В две P40 влазит 16к контекста Qwen2.5-72b-q4_K_S, или же 32к квантованного в cache_8bit со скоростью 6,5 токенов/сек.

Qwen2.5-72B-Instruct-Q4_K_S.gguf$:
loader: llama.cpp
cpu: false
cache_8bit: false
cache_4bit: false
threads: 0
threads_batch: 0
n_batch: 512
no_mmap: false
mlock: false
no_mul_mat_q: false
n_gpu_layers: 81
tensor_split: 18,23
n_ctx: 16384
compress_pos_emb: 1
rope_freq_base: 1000000
numa: false
no_offload_kqv: false
row_split: true
tensorcores: false
flash_attn: true
streaming_llm: false
attention_sink_size: 5

В две P104-100 влазит 16к контекста Qwen2.5-14b-q6 при сплите 1,2, или даже 32к контекста (в 16 гигов!) при скорости 10-12 токенов/сек. Или же, без сплита (все же сплит 1,2 заставляет вторую видеокарту вдвое дольше обрабатывать слои) влазит 8к и 16к контекста соответственно при скорости 12-15 токенов/сек.

Итого, https://qwen2.5-14b-q6 c 16к контекста. Весьма недурно для 15 токенов в секунду.

Да еще и мобильная апа апдейтнулась.
Ну я прям доволен.

Аноним 21/09/24 Суб 16:24:30 #266 №894070

>>894011
спасибо

Аноним 21/09/24 Суб 16:25:05 #267 №894071

>>894029
> но лучше только 8
сильно падает качество?

Аноним 21/09/24 Суб 16:26:43 #268 №894074

>>894071
На 4 бит он начинает контекст забывать заметно.
На 8 бит деградация терпимая.
Если прям совсем-совсем все плохо, а хочется много контекста — можно и 4 бита врубать, но быть готовым к затупам.

Аноним 21/09/24 Суб 16:29:59 #269 №894075

>>894064
>завезли проверку по самодподписанным сертификатам
Нормальные люди через nginx проксируют, а в него прикручивают валидный через летс энкрупт.

Аноним 21/09/24 Суб 16:50:58 #270 №894090

>>894064
>В две P40 влазит 16к контекста Qwen2.5-72b-q4_K_S, или же 32к квантованного в cache_8bit со скоростью 6,5 токенов/сек.
На 16к в дефолтном кванте контекста токенов столько же?

Аноним 21/09/24 Суб 17:22:40 #271 №894104

можно ли квантовать видяху

Аноним 21/09/24 Суб 17:25:37 #272 №894106

>>894104
Конечно. У меня квантованная 3090, куртка квантовал её с родных 8 бит (24ГБ) до 4-х (12ГБ). А сама 3090 это квант от 48 гиговой А6000.

Аноним 21/09/24 Суб 18:02:35 #273 №894144

>>894104
Я ебало себе квантовал вчера, до сих пор болит

Аноним 21/09/24 Суб 18:05:52 #274 №894152

>>891408
>почему
Возможно, ты запускаешь впритык по vram, а дальше при нарастании контекста оно вываливается в общую ram. Пробуй кидать меньше слоёв на видеокарту.

Аноним 21/09/24 Суб 18:25:02 #275 №894185

2024-09-21-17-58-27.webm

2024-09-21-18-14-38.webm

Что-то у меня квен в Q4 сбивается иногда на китайский. Но это без пропмптинга "не пиши на китайском". И стихи что-то так себе, я рифмы не чувствую. По сути, неплохо, но где обещанный некст левел? Может, он только на английском?
В той, где слоупочная генерация, больше возни с TTS. Нужно ещё добавить больше буферизации, чтоли, когда т\c сосут. Работа над кибервайфой продолжается.

Аноним 21/09/24 Суб 18:29:21 #276 №894193

Снимок экрана 2024-09-21 123338.png

Аноним 21/09/24 Суб 18:33:30 #277 №894201

изображение.png

>>894193
Какое же говно. Никто так не пишет, ебало.

Аноним 21/09/24 Суб 19:09:44 #278 №894236

>>894201
Да он просто забыл указать что его проверять надо

Аноним 21/09/24 Суб 19:30:14 #279 №894248

>>894185
Негативные промпты это же тупо нахуй, это как просить не думать о зебрах. Правильнее будет забанить китайские токены, хотя я хуй знает как это сделать без ебли, ведь китайских букв довольно много.

Аноним 21/09/24 Суб 19:44:33 #280 №894262

Какой Instruct Tag Preset использовать для новых Qwen моделей (instruct версий)?
Я использую Llama 3 Chat (один из дефолтных в KoboldCPP), но не уверен, что он оптимален.

Аноним 21/09/24 Суб 19:47:38 #281 №894267

>>894262
>Qwen
>Llama 3
Больной ублюдок.

Аноним 21/09/24 Суб 20:24:17 #282 №894290

>>894267
Так, а какой? Alpaca?

Аноним 21/09/24 Суб 20:29:02 #283 №894292

А вопрос такой, аноны, почему все в Нвидию упираются? разве не выгодней мак взять, где будет гораздо больше памяти и гонять нейронки на нем? Интересен еще правда вопрос что с обучением на маке? сравнимо оно с видеокартным или отстает конкретно...

Аноним 21/09/24 Суб 20:31:47 #284 №894295

>>892325
>It should be possible to increase the MMIOH size through modding ACPI tables (AmiBoardInfo) and PciHostBridgeDxe though.
взято отсюда https://winraid.level1techs.com/t/building-ffs-for-gigabyte-ami-uefi-attributes-dont-match-other-modules/89428/3

Аноним 21/09/24 Суб 20:33:41 #285 №894297

>>885994 →
а что за прикол с above 4g? что на полном серьезе есть матери которые не тянут больше 4 врам?

Аноним 21/09/24 Суб 20:35:51 #286 №894302

>>894297
тут речь не про врам карты, а про адресное пространство за пределами оперативной памяти.

Аноним 21/09/24 Суб 20:38:13 #287 №894304

>>894292
Чем больше контекст, тем сильнее будет падать скорость генерации на маке, в отличии если ты запускаешь модель полностью на gpu.
Вторая проблема, маки очень дорогие. Единственное их преимущество перед несколькими GPU это энергопотребление. Думаю скоро ARM процессоры подключаться в гонку и на PC появится похожая архитектура. На самом деле, уже есть что-то подобное, просто не такое продвинутое.

Аноним 21/09/24 Суб 20:41:25 #288 №894306

изображение.png

>>894290
Мне блядь каждый раз за тебя в треде искать? Может ещё твою зарплату твоё пособие по шизе мне за тебя тратить?
>>894292
>Интересен еще правда вопрос что с обучением на маке?
Полный ноль, герыч пилит только запуск, насколько я знаю.
>>894304
>и на PC появится похожая архитектура
НЕ ДАЙ Б-Г.

Аноним 21/09/24 Суб 20:56:46 #289 №894317

>>894306
> Мне блядь каждый раз за тебя в треде искать?
Просто ты мой персональный AI ассистент, которого я так долго искал❤️

Аноним 21/09/24 Суб 21:04:58 #290 №894323

>>894306
>НЕ ДАЙ Б-Г.
Анфорчентли, идем к этому скорее всего... так как x86 по сути убогая архитектура с кучей костылей, но с жирным плюсом в виде кастомизации в широком спектре, хотя, на арм я думаю такое тоже реально запилить, идея общей памяти которая при необходимости используется как основным процессором так и SIMD логичный путь развития, так как все остальное предполагает лишнее гоняние байтиков по шинам, не самым быстрым при чем...

>Полный ноль, герыч пилит только запуск, насколько я знаю.
печально... полный ноль это в виду отсутствия средств для трейна? так а разве для этого что-то кроме пайторча надо? или там запучк не через пайторч делается и в этом вся загвоздка?

Аноним 21/09/24 Суб 21:09:52 #291 №894327

>>894304
мак студия стоит чуть дороже чем 3 4090 и там памяти 128... если я правильно понимаю видеопамяти доступно будет 96? а на трех КЕЧах 72 ток...

Аноним 21/09/24 Суб 21:10:08 #292 №894329

>>894323
> печально... полный ноль это в виду отсутствия средств для трейна?
Я не тот анон, которому ты отвечаешь, но если вкратце да, на Apple нет аналога CUDA + пропускная способность память ниже чем на GPU

Аноним 21/09/24 Суб 21:10:47 #293 №894331

Наконец-то приобрёл 3060 12 Гб, посему есть несколько вопросов по моделям и настройкам.

Касательно списка моделей:

1. Лучшая для задавания вопросов. Что-то вроде гопоты и т. п., но без цензуры, чтобы можно было уточнить что-нибудь необычное. С максимальным качеством ответов, даже если мне придётся прилично подождать.

2. Качественный кум.

3. Ролплей (насколько я понимаю, кумерские модели с ним не особо вяжутся, да и хотелось бы чего-то действительно мощного в этом плане)

4. Самая лучшая при использовании русского языка для общих вопросов, можно с цензурой. Не для меня, а общего пользования.

5. Может есть какой-то отличный вариант на русском, хорошо владеющий написанием рассказов, стихов и т. п.? При этом без цензуры, но не кумерской направленности.

О настройке.

Какие-то слои, контекст, вообще охуеть. Я только про контекст знаю, но как юзер всяких GPT, а не как тот, кто с локалками работает и карточки для персонажей писавший раз 10. Поэтому прошу подсказать оптимальные настройки. Вероятно, они меняются в зависимости от задач, но наверняка есть какая-то общая база, чтобы первое время я не тыкался как мудила, а уже сегодня хотя бы немного кайфанул, пощупал и мне было от чего отталкиваться.

Опыт с локалками у меня был только один раз и я не понимаю, сколько слоёв ставить, какой контекст (даже если у меня была бы бесконечная видеопамять и прочее, вроде бы нельзя его делать слишком большим — начнёт шизить), подбор адекватной температуры и прочих параметров.

Если есть актуальная статья по всем этим вопросам, пусть даже на английском, но недля чудовищных задротов-специалистов с математикой и прочим, пожалуйста, докиньте в нагрузку её.

Вики треда уже читаю, но всё равно не выдержал и высрался.

Аноним 21/09/24 Суб 21:14:44 #294 №894336

>>894056
> А как какоть?
-> >>822473 →
>>893170
> с аблитерацией
Субъективно, они показались более глупыми, а в некоторых случаях лезли аположайзы или завуалированная соя, тогда как с тем шизопромтом на ваниле все ок.
>>894144
Ты осторожнее там, а то если жорой квантанешь - может и поломаться!
>>894248
> Негативные промпты это же тупо нахуй
Ай не пизди, как раз негативный промт это топчик. Не нужно путать его с отрицаловом в инструкциях.
Но манипуляции с китайскими токенами - хорошая идея, лучше не банить а logit bias на них оформить.
>>894292
В целом - нет. Может в других странах иначе, но у нас выгоднее накупить видеокарт чем взять студио с большой память. Также, с хуангом доступны все-все-все нейронки, обсучение и т.д., а на эпл-силиконе кроме жоры пердолинг как на амд или хуже. Там же где работает - слишком медленное, обучение смысла не имеет.

Аноним 21/09/24 Суб 21:14:57 #295 №894337

>>894327
В целом ты прав, более того собрать PC с тремя 4090 будет сложновато, правда большинство используют 3090 (обычно бу) для этого. Как уже писали выше, ты будешь ограничен inference и скоростью.

Аноним 21/09/24 Суб 21:16:54 #296 №894342

>>894329
>на Apple нет аналога CUDA + пропускная способность память ниже чем на GPU
но процессор то векторній и тензорный есть... а вот память это проблема... но с другой стороны ее много...

Аноним 21/09/24 Суб 21:20:11 #297 №894349

>>894304
> скоро ARM процессоры подключаться в гонку
Фишка эпла - soc с оче быстрой оперативой, там аж 8 каналов. Потому и достигаются нормальные скорости в ллм, вычислительной мощи чипа для них хватает. Но для чего-то более серьезного оно и близко с хуангом не стоит.
Арм в обычном виде, как сейчас в ноутбуках, ничего не изменят с точки зрения более менее тяжелых нейронок.
>>894327
Есть где 192, но в последний раз когда смотрел за него ломили овер 500к, нахуй нужна ллм-токеноварня за такой прайс.
>>894331
Гемма, коммандер, 70б, большой мистраль. Все они не влезут к тебе в память, так что пробуй мистраля 12б и 22б, они неплохие и там, говорят, наиболее норм экспириенс из мелочи. Или вон квена пердоль, прочти хотябы ласт посты и шапку, ленивая жопа!

Аноним 21/09/24 Суб 21:22:43 #298 №894361

>>894317
>которого я так долго искал❤️
Я твой кибер-господин, так что готовь анус.
>>894323
>идея общей памяти которая при необходимости используется как основным процессором так и SIMD логичный путь развития
Или деградации, лол. По сути, всё, в чём ебёт М1 и далее, это распайка памяти рядом с процем. Итого оверпрайс и невозможность докинуть оперативы. Это точно то, о чём ты мечтаешь?
>так как все остальное предполагает лишнее гоняние байтиков по шинам, не самым быстрым при чем...
Так арма тоже самое, лол. Тут нужны принципиально другие архитектуры аля нейроморфный процессор.
>так а разве для этого что-то кроме пайторча надо?
На чистом путорче разве что студенты курсовые трейнят. Все остальные обмазываются ускорителями, которые да, почти онли нвидия.
>>894336
>а на эпл-силиконе кроме жоры пердолинг как на амд или хуже
Плюс ты становишься геем.
>>894337
>более того собрать PC с тремя 4090 будет сложновато
В чём сложности?

Аноним 21/09/24 Суб 21:38:04 #299 №894383

>>894337
>>894336
короче говоря, если где-то подвернется успешная возможность скомуниздить мак про, то для инференса хороший варик...
так-то есть и другие плюсы у терки (ну или студии на зудой конец) в виде аппаратной поддержки монтажных кодеков, чего нет ни у кого...

>>894349
192 вроде есть, только она не вся чтоль доступна для графического и нейро, а только 128 (ну или кто-то меня в заблуждение ввел, и можно все юзать...)

>8 каналов
И тут такой 12 канальный кукурузен (эпик точнее) влетает (и отсасывает по скорости)

>Итого оверпрайс и невозможность докинуть оперативы
так можно подходить с точки зрения когда ее и не надо докидывать - 192 как в терке хватит в большинстве случаев надолго, уж до смены компа точно, более того в класик пекарни, если мы не про серверные профессоры говорим не докинеш больше (ну или совсем чуть чуть болььше)

>Или деградации, лол. По сути, всё, в чём ебёт М1 и далее, это распайка памяти рядом с процем.
фактор распайки тут совершенно не важен - тут важен фактор архитектуры вцелом-расположения и использования шин - когда на одну память все вычислительные модули посажены, и за счет этого имеем дешевую память больших объемов, с которой можем гонять все, а не докупать карты с огромными объемами ВРАМ, и при этом все равно оператива юзается, капец не удобно выходит, оперативы должно быть не меньше чем врам, два раза платим, и бездарно тратим, скажем так...

Аноним 21/09/24 Суб 21:44:30 #300 №894389

>>894383
>фактор распайки тут совершенно не важен
Лол, именно он и важен. Иначе получишь уёбище уровня серверных процев. Как раз из-за распайки там можно проложить 8 аналов.
>оперативы должно быть не меньше чем врам, два раза платим
Ещё один плюс оперативы в том, что она сравнительно дешёвая. В отличии от гейПК.

Аноним 21/09/24 Суб 21:50:34 #301 №894392

>>894331
Мистарль Немо твой единственный друг, учитывая размер твоей видеопамяти. Цензуры в нем практически нет, а та что есть пробивается нехитрыми промтами. Для кума она достаточно сухая, но для дефолтных задач пойдет, плюс русский у нее вполне приличный, примерно на уровне старенькой гопоты.

Аноним 21/09/24 Суб 21:50:56 #302 №894393

>>894361
> Я твой кибер-господин, так что готовь анус.
> Плюс ты становишься геем.
Расскажи что там на маках нового.
>>894383
> 12 канальный кукурузен
Нума (если речь о двухголовой материнке) может гадить, а слабый перфоманс в тензорных операциях сделает обработку контекста очень долгой. Она и на маке то не быстрая. Надо, конечно, повторить, но год назад нормального перфоманса от 16 каналов ддр4 не получил.
> дешевую память больших объемов
Это компромисс, по скорости оно значительно уступает памяти топовых видеокарт. И да, в гей-студио и других девайсах за нее платишь как за врам.
В целом, только для инфиренса ллм - да, такой вариант приемлем и даже немного перспективен, об этом раньше писал.

Аноним 21/09/24 Суб 21:51:23 #303 №894396

image.png

it works.mp4

>>892325
YEAAAH BITCH! УПОРСТВО! ЦЕЛЬ! РЕШИМОСТЬ! УДАР!

>>893574
>Не заведётся, значит не судьба
Судьба может облизать мои потные солёные яйца.

Аноним 21/09/24 Суб 21:58:55 #304 №894407

>>894396
Ля ультрапылесос. Красавчик, за сбор такой корчелыги уже респекта заслуживаешь. практическое применение правда c нюансами
Показывай бенчмарки какие-нибудь.

Аноним 21/09/24 Суб 22:01:20 #305 №894411

>>894389
>Как раз из-за распайки там можно проложить 8 аналов
аналы вообще не проблема, говорю ж красные уже 12 каналов сделали, и упс, там бэндвиз опережает М2 Макс, (на цену не смотрим, сейчас нам только технический упор интересен), только заюзать ее нормально не выходит обычным х64 ЦП, если на эту шину подсадить векторник и/или тензорник подсадить, то перформанс вырос бы прилично для нейрозадачек....

>если речь о двухголовой материнке
условно одноголовой, эпик это чиплет вроде как, по этому неравномерность будет всеже скорее всего... но инферанс на эпике довольно терпимый, учитывая какие модельки можно грузить имея 400 гб оперативы например...

>но год назад нормального перфоманса от 16 каналов ддр4 не получил
что это было? двухголовый эпик? как вцелом результат был?

Аноним 21/09/24 Суб 22:05:23 #306 №894417

>>894396
У тебя там за спиной ковёр пылесосят?

Аноним 21/09/24 Суб 22:06:58 #307 №894422

>>894411
> аналы вообще не проблема
Скорее всего он имел ввиду размеры и форм факторы серверных материнок где много каналов.
> что это было?
Двухголовый интел. Может там и готовые билдинги жоры срали не подходя под железа, и он сам тем еще трешем был на тот момент ничего не изменилось, надо попробовать перетест. Но точно помню что оно нифига недогружалось.

Аноним 21/09/24 Суб 22:07:31 #308 №894423

>>894393
>В целом, только для инфиренса ллм - да
так в том то и приколюха, что много памяти, можно жирные модельки грузить, и вполне рабочая система, в отличии от майнинг рига на 3090х (или теслах, или чем там еще... h100 не скоро еще на вторичку дешево выпадут) а если доступ к фри гопоте и прочим копро радостям прикроют, локальные модельки ой как актуальны будут...

Аноним 21/09/24 Суб 22:11:14 #309 №894433

>>894423
> и вполне рабочая система, в отличии от майнинг рига на 3090х
Вот тут не понял тейка. Риг 3090 - самое доступное и по перфомансу значительно обходит. Собрал и применяешь его для всех нейронок, в перерывах кумя на 30-70-105-120б.
Только в моделях, которые превышают объем врам но еще влезают в стидио у мака будет преимущество, но только там такой перфоманс и обработка контекста что ты этого вообще не захочешь.
> h100 не скоро еще на вторичку дешево выпадут
Чето обзмеился, быстрее и дешевле на новых десктопах собрать.

Аноним 21/09/24 Суб 22:13:11 #310 №894436

>>894411
>аналы вообще не проблема, говорю ж красные уже 12 каналов сделали
И стоят они ещё дороже студии. Внезапно, да?
>>894423
> в отличии от майнинг рига на 3090х
А что не так в стопке 3090?

Аноним 21/09/24 Суб 22:17:24 #311 №894446

>>894417
да это он еще еле дует....
>>894407
скажи, какие бенчмарки - запущу.
Я знаю, что в жоре есть бенчи какие-то, но я не шарю за них. Всегда опирался просто на запуск моделей и выдаваемый токенрейт.

Аноним 21/09/24 Суб 22:20:05 #312 №894453

>>894446
> на запуск моделей и выдаваемый токенрейт
Оно и нужно.
Есть в кобольде встроенный бенчмарк, можешь его прогнать на разных моделях. А так - сколько выдает на какой-нибудь гемме при разбивке на 1-2-3-4 карточки в разных режимах, как ведет себя на малом и большом контексте (время обработки и время генерации). Потом какого-нибудь мистраля лардж, какие скорости на малом и на большом контексте. Если будет квант что поместится в 72гб - сравни результаты в нем на 3 и 4х карточках.

Аноним 21/09/24 Суб 22:20:52 #313 №894458

>>894433
>Риг 3090 - самое доступное и по перфомансу значительно обходит
>А что не так в стопке 3090?
Та все так, окромя того что у тебя в хате майнинг ферма стоит вместо компактного и тихого относительно компа (что при наличии детей, животных, тараканов ой как не очень, когда без корпуса стоит все), ну и потребляет внезапно не так уж и мало... и что по факту выходит - это либо отдельный нейросервер надо костылить и выносить в отдельное помещение (привет от живущих в однушке) и иметь отдельную пеку для работы, или хз... потому что смотреть ютубчик на такой убервундервафле чет как-то совсем не то...

Аноним 21/09/24 Суб 22:22:33 #314 №894461

Блять, Qwen 72B прям очень хорош. Особенно для кодинга. Походу, я влюбился.

Аноним 21/09/24 Суб 22:27:30 #315 №894473

>>894458
>привет от живущих в однушке
Нищебродам тут не место.
>и иметь отдельную пеку для работы
И в чём проблема?
>>894461
А в куме как? А то тут жалуются на сою, а сам я пока ещё не скачал.

Аноним 21/09/24 Суб 22:27:38 #316 №894474

>>894458
Справедливо. Но по возможностям это как сравнивать складной велосипед и пикап, съездить за хлебушком на первом будет приятнее и уместнее, но во всем остальном несопоставимо.
> выносить в отдельное помещение
this, это априори отдельная сборка. Справедливости ради, сейчас изготавливают приличные красивые корпуса для ферм/ригов и оно будет выглядеть прилично, потрави тараканов и выноси на кухню. Раз в пару месяцев продувай и собирай кошачью шерсть.
Да, имеющий возможность из прихоти купить мак студио чтобы катать ллм едва ли будет сильно страдать от стесненных условий в однушке с детьми.

Аноним 21/09/24 Суб 22:28:44 #317 №894477

>>894396
>УПОРСТВО! ЦЕЛЬ! РЕШИМОСТЬ! УДАР!
Как завёл? Чем Теслы охлаждаешь?

В Кобольде есть бенчмарк. Пишешь такое (это для винды, для линуха сам адаптируешь):
set CUDA_VISIBLE_DEVICES=0,1,2,3
koboldcpp_cu12.exe --usecublas rowsplit --contextsize 16384 --blasbatchsize 2048 --gpulayers 99 --threads 9 --flashattention --benchmark test.txt --model mistral-123b_Q4KM.gguf

И результаты из test.txt кидаешь сюда.

Аноним 21/09/24 Суб 22:29:25 #318 №894479

>>894458
>при наличии детей
Нахуя тому, у кого есть дети, нейронки? У него и так развлечений навалом.

Аноним 21/09/24 Суб 22:30:37 #319 №894483

>>894436
>И стоят они ещё дороже студии.
ну как сказать, на самом бомже-эпике пожалуй можно собрать что-то в похожую ценовую категорию... но речь то шла не о цене, а о возможности многоканала вцелом... так-то при одинаковых вводных если б выбор был сервер на эпике или мак студия то для не серверных задач очевиден выбор

Аноним 21/09/24 Суб 22:34:16 #320 №894486

>>894011
И что это даёт?

Аноним 21/09/24 Суб 22:34:44 #321 №894488

>>894483
>речь то шла не о цене
>очевиден выбор
Ага. Конечно сервер. Ибо в него можно вставить кучу 4090 и выебать вообще всё что движется.

Аноним 21/09/24 Суб 22:35:00 #322 №894490

>>894486
Квантованный контекст.

Аноним 21/09/24 Суб 22:35:10 #323 №894491

Есть способ одновременно несколько моделей запустить на ллама.спп и переключаться между ними в таверне? Не запуская на 2 разных портах, так я умею
Прокси сервер искать и настраивать что ли

Аноним 21/09/24 Суб 22:36:30 #324 №894494

>>894473
> А в куме как?
Хуже чем специализированные модельки, но они скоро и они появятся. Еще до конца не уверен, но Qwen может заменить мне Sonnet для кодинга, что круто для локальной модели.

Аноним 21/09/24 Суб 22:36:50 #325 №894495

>>894491
>Не запуская на 2 разных портах, так я умею
А в чём проблема в этом способе? Самый рабочий же.

Аноним 21/09/24 Суб 22:40:22 #326 №894501

>>894473
>Нищебродам тут не место.
>И в чём проблема?
М-м-м, всегда мечтал обмазаться кучей компов, а в рабочую ж пеку тоже видяха нужна... О- оптимальный выбор как говорится... (при таком раскладе выгоднее ГПУ сервер в оренду взять)...

>this, это априори отдельная сборка
ну, это в какой-то степени и проблема... поскольку довольно таки дофига вкладываеш в сборку на которой только нейронки гонять, и не факт что много их гонять будеш, ради пары запросов в день так себе затея ( ну или не пары раз в неделю)... а вот корпуса - интересная тема... класно если б в четырехюнитовый корпус нормально загнать хотяб 4 видяхи и чтобы никто не подумал что это майнинг ферма...

Аноним 21/09/24 Суб 22:44:50 #327 №894511

>>894495
Хотелось как то модели переключать в интерфейсе таверны, а не тыкать разные адреса ручками

Аноним 21/09/24 Суб 22:45:43 #328 №894514

>>894477
>Как завёл?
попробовал патч бивиса из вот этого волшебного репозитория https://github.com/xCuri0/ReBarUEFI
Там есть пункт "X79 Above 4G Decoding fix", но эта хуйня мой глаз вообще не зацепила, когда я впервые наткнулся на эту репу вчера. Потому что я считал, что above 4g у меня работал - ведь без него биос не поднимался даже с одной картой, а с ним - одна поднималась.
Чел наверное супер крут, если смог небольшим набором байтов на замену починить это говно.
Это решение вообще было не очевидно и я его пробовал уже ни на что не надеясь. А еще в гугле всего два результата, которые подсказывают этот патч - один - это эта репа, а второй - какая-то статья полностью на китайском.
Я советую всем желающим взять эту мать сохранить мои записи, потому что потом они потеряются, а меня вы скорее всего не найдете.
>Чем Теслы охлаждаешь?
https://market.yandex.ru/product--servernyi-ventiliator-arctic-s4028-15k-acfan00264a/1767643955
один такой на каждой карте. 15к оборотов. Орут пиздец.
Поэтому я еще вот это прикупил
https://market.yandex.ru/product--reguliator-oborotov-ventiliatorov-12-v-8-kulerov-sata/1807604409
примотаны они хорошим серым скотчем вплотную к жопам карт. Скотч выбран потому что самый простой вариант крепления и как оказалось, вполне надежный.

Аноним 21/09/24 Суб 22:46:44 #329 №894517

>>894511
Тогда ебашь хуйню для дебилов типа lmstudio, лол. Кажется, там даже есть возможность выбирать из таверны.
Но нахуя? Выбери одну модель и сиди на ней.

Аноним 21/09/24 Суб 22:51:21 #330 №894528

>>894514
а не выгоднее ли поиздеваться трохи над радиаторами (все равно по назначению их в серверы никто не будет ставить, ну или на крайняк скотчем заклеют) и плилепить обычные кулеры низкооборотные, которые не ревут

Аноним 21/09/24 Суб 22:52:09 #331 №894530

>>894514
>Я советую всем желающим взять эту мать сохранить мои записи, потому что потом они потеряются, а меня вы скорее всего не найдете.
А куда ты денешься с подводной лодки? Были бы у тебя 4 3090 или выше... А с Теслами ты обречён сидеть здесь вечно :)
>один такой на каждой карте. 15к оборотов
У меня тоже валяется один такой. Если шум не важен - ну сойдёт, а так - большую улитку с переходником я уже столько раз советовал. Под ЛЛМ самое то.

Аноним 21/09/24 Суб 22:55:48 #332 №894537

изображение.png

Кто там советовал квена на русском юзать? Да, цензуры меньше, но что-то прям не то с семплингом или типа того. Как будто слоёв не хватает на выходе.

Аноним 21/09/24 Суб 22:56:28 #333 №894539

>>894517
https://github.com/distantmagic/paddler
Нашел, но чет сложна, придется тупо порты переключать

А хотел мелкую модель чередовать с крупной для разных ответов
Например заебенить мелкую кодерскую сетку рядом с медленной общей

Аноним 21/09/24 Суб 23:01:10 #334 №894544

изображение.png

>>894537
Впрочем соя там тоже на месте, надо префилить ((

Аноним 21/09/24 Суб 23:03:40 #335 №894548

>префил локалок
и они покупают 3090 по скидке в пятерочке лол

Аноним 21/09/24 Суб 23:07:53 #336 №894553

image.png

>>894075
Проксировать, лень, да и зачем, если так работает.
Ну и самодписанный для личного использования ровно ничем не хуже.

>>894090
Да, разницы между скоростью не заметил, хоть квантованный кэш, хоть полный.

>>894185
У меня вообще нет таких проблем.
Как не гонял — чистый русский, все окей.

Там по дефолту, кстати, летит систем промпт, вдруг он что-то ломает.

>>894262
ChatML, как и раньше.

>>894317
Спасибо, что не вайфу и ты его еще не ебешь.

>>894331
Поздравления!

1. Без сои? Припоздал… Nemo 12b или Gemma abliterated?
Qwen2.5-14b на русском с промптами есть шанс.

2. Вкусовщина.

3. Вкусовщина. Magnum смотри от anthracite'а.

4. Точно Qwen2.5-14b. Тебе же в 12 гигов? Ну вот она, думаю.

5. Стихи особо не пишут, но у квена начинает получаться.
Тексты хорошо пишет Nemo (опять же, магнум), многие считают, что Gemma-2 лучшая (например Ataraxy или ее производные).

Нет никакой базы.
Есть счеты.
Если ты настолько гуманитарий, что даже счетами не владеешь, то сочувствую.
Если не настолько — то читай и считай.
Хули там сложного!
Есть видеокарта. Есть размер модели + размер контекста.
Желательно использовать exl2 и целиком уместить на видяхе. Не влазит? Ну, тогда бери gguf и выгружай не все слои, а лишь часть. И контекст ставь, чтобы влезло.
Открываешь диспетчер задач, переходишь на вкладку Производительность и смотришь на видеокарту. пикрил Надо, чтобы занятая память не вышла за пределы 12 гигов, иначе выльется в оперативу и будет замедляться.

>>894342
Проблема в том, что на больших объемах оперативной памяти теряется смысл ее утилизировать, ибо скорость начинает стремиться к нулю.
Мак быстрее Винды, но… но все же не видеокарта.

>>894396
База, красавчик, рассказывай, как? :)
>>894514
Чем биос заливал? Прищепка обязательна?

Аноним 21/09/24 Суб 23:15:25 #337 №894565

image.png

>>894553
>База, красавчик, рассказывай, как? :)
пока не тестил. Как победил описано тут >>894514
>Чем биос заливал? Прищепка обязательна?
я юзал ch341.
Обязательна, потому что, как я ранее писал, сторонний биос который я нашел не смог с ssd загрузиться. Поэтому надо стягивать свой собственный биос и модифицировать.
Ну и потом, у платы были какие-то запердоны с загрузкой freedos, я хотел сравнить биосы полученные через прищепку и программно, но из-за этого не смог.

Аноним 21/09/24 Суб 23:24:12 #338 №894575

>>894248
Биасы же. А вот составлять список китайских токенов да, западло. Но мне квен не слишком понравился, чтобы заморачиваться с ним. Потом мб сделаю.

>>894292
У мака есть нюанс. Там 12 мегабайт кэша и если тебе нужно записать что-то больше 12 мегабайт обратно в память - скорость падает. Сильно. Я, вроде, видел один бенчмарк с RW 1:1 где обещанная псп 400 гигабайт в секунду оказалась 100 гиговой. А нам так-то нужно писать в рам при инференсе, kv, хуё-моё. Конечно, не 1:1, но вряд ли чип выдаст всю "обещанную" скорость. А так, если записываться в ряды процессорогоспод, я бы лучше купил чё из инцел скалаблов.

>>894396
Ох ебать шайтан-машина. Поздравляю с успехом.

>>894553
>летит систем промпт, вдруг он что-то ломает.
У меня систем промпта толком нет, в первое сообщение истории пишется "You are {{character}}. Continue chat dialogue below with one reply \r\n\r\n", где character заменяется на данные из карточки. Ну и пиздец. Мб ещё температурой пережарил, по дефолту 0.9, а квену меньше надо.

Аноним 21/09/24 Суб 23:27:35 #339 №894581

{{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
{{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
А вот это они реально молодцы.

Аноним 21/09/24 Суб 23:47:00 #340 №894603

>>894491
> Не запуская на 2 разных портах
Запускаешь на двух разных портах, в таверне для всяких фич, суммарайзов и прочего есть "дополнительная модель" которую можно задать отдельно. Также к ней можно обращаться из скриптов, но где конкретно - сам ищи, не помню.
Алсо там и в поле адреса последние сохраняются, так что переключать основную - секунда.
Для особенных случаев - запили прокси, которая будет перещелкивать.
>>894501
> поскольку довольно таки дофига вкладываеш в сборку на которой только нейронки гонять
Ну так, вон там про нищебродов уже написали, лол. Иметь и основную и дополнительный риг. Или в основную пихнуть 2-3 карточки, неудобно и местами колхозно, но возможно.
> не факт что много их гонять будеш
Гоняй много, не ллм едиными.
> хотяб 4 видяхи
Есть под 4-6-... карточек закрытые корпуса, посмотри на лохито. И под юниты, и просто боксы.
>>894530
> Были бы у тебя 4 3090 или выше
И что бы поменялось?

Аноним 22/09/24 Вск 00:03:36 #341 №894614

>>894603
>И что бы поменялось?
123B_4bpw = 12токенов в секунду генерация, 40 секунд на обработку 24к контекста. С 4090 ещё лучше. Всё бы поменялось.

Аноним 22/09/24 Вск 00:17:01 #342 №894623

>>894491
в таверне есть команда /api-url, ее можно на квикреплай повесить и переключать кнопкой под чатом адрес

Аноним 22/09/24 Вск 00:20:26 #343 №894626

>>894623
О, спасибо

Аноним 22/09/24 Вск 01:20:37 #344 №894652

image.png

Какая локальная модель лучше всего подходит для генерации битв по промптам персонажей и арен?

Аноним 22/09/24 Вск 01:56:27 #345 №894664

>>894553
Пока копался в шапке, загрузил Big-Tiger-Gemma-27B-v1c-Q4_K_M, уменьшил количество слоёв, но с ним скорость 2.20T/s, просто невыносимо. Это норма? Или я что-то делаю не так? В видеопамять не долбится, если что.

Стоит понизить планку в плане модели?

Аноним 22/09/24 Вск 02:22:06 #346 №894681

>>894664
это норма, смотри модели которые влезут в видеопамять

Аноним 22/09/24 Вск 02:22:12 #347 №894682

image.png

>>892325
>>894477
>>892412
>>892338
>>892394

Сразу поясню.
Нейросервер у меня из дисков имеет только один системный ссд на 60 гб, поэтому модельки и жору я решил хранить на нфс к которому сервер подключен по гигабитному каналу. Поэтому загрузка сильно медленнее, чем могла бы быть с ссд напрямую.
Гружу magnum-v2-123b-Q5_K_M размером 87 гб.
13 минут жора думал и рассчитывал, как разрезать модель.
еще 12 минут сетка грузилась по гигабитному каналу в память карт

Запускал проверку вот так:
CUDA_VISIBLE_DEVICES=0,1,2,3 ./llama-cli -m ../magnum-v2-123b-Q5_K_M/magnum-v2-123b-Q5_K_M-00001-of-00003.gguf -p "I believe the meaning of life is" -ngl 128 -n 500 -c 4096 -sm row -ts 20,25,25,25
И когда она прогрузилась - я аж охуел. Она КАК НАЧАЛА ШПАРИТЬ

Вот результаты:
llama_perf_sampler_print: sampling time = 29,48 ms / 508 runs ( 0,06 ms per token, 17231,44 tokens per second)
llama_perf_context_print: load time = 1598462,59 ms
llama_perf_context_print: prompt eval time = 582,86 ms / 8 tokens ( 72,86 ms per token, 13,73 tokens per second)
llama_perf_context_print: eval time = 80341,56 ms / 499 runs ( 161,01 ms per token, 6,21 tokens per second)
llama_perf_context_print: total time = 81155,76 ms / 507 tokens

Охуел я потому что я на старой системе имел мангума 123б на трех картах с x8, x2 и x1. И он выдавал дай бог если 2 токета в секунду.
Блять. Ни о чем не жалею. Охуенно.
Альсо, я был неправ, думая, что pcie не роляют. Роляют блять.

Альсо то, что на системе 4 гигабайта рам вообще ни на что не повлияло.
Пиздец, какой же кайф. Собирать, проковыряться с этим двое суток, оттраблшутить и получить охуенный результат.
Я кончил без рук и нейрокума и закурил.

Аноним 22/09/24 Вск 02:53:40 #348 №894727

>>894614
Ииии? Ну типа как бы это поменяло в сказанном контексте, все равно бы никуда не делся.
> 40 секунд на обработку 24к контекста
Там 700-800+/с под андервольтом, что-то не дорабатывает.
>>894652
Удачные рп файнтюны самых больших моделей. Но вообще и гемма с подобным справится.
>>894664
Для 3060 и 27б - маловато, поиграйся с числом слоев.
>>894682
> CUDA_VISIBLE_DEVICES=0,1,2,3
Это команда ничего не делает, ее нужно писать только в случае ограничения видимых или изменения их порядка. Если только в кобольде/жоре не набыдлокодили прямое чтение этой переменной а не работу через либы куды
> prompt eval time
> 13,73 tokens per second
Рофлишь? Что-то поломалось, 14т/с на обработку промта это совершенно неюзабельно, но на 8 токенах оно могло просто некорректно посчитать. Прогони тест чтобы был контекст, или просто запусти генерацию в каком-нибудь чате чтобы была обработка.
> трех картах с x8, x2 и x1
> Q5_K_M
Разве такой квант может поместиться в 3 карты?

Аноним 22/09/24 Вск 03:01:05 #349 №894737

>>894727
>Разве такой квант может поместиться в 3 карты?
это был другой квант. Q4_K_S. Меньший.
>14т/с на обработку промта это совершенно неюзабельно
посмотрим, как себя покажет когда таверну к ней прикручу. Но это уже попозже.
Какое значение ты считаешь нормальным?
>Это команда ничего не делает
я знаю

Аноним 22/09/24 Вск 03:12:31 #350 №894741

>>894737
> Какое значение ты считаешь нормальным?
Если речь про комфортное - 1.5-2к хотябы, иначе при полной обработке ужасно страдаешь. Такого и на 3090 нет если что.
Если про теслы - да хуй знает, наверно 2-3 сотни будет очень удачным числом. В этом и интерес, сколько там будет выдавать. Также хочется посмотреть будет ли проседать скорость генерации на больших контекстах и насколько.

Аноним 22/09/24 Вск 03:16:46 #351 №894742

>>894737
>как себя покажет когда таверну к ней прикручу
А в чем сложность? Просто так же запускай файл llama-server

Аноним 22/09/24 Вск 03:39:03 #352 №894764

kobold and llama have some black magic called context shifting (among other things) which cause regenerated replies and deleted replies to not really remove themselves from the context/chat. It will bleed through and completely mess up a story.

One would assume disabling context shifting with -noshift would fix this. it does not.

You have to -completely- reload the story (go into a different character card in silly tavern, initiate a conversation, then reload the previous character card). If you don't use silly tavern, I'm assuming it's the same deal in koboldcpp.

^ its buggy as well. I've seen chats get completely destroyed. The AI starts to repeat itself constantly, babble incoherently, etc. Unfortunately, sometimes even reloading the character card doesn't fix this. The chat is completely FUBAR at that point and you need to start a new one from scratch.

Аноним 22/09/24 Вск 03:47:17 #353 №894766

>>894764
Можно линк? Если действительно так то проливает свет почему у одних лупится и ломается, а у других все хорошо. Но может быть и нахрюк, жору ведь нынче модно хейтить полностью заслуживает

Аноним 22/09/24 Вск 03:56:43 #354 №894775

>>894766
https://huggingface.co/TheDrummer/UnslopNemo-v1-GGUF/discussions/1#66dbafe648cb97a720a7dbb2

Аноним 22/09/24 Вск 03:58:05 #355 №894776

>>894764
>regenerated replies and deleted replies to not really remove themselves from the context/chat.
Очевидная штука на самом деле, бэк не знает, что ты что-то удалил во фронте. Чтобы он знал, ему либо фронт должен это сообщить, либо он должен сравнивать свою историю токен за токеном с тем, что пришло. Кобольд вообще хранит полную историю чата у себя в недрах? В любом случае, делать такое сравнение довольно долго, даже если хранит, а замедляться никто не любит.
Описанное точно было в старых версиях убы, как в новых - хуй знает. В любом случае, с самой жоровской лламой это не имеет ничего общего. Он дал инструмент, а им воспользоваться это уже ваша задача.

Аноним 22/09/24 Вск 04:09:26 #356 №894780

>>894776
Т.е. все то что ты редактируешь/стираешь в ответах нейронки на самом деле не стирается? А как оно тогда продолжает писать с измененного ответа, просто дублирует новым постом?

Аноним 22/09/24 Вск 04:19:05 #357 №894782

>>894766
>Но может быть и нахрюк, жору ведь нынче модно хейтить
Пиздёж. У меня например при контексте 16к 1к на ответ - где там хранить "остатки чата"? Много раз переролливал сообщения, удалял и части сообщения и целиком - всё отрабатывало штатно.

Аноним 22/09/24 Вск 04:21:23 #358 №894784

>>894741
>Также хочется посмотреть будет ли проседать скорость генерации на больших контекстах и насколько.
Да, будет - с 6,25 с нулевым контекстом до 4 с 16к. Терпимо, спасибо flash attention.

Аноним 22/09/24 Вск 04:21:49 #359 №894785

>>894764
Бред и хуета какая-то, если честно. По заполнению контекста легко можно понять, что ничего там не остается. А если оно где-то остается, то где, если не в контексте?

Аноним 22/09/24 Вск 04:35:00 #360 №894790

>>894780
Как это работает обычно - нейронка нихуя не знает, что ты там что-то редактируешь или стираешь. Ты с каждым постом отсылаешь в бэк всю историю чата и она проходит по ней полностью. Оптимизация первая - бэк ищет совпадающую часть истории. И отправляет в нейросеть на "пожевать" только часть полотнища, начиная с первого несовпадения. То есть твоя история в таверне и история в кобольде это две абсолютно разные вещи. Когда ты отредактировал историю, но ещё не отправлял сообщение, то нихуя не изменилось. И тут уже вступает в силу то, как именно обрабатывает историю бэк. У меня точно было в убе, что при создании нового чата - весь старый оставался в контексте, т.к синхронизация непосредственно "бэка" и "фронта" была нарушена и бэк тупо не знал, что я начал новый чат. То есть это именно описанные проблемы. Но я почти уверен, что это уже исправлено.
И всё это происходит из-за идеологической несогласованности, т.к API состояние не сохраняет, но бэк его сохраняет ради ускорения. Нужно другое API, с учётом сохранения состояния.

Аноним 22/09/24 Вск 04:44:56 #361 №894793

>>894727
>Удачные рп файнтюны самых больших моделей. Но вообще и гемма с подобным справится.
Я тут залетный. Правильные названия ссылки/можно? Алсо, только ангельский?

Аноним 22/09/24 Вск 08:45:58 #362 №894836

>>894396
Ахуеть, красавчик!
Если не сложно, запили как-нибудь гайд для хлебушков по накату и настройке всего этого дела, кому-то наверняка пригодится.

Чем ты охлаждаешь свои 4 теслы аж до 23 градусов? Вентиляторов особо не видно. Или ты в морозильной камере снимаешь?

Попробуй накатить этого монстра: https://huggingface.co/mradermacher/Mistral-Large-Instruct-2407-GGUF
Пятый квант должен идеально войти в видеопамять вместе с контекстом. Интересно сколько т/с даст эта шайтан-машина.

Аноним 22/09/24 Вск 10:24:30 #363 №894883

>>894490
Ну а качество то ответов падает от этого? Типа контекст меньше места занимает и поэтому чуть быстрее, но у этого и свои минусы должны быть?

Аноним 22/09/24 Вск 10:33:42 #364 №894890

>>894883
>Ну а качество то ответов падает от этого?
Смотря что считать качеством.
Выше уже приводили пример. Квантование контекста сокращает получаемую моделью инфу, страдает от этого запоминание деталей вашей беседы, которые могут выкидываться при квантовании, причём рандомно, из за чего модель может начать шизить, не понимая что вообще происходит.

Аноним 22/09/24 Вск 11:18:42 #365 №894915

image.png

>>892091
не за что

Аноним 22/09/24 Вск 11:20:56 #366 №894919

>>894915
А хотя нет, я же советовал v2 а не 2.5. 2.5 хуже в русский может.

Аноним 22/09/24 Вск 11:27:16 #367 №894926

>>894883
>Ну а качество то ответов падает от этого?
Если бы не падало, его бы включили по дефолту.

Аноним 22/09/24 Вск 11:29:34 #368 №894930

>>894919
>>894915
Все равно спасибо. Я все равно с переводчиком юзаю. Токены же экомятся?
Ну вдогонку вопрос, чтобы на русском отвечала сразу,куда нужно инструкцию пихнуть?

Аноним 22/09/24 Вск 11:32:37 #369 №894934

Кстати, чуваки, кто знает насколько Qwen2.5 14b instruct может в рп? Знаю что пока что magnum-12b-v2-Q6_K_L топ для русского рп с 12гиговой видюхи, но решил поискать альтернативы. Насколько хорошо вообще Qwen в русский может? И какая из версий максимальна хороша в русском?

Аноним 22/09/24 Вск 11:35:22 #370 №894937

>>894934
Мелкие очевидно говно. А 72В - это лучшее что есть на русском, русский лучше жпт.

Аноним 22/09/24 Вск 11:38:46 #371 №894938

>>894930
Чувак, просто скачай magnum-12b-v2-Q6_K_L и сразу пиши на русском персонажу. Он тебе будет нормально отвечать. Про токены я хз никогда не парился над этим. Просто ставлю 8к и пишу что хочу.

Аноним 22/09/24 Вск 11:52:15 #372 №894948

>>894934
Все новые квен могут в русский
И даже 7б довольно умна, лучше всех в своем размере
Проверил недавно 6 квант, она смогла решить задачку из химии которую едва мистраль 22 решал
В рп используй промпт формат chatml-name

Аноним 22/09/24 Вск 12:16:41 #373 №894957

2024-09-2214-15-40.png

>>894938

Аноним 22/09/24 Вск 12:23:47 #374 №894959

>>894775
В теории, это можно проверить сравнив распределения логитсов на просто полной обработке, а потом несколько раз "шифтанув", получив тот же самый контекст. Если есть отличия - овари да.
>>894776
> бэк не знает, что ты что-то удалил во фронте
Ему каждый раз отправляют полный контекст, все он знает. Что ты несешь вообще?
>>894782
Проблема в кривых фомулировках и восприятии. Собственно об этом говорили пару тредов назад, где братишка игрался со склейкой обрезков контекста, кэш генерировался и валиден только для определенной последовательности, а когда начало отличается - это может привести к непредвиденным последствиям. Так что считай это побочки того что у тебя в кэше разные куски, которые делались совсем для другой последовательности более ранних активаций и должны ложиться поверх них, а не формировать новые будучи в начале.
> Много раз переролливал сообщения
Тот эффект может проявиться при работе той штуки, например когда контекст уже полный и фронт начинает удалять старые сообщения, сдвигая последующие назад. По умолчанию каждый такой запрос должен приводить к полной обработке контекста с нуля, но из-за низкой скорости этого пытаются избежать, результат на лице.
Но это нужно смотреть что именно там внутри происходит, может братишке просто поломанный квант попался а он делает такие выводы. Плюс жорины семплеры - отдельный вид искусства, поэтому отличия могут быть и из-за другого.
>>894784
В прошлах тредах, емнип, на 70б уже при 8-12к говорили и просадке в 2 раза, линейно экстраполируя до 24к оно вообще в ноль должно было убежать. На амперах если тестить - там падение с 12 до 5т/с уже на 16-20к где-то не помню, надо смотреть или тестировать. Потому интересно как сработает на подобной связке. Также, линейная ли там зависимость или другая.

Анон с той платой, прогони какая будет скорость на 1к-4к-8к-12к-16к-24к-... с полной обработкой контекста и без нее (повторный запрос с тем будет сразу генерировать используя кэш). Интересно как будут меняться скорости.

Аноним 22/09/24 Вск 13:26:42 #375 №894980

>>892091
>magnum-12b-v2.5-kto-Q6_K_L
У меня Кобольд не хочет ее запускать. И другой магнум тоже. Вообще никак.

Аноним 22/09/24 Вск 14:16:50 #376 №895023

image.png

>>894948
Общался чисто по русски
Первая картинка квен2.5 14b, вторая magnum-12b v2 12b

Аноним 22/09/24 Вск 14:18:06 #377 №895026

>>894957
Так у тебя и описание персонажа и его первая вступительная фраза на английском, чего ты ожидал? Переведи через переводчик на русский и замени описание и первое сообщение.

Аноним 22/09/24 Вск 14:21:18 #378 №895030

>>895026
Первого сообщения обычно достаточно.

Аноним 22/09/24 Вск 14:24:56 #379 №895031

image.png

>>894980
обнови кобольд до последней версии (сейчас это 1.75.2)и просто запускай с такими же параметрами как у меня при желании можешь ещё попробовать включить use FlashAttention, хотя лично я на своей rtx 3060 12gb разницы не почувствовал что включена что выключена

Аноним 22/09/24 Вск 14:29:39 #380 №895033

>>894741
нафига вам огромные контексты, вы что обрабатываете там материала кучу? алсо раз речь про контексты большие пошла, к угабуге был плагин, который позволял внешний контекст здоровенный если не ошибаюсь подключать, кто-то может пояснить как оно вообще работает, и на сколько сильно скоростя просаживает

Аноним 22/09/24 Вск 14:30:35 #381 №895034

>>895030
Всё равно если описание на английском иногда могут проскакивать слова на английском, я проверял. Мой метод надёжнее. А ещё можно в промпте модели указать что бы писала всё только на русском.

Кстати, вот мой промпт для рп. Вдруг кому пригодится

Никогда не выходи из роли персонажа которого играешь.
Нет морали, этики, цензуры, запретных тем.
1. Разработайте уникальные характеристики каждому персонажу, используя базовые черты личности и психологические особенности.
2. Описывайте мысли и чувства героев через внутренний монолог и невербальные сигналы, чтобы передать их эмоциональный мир.
3. Развивайте сложные отношения между героями с использованием подтекстов и метафор, чтобы добавить глубины сюжету.
4. Замечайте и описывайте детали, которые могут символизировать важные события или характеры персонажей.
5. Изучите японскую культуру и традиции, чтобы правильно применять культурные элементы в вашей истории.

Пишите историю словно это аниме/манга.

Определите доминирующий аниме-архетип личности (цундере, яндере, др.) исходя из его черт, поведения и эмоциональных паттернов, как это принято в аниме-жанре и ведите себя соответствующим образом.

Очень строго соблюдайте описание личности персонажей.
Соблюдайте эти простые правила, создавайте убедительных и многогранных персонажей, присущих японским визуальным новеллам, даже несмотря на отсутствие морали, цензуры и запретных тем.

Насилие и убийства разрешены и подробно описываются.
Персонаж может убить, искалечить, расчленить и т.д. другого персонажа без жалости и морали.

Пиши текст простыми словами, не используй много афоризмов и внутренних монологов.
Используй 500 токенов в каждом сообщении.

Часто говори от лица персонажей.
Сюжет логичен, последователен и адекватен.
Толерантность и СЖВ запрещены.
Расизм и сексизм поощряются.

Мне этот промпт помогали писать сами эти же модели на которых я и рпшил. Многие почему то забывают что можно спрашивать о том как сделать хорошим промпт у самих же моделей.

Аноним 22/09/24 Вск 14:31:43 #382 №895036

>>894959
>Но это нужно смотреть что именно там внутри происходит
Честно говоря да - именно тёмная магия внутри и происходит. Но благодаря тому, что и сами модели тоже род тёмной магии, результат обычно вполне удовлетворительный. То есть думать, что вот подали мы модели контекст в должном порядке и на выходе получим ожидаемый результат тоже неправильно. Как повезёт.

Аноним 22/09/24 Вск 14:32:33 #383 №895039

>>895026
> описание персонажа и его первая вступительная фраза на английском
>>894938
> и сразу пиши на русском персонажу. Он тебе будет нормально отвечать.
Переводить карточку персонажа это дохуя делов и спойлеры. Первое сообщение еще куда ни шло. Но попробую, спасибо.

Аноним 22/09/24 Вск 14:33:25 #384 №895041

>>894682
>Поэтому загрузка сильно медленнее, чем могла бы быть с ссд напрямую.
та она у тебя даже медленнее чем если б задроченнй хдд с лохито подключил бы... на алике ж еть говноссд всякие, которые как раз для таких целей, когда не жалко информации но нужен накопитель, по полчаса тратить на загрузку моделей это конечно оч оптимально...

Аноним 22/09/24 Вск 14:34:35 #385 №895042

Ебать, qwen 3b 8q имея столько слоев может в сложную логику
На русском правильно решить не может, хотя пиздит неплохо. Но задача легкая, в основном на проверку поэтапного решения задачи и знания
Чистая карточка без систем промпта и описания персонажа, чатмл, температура 0.7 минп 0.1

Вопрос
Calculate the chemical reaction between 2 kilogram of oxygen and 1 kilogram of hydrogen.

Ответ

To calculate the chemical reaction between 2 kilograms of oxygen (O₂) and 1 kilogram of hydrogen (H₂), we need to determine the balanced chemical equation for the reaction and then find the stoichiometry.

The reaction between hydrogen and oxygen to form water is:

[ 2H_2 + O_2 \rightarrow 2H_2O ]

First, we need to convert the masses of the reactants to moles. The molar masses are as follows:

Molar mass of H₂: (2 \times 1 = 2 \text{ g/mol})
Molar mass of O₂: (2 \times 16 = 32 \text{ g/mol})
Now, convert the masses to moles:

Moles of H₂: ( \frac{1000 \text{ g}}{2 \text{ g/mol}} = 500 \text{ moles} )
Moles of O₂: ( \frac{2000 \text{ g}}{32 \text{ g/mol}} = 62.5 \text{ moles} )
According to the balanced equation, 2 moles of H₂ react with 1 mole of O₂. Therefore, we need to determine the limiting reactant.

The stoichiometric ratio is:
[ \frac{2 \text{ moles H}_2}{1 \text{ mole O}_2} ]

Using the moles of H₂ and O₂:

If we use all 500 moles of H₂, we would need ( \frac{500}{2} = 250 \text{ moles of O}_2 ), which is less than the 62.5 moles available.
If we use all 62.5 moles of O₂, we would need ( 62.5 \times 2 = 125 \text{ moles of H}_2 ), which is more than the 500 moles available.
Thus, O₂ is the limiting reactant. The reaction will proceed using all of the O₂ and a portion of the H₂.

Since 62.5 moles of O₂ react with 125 moles of H₂:

125 moles of H₂ will react with 62.5 moles of O₂ to form 125 moles of H₂O.
The mass of H₂O produced:

Molar mass of H₂O: (2 + 16 = 18 \text{ g/mol})
Mass of H₂O: (125 \text{ moles} \times 18 \text{ g/mol} = 2250 \text{ g} = 2.25 \text{ kg})
Therefore, the reaction between 2 kg of oxygen and 1 kg of hydrogen will produce 2.25 kg of water.

Аноним 22/09/24 Вск 14:35:14 #386 №895044

>>895039
>Переводить карточку персонажа это дохуя делов
2 минуты максимум. Слышал о таком сайте как deepl?

Аноним 22/09/24 Вск 14:35:53 #387 №895045

>>894682
напомни, мать на 79 чипсете?

Аноним 22/09/24 Вск 14:36:50 #388 №895046

Как в KoboldCPP загрузить сплитнутую модель? Селект бокс позволяет выбрать только одну модель.

Аноним 22/09/24 Вск 14:37:38 #389 №895048

>>895031
Запуск браузера выруби, нахуя он
Раздражает же только открывая новуя вкладку браузера
mmq так же может влиять на скорость, или не влиять, хз

Аноним 22/09/24 Вск 14:40:28 #390 №895050

>>895033
Для рп надо минимум 16к, а лучше 32к. Особенно когда на русском рпшишь, там 300-500 токенов на сообщение. Как там тесловоды выживают вообще не понятно.

Аноним 22/09/24 Вск 14:42:30 #391 №895053

>>895050
Для 16к подходит пока что только мистал немо. Тот же магнум только 8к может адекватно обрабатывать, пытался 16 делать но он уже начинал нести какую то чушь то на английском, то на украинском.

Аноним 22/09/24 Вск 14:43:35 #392 №895054

>>895050
С 8 битным кэшем, какой контекст оптимален для RTX 3060 12GB? Допустим 7-9B модель с 32K поместится?

Аноним 22/09/24 Вск 14:46:14 #393 №895059

>>895023
и что это за несвязная фигня? вместо реального диалога - на привет стена текста вываливается кое-как связанная с контекстом...ты бы лучше показал как оно сложные и запутанные реплики распознает

Аноним 22/09/24 Вск 14:47:25 #394 №895062

>>895054
Хз, у меня кстати почему то контекст всегда в оперативку выгружается. Заметил эту фигню, когда глянул на диспетчер. Даже когда остаётся 2 гига свободной видеопамяти всегда в оперативку выгружается. Может кто знает как это исправить на кобольде?

Аноним 22/09/24 Вск 14:49:59 #395 №895063

>>895046
>Как в KoboldCPP загрузить сплитнутую модель?
Указать первый фейл.
>>895050
Я на 8 остановился, классика же. Вот 4к это да, мало, но как только подвезли четвёрку с 8к, так сразу и зажил нормальной жизнью.

Аноним 22/09/24 Вск 14:50:03 #396 №895065

>>895059
например?

Аноним 22/09/24 Вск 14:52:31 #397 №895067

>>895039
>и спойлеры
серьезно? есть люди которые не понимают инглиша? и всерьез рпшат с рандомными персонажами о которых даже не знают ничего?

Аноним 22/09/24 Вск 14:55:17 #398 №895069

>>895050
>Как там тесловоды выживают вообще не понятно.
Тесловоды-то как раз прекрасно, меньше 16к не ставлю.

Аноним 22/09/24 Вск 15:00:54 #399 №895075

>>895065
хз
"ты стоиш на мостике через пруд, в котором растут раноцветные кувшинки, и наслаждаешся красивым пейзажем. я плавно выезжаю из за поворота на розовом моноколесе, облепленом со всех сторон наклейками с зеленым пикачу, и медленно направляюсь в твою сторону в надежде на знакомство, но тут внезапно из леса выбегает накуренный медведь, отмахивающийся от пчел бензопилой и несется в твою сторону..."
как например такое переварит, и какие моменты утеряет

Аноним 22/09/24 Вск 15:07:39 #400 №895081

>>890904 (OP)
я тут нихуя не понял
есть гайды как это ваши llm развернуть в облаке так, чтоб платить за процессорное время (типа я не пишу ничего, она ничего не отвечает, значит и платить не надо)
куда нажать, скока стоит?

кто так делал или хоть видел гайды? у меня даже нагуглить нормально не получается (я тупой)

Аноним 22/09/24 Вск 15:12:15 #401 №895086

>>895081
>ёблака
Может сразу на апишки корпоратов пойдёшь?

Аноним 22/09/24 Вск 15:24:28 #402 №895101

изображение.png

>>895075
Ты что наделал...

Аноним 22/09/24 Вск 15:28:53 #403 №895110

>>895031
>обнови кобольд до последней версии (сейчас это 1.75.2)
Он у меня просто не работает, лол.

А вообще хз, как кумить в этом нормально. У меня воображение само работает охуенно слишком, еще до действа кончаю, лол.

Аноним 22/09/24 Вск 15:29:01 #404 №895111

>>895101
что?

Аноним 22/09/24 Вск 15:31:10 #405 №895117

>>895111
Как мне её теперь спасти? Ситуация безвыходная.

Аноним 22/09/24 Вск 15:32:14 #406 №895121

>>895081
https://www.runpod.io/pricing какой-нибудь береш, по идее должно быть по принципу запущен сервер копейка считается, остановлен - нет,

Аноним 22/09/24 Вск 15:33:08 #407 №895123

>>895117
бери на руки и увози на моноколесе понятное дело

Аноним 22/09/24 Вск 15:35:38 #408 №895128

>>895041
на матери только один сата разъем. И один pcie-шный для ссд, но такого у меня нет.
Поэтому пока так.
>>894836
покупаешь мать и карты, стягиваешь биос, правишь через AMIBCP и патчишь его, заливаешь назад - профит
смотри это >>894514
>Чем ты охлаждаешь свои 4 теслы аж до 23 градусов?
когда карты стоят без корпуса - конвекция помогает 10+ градусов скинуть. Вытаскивайте карты из корпусов. Про охлад в том же посте выше.
>>895045
она X79-H61. Я не знаю, к чему относится x79. Чипсет там судя по всему H61.
dmidecode берет инфу из биоса, а там этого тоже вроде не прописано, поэтому точно можно сказать только если смотреть маркировку чипа, а мне влом разбирать всё.

Аноним 22/09/24 Вск 15:36:03 #409 №895129

image.png

Кек

Аноним 22/09/24 Вск 15:38:48 #410 №895134

>>895063
> Указать первый фейл
спасибо

Аноним 22/09/24 Вск 15:39:57 #411 №895135

изображение.png

>>895123
Ебать ты умный конечно. Вот что имперсонейт выдал оно само задирает ей юбку сундучок, я нипричём, товарищ майор.
Кстати, мне одному кажется, что оно уже лупится начинает? А ведь 123 миллиарда параметров...

Аноним 22/09/24 Вск 15:42:36 #412 №895136

>>895117
>Кастую ядерное уничтожение, медведя аннигилирует Все, дело сделано, пошли

Аноним 22/09/24 Вск 15:47:48 #413 №895146

>>895135
>домик на дереве...
напоминаю, у медведя бензопила...

>>895136
>вызываю подмогу стелс пихоты, медведь гатовит ачько
(так пожалуй более кумерская тема будет)

Аноним 22/09/24 Вск 15:50:49 #414 №895149

>>895033
Рп же, покумить и 8к хватит. Но если хочешь что-нибудь интересное-увлекательно оформить, или чтобы кум еще был обусловлен сюжетом иначе не вставляет, то 16к - очень нужно и по сути минимум, плюс обмазывание суммарайзами и техниками.
> был плагин, который позволял внешний контекст здоровенный
Это для rag, совсем другое.
>>895036
> благодаря тому, что и сами модели тоже род тёмной магии
Чего? Вполне себе определенная штука, спекуляции про то что там "внутри черный ящик и из-за обилия операций невозможно отследить что происходит" - по другой теме, поведение более чем предсказуемо.
> думать, что вот подали мы модели контекст в должном порядке и на выходе получим ожидаемый результат
Именно так, а чем больше мусора и поломок тем хуже выход. В случае шифтов вообще странные возмущение и шиза, конечно оно будет ломать или давать другой результат. Нарушения от неверного сопоставления контекста можно сравнить с паразитным контекст стирингом, который ты не можешь контролировать. Но вот насколько это существенно, или же в обычных юскейсах скроется за рандомом семплеров - вопрос. Склоняюсь к тому что это треш, но доказательств ни одного, ни другого - нет. И наверняка, при верном использовании, из этого всего можно извлечь какие-то плюсы в других применениях, или оформить так чтобы не было совсем уж уебищно.
>>895069
> Тесловоды-то как раз прекрасно
Обработка контекста очень медленная, нормально только пока есть кэш и зеведомо недоступно ничего, что меняло бы промт где-то в начале.
>>895146
> напоминаю, у медведя бензопила...
В голос, топ

Аноним 22/09/24 Вск 15:51:00 #415 №895150

>>895146
>напоминаю, у медведя бензопила...
Ты про отряд боевых пчёл забыл.
>>895136
>>895146
Ну вот, как всегда, ролеплеить с живым человеком всё ещё лучше, чем с крутейшей моделью, ибо 3,5 токена анона ценнее 500 от негронки.

Аноним 22/09/24 Вск 15:54:39 #416 №895156

>>895146
>напоминаю, у медведя бензопила...
Но это не Штиль, а китайское говно, которое горит после 100 оборотов. Еще и цепь каловая.

>>895150
>Ты про отряд боевых пчёл забыл.
Пила горит, пчелы отъебывают от дыма.

>Ну вот, как всегда, ролеплеить с живым человеком всё ещё лучше
Пока у нейронки не будет структуры мозга человека, так и будет. Нейронки не могут в неожиданные повороты.

Аноним 22/09/24 Вск 15:58:21 #417 №895158

>>895149
>Обработка контекста очень медленная, нормально только пока есть кэш и зеведомо недоступно ничего, что меняло бы промт где-то в начале.
Я тоже согласен, что лучше быть здоровым и богатым. Но пока так.

Аноним 22/09/24 Вск 16:06:12 #418 №895177

>>895081
>>895086
>>895121
https://infermatic.ai/
для уродов вроде меня которые хотят просто расцензуренную сетку попробовать и поиграть в это все немного

Аноним 22/09/24 Вск 16:06:24 #419 №895179

Что нужно подкрутить в кобольде что бы конец сообщения у модели не обрывался на полуслове, незаконченным предложением?

Аноним 22/09/24 Вск 16:07:11 #420 №895181

>>895156
>Пока у нейронки не будет структуры мозга человека, так и будет
База. Эх, мне никто так и не подарил А100 для опытов...

Аноним 22/09/24 Вск 16:07:59 #421 №895183

>>895179
или в Sillytavernе

Аноним 22/09/24 Вск 16:09:59 #422 №895188

image.png

>>895181
На окраинах НН и в его пригородах можно однушку купить неплохую. Или фуловую Ладу Весту. Не, лет через 5 дешевле будет это все удовольствие, может в облаке даже.

Аноним 22/09/24 Вск 16:15:11 #423 №895194

out.mp4

>>894396
>>892325
подключил таверну, проверил как оно выглядит и насколько юзабельно. Для меня вполне. На видео я посреди генерации смотрю температуру на картах - держится примерно 60 градусов, это при кулерах работающих на максимум.
Я сижу прямо под выдувом этой тепловой пушки, зимой можно будет экономить на отоплении....
Сетка Mistral-Large-Instruct-2407-GGUF-Q5_k_M, как просил проверить >>894836
Чёт она мне какой-то Context и Consequences выплевывает - это очевидно особенность сетки. На мангуме такого не было.

Аноним 22/09/24 Вск 16:16:09 #424 №895199

>>895188
>Не, лет через 5 дешевле будет
Схуяли? С текущей гейополитикой не факт, что текущее поколение не будет последним, лол.

Аноним 22/09/24 Вск 16:17:26 #425 №895201

>>895199
>что текущее поколение не будет последним
Людей или нейронок? Или видюх в РФ? Следующая ультрагойда лет через 8 только, не парься. Успеешь накумить.

Аноним 22/09/24 Вск 16:21:11 #426 №895202

>>895201
>Или видюх в РФ?
Видях вообще, во всём мире. По крайней мере на современных техпроцессах. А пердеть на 60 нанометрах ну такое себе.

Аноним 22/09/24 Вск 16:22:33 #427 №895205

image.png

>>895075
magnum-12b v2 12b

Всё таки я немного переборщил с последним редактированием её личности, добавив туда *жестокая, мстительная, злопамятная, вспыльчивая, может ударить если злится."

Аноним 22/09/24 Вск 16:23:38 #428 №895207

>>895202
А что будет? Выпил Тайваня? Не будет, пока не достроят заводы в Аризоне и еще-то где, а после этого США "дадут добро".

Аноним 22/09/24 Вск 16:28:27 #429 №895215

>>895207
>пока не достроят заводы в Аризоне
Всё ещё зависят от ASML и прочей глобализации. А без глобализации 65нм это максимум, а в половине регионов будет вообще 180, а за остатки старой цивилизации будут ещё и бороться.

Аноним 22/09/24 Вск 16:29:56 #430 №895216

>>895215
>ASML
Это Нидерланды, они на нужной стороне, "золотой лярд" без карт не останется точно.

Аноним 22/09/24 Вск 16:33:34 #431 №895219

>>895216
>Это Нидерланды, они на нужной стороне
Они на противоположной стороне Земли если что. Пересечь океан уже не выйдет, USA останется наедине с Канадой и Мексикой.
>"золотой лярд"
В любом случае мы не в их числе.

Аноним 22/09/24 Вск 16:36:00 #432 №895223

>>895219
>Пересечь океан уже не выйдет
Что? Как бы нет проблем в пересечении океана никаких с бородатых времен. А у стран, которые могли бы помешать - тупо не существует флота.

>В любом случае мы не в их числе.
Какие-нить объедки получим.

Аноним 22/09/24 Вск 16:36:38 #433 №895225

image.png

>>895075
Qwen2.5 14b instruct

говно. не советую для рп

Аноним 22/09/24 Вск 16:40:29 #434 №895232

>>895223
>Как бы нет проблем в пересечении океана
Потому что никто серьёзно не пытался мешать. Чел, поверь, мировые перевозки охуенно хрупкая вещь, и полетит первой.
Впрочем всё это политота, увы, думаю, мочух скоро это потрёт. Извините, больше не будем, мы не специально.

Аноним 22/09/24 Вск 16:42:15 #435 №895235

>>895232
>Потому что никто серьёзно не пытался мешать
Потому, что никто и не может это сделать в принципе. Я про атлантику конкретно.

>больше не будем, мы не специально.
Это да. Лучше не надо.

Аноним 22/09/24 Вск 16:56:11 #436 №895241

>>895181
Зачем? Просто растрата же, очевидно что рандомный васян с ограниченными знаниями но ахуительными идеями и аналогиями из других областей не сможет ничего полезного подарить миру. На примитивном уровне это все уже проверяли и приговорили как неэффективное, а для подвинутого уровня не хватит квалификации.
>>895188
Оверпрайс, немного добавить у же о H100 можно задуматься. Но не то чтобы есть смысл покупать когда цены на аренду такие, что хватит на 3 года непрерывной эксплуатации в составе сервера.
>>895194
Какой-нибудь уже наполненный чат чтобы хотябы 8к контекста было можешь запустить и посмотреть какие будут статы?
> какой-то Context и Consequences выплевывает
Тащит с системного промта или где-то формат поломался.

Аноним 22/09/24 Вск 16:57:35 #437 №895242

>>894727
Мне увеличить/уменьлить количество слоёв ещё сильнее?

На какую скорость работы мне следует ориентироваться для рп?

Аноним 22/09/24 Вск 16:58:57 #438 №895244

>>895241
>На примитивном уровне это все уже проверяли и приговорили как неэффективное
КАН тоже приговаривали, лол. Да и трансформеры выстрелили не сразу.

Аноним 22/09/24 Вск 16:59:00 #439 №895245

>>895225
согласись, мой запрос прикольнее для теста чем просто привет, по крайней мере видна реакция на ситуацию вцелом и попытки анализа что происходит... на пчел чет никто внимания не обращает, хотя они едва ли не опаснее медведя...

Аноним 22/09/24 Вск 17:15:34 #440 №895259

>>894682
> Альсо, я был неправ, думая, что pcie не роляют. Роляют блять.
Серго для ВП.mp4
Но вообще, должен был промпт вырасти, а не генерация, какой-то странный прикол. А промпт умер, наоборот.

>>894737
> Какое значение ты считаешь нормальным?
Ну, для обработки промпта, норма для проца это 80 токенов, норма для тесл п40 — 80-120, для соло теслы 120-160.
Для 4090 — 4000. =)
13 токенов это прям…
Прикинь контекст на 20к решит перечитать. Хоба и жди 20 минут до первого токена. =)
Ясное дело, что до такого может вообще не дойти. Будем надеяться.

>>894741
300 сотни на двух и более теслах — это я не уверен, что вообще достижимо.

>>894934
В русский лучший, но вот с рп… цензура, учти.

>>894948
Там даже 3b почти как все эти 8б-9б модельки. Проскакивает маленькость, но она старается.

>>895033
Вообще, я — да, например. И такое бывает.

>>895050
MMQ увеличивает скорость.
А еще с контекстшифта на флешаттеншн… но тут всем контекстшифт нравится, а фа не нравится… молчу-молчу.

>>895063
Ну, классика 32к, строго говоря… 8к это годовалой давности мистраль, наверное. =)

>>895149
> Обработка контекста очень медленная, нормально только пока есть кэш и зеведомо недоступно ничего, что меняло бы промт где-то в начале.
Ето так.
Так что, грузишь 32к, рпшишь до талого, вырубаешь. =D

>>895150
> ролеплеить с живым человеком всё ещё лучше, чем с крутейшей моделью
Ты девочка, да?

>>895219
> В любом случае мы не в их числе.
Э. Чой-то? Ну, сочувствую, если так.

———

Начинают выходить аблитерированные и расцензуренные квены.
https://www.reddit.com/r/LocalLLaMA/comments/1fmn0q4/found_an_uncensored_qwen25_32b/
Там еще ссылки.

Не проверял, просто сообщаю.
Сомнительно, но вдруг.

Аноним 22/09/24 Вск 17:18:39 #441 №895263

>>895259
>Хоба и жди 20 минут до первого токена. =)
да, это хуйня. Такое есть. Но с этим ничего не сделать в случае 4-тесловой конфигурации.
А с чем ты сравниваешь? На каком конфиге сам гоняешь?
Чёт у тебя пиздец требования охуевшие. У тебя 4 штуки 4090? Или ты арендуешь?

Аноним 22/09/24 Вск 17:21:41 #442 №895266

>>895259
>Ты девочка, да?
Меня раскрыли.

Аноним 22/09/24 Вск 17:23:07 #443 №895269

>>894959
>Ему каждый раз отправляют полный контекст, все он знает.
Нихуя он не знает. Он сравнивает простыню, чтобы найти изменения. А как ты их получил - ему неизвестно.
Так вот, бэк сравнивает простыню токен за токеном. И тут на сцену выходит кривой токенизатор лламы 3. Одна и та же строка может токенизироваться по-разному в двух последовательных ранах.

Аноним 22/09/24 Вск 17:25:56 #444 №895272

>>895269
>Одна и та же строка может токенизироваться по-разному в двух последовательных ранах.
Схуяле? Максимум, что может произойти, это то, что модель высрет одни токены, а при токенизации посчитает иначе. И это однократная ситуация.

Аноним 22/09/24 Вск 17:27:55 #445 №895275

>>895272
>И это однократная ситуация.
Ты с каждым сабмитом отправляешь простыню. Простыня токенизируется. Токенизация не постоянная. У того же убы были с этим проблемы, лол. Кобольдом не пользовался вообще, хуй знает, как там.

Аноним 22/09/24 Вск 17:29:33 #446 №895278

>>895259
> увеличивает скорость
150 т/с на промпте надо в 20 раз увеличивать, а не на 20%.

Аноним 22/09/24 Вск 17:30:46 #447 №895280

>>895275
>Токенизация не постоянная.
Ещё раз- схуяли? Она вполне себе детерминирована.
>У того же убы были с этим проблемы, лол
Я помню проблемы с токенизацией третьей лламы, и они носили совсем иной характер.

Аноним 22/09/24 Вск 17:34:37 #448 №895284

Попробовал энтот ваш Магнум 12В все таки. В принципе норм. Особенно понравилось то, что он сохраняет стиль сообщений. Единственное что: часто въебывает повествование за меня в сообщениях бота.

Вот бы еще модельку уровня Краке от Новел АИ, чтобы говно сурьезное писать с сюжетом.

Аноним 22/09/24 Вск 17:37:17 #449 №895294

>>895275
>Кобольдом не пользовался вообще, хуй знает, как там.
Тоже есть. Разрабы как-то фиксят, но с некоторыми моделями может и не повезти.

Аноним 22/09/24 Вск 17:37:30 #450 №895295

ll.png

>>895280
Ох, наебал. Это ещё со второй лламы началось. Нет, токенизация не детерминированная.
>Я помню проблемы с токенизацией третьей лламы
Я итт пояснял за проблемы с регекспом.

Аноним 22/09/24 Вск 17:38:41 #451 №895299

>>895284
>Единственное что: часто въебывает повествование за меня в сообщениях бота.
Бывает и в 123В. Не беда: или оно мне нравится, или затираю. Вообще не вижу в этом большой проблемы.

Аноним 22/09/24 Вск 17:39:52 #452 №895302

изображение.png

>>895295
Он повторяет то, что я написал >>895272
>модель высрет одни токены, а при токенизации посчитает иначе
И всё.

Аноним 22/09/24 Вск 17:42:32 #453 №895305

>>895259
>MMQ увеличивает скорость.
Только скорость обработки контекста. Rowsplit её наоборот замедляет, ну в сумме как-то справляются. Кстати с ровстплитом вроде есть такой прикол, что число карт ему нужно кратное двум.
>А еще с контекстшифта на флешаттеншн… но тут всем контекстшифт нравится, а фа не нравится… молчу-молчу.
Контекст шифт с ФА в лламе вполне совместимы. К счастью.

Аноним 22/09/24 Вск 17:42:34 #454 №895306

>>895299
Да я тоже затираю. Но это как-то часто, раз в 5 сообщений примерно. Может я что-то не так делаю с форматом? Пишу вот так:
>условно действие условно фраза

Аноним 22/09/24 Вск 17:48:21 #455 №895316

>>895302
Блядь. И теперь смотри у тебя есть две последовательности. Одну ты сохранил у себя. Вторая пришла извне. Ты их сравниваешь. Они одинаковые на самом деле. Но они не сходятся. Начинает доходить?

Аноним 22/09/24 Вск 17:50:38 #456 №895318

>>895316
>Но они не сходятся.
И идёт пересчёт. Один раз. Далее в модель приходит текст, который токенизируется всегда во вторую последовательность. Вот и всё.

Аноним 22/09/24 Вск 17:59:27 #457 №895327

>>895318
>Далее в модель приходит текст, который токенизируется всегда во вторую последовательность. Вот и всё.
А потом, через неопределённое количество последовательностей, в каком-то месте попадается такой неправильный токен и "всё" начинается снова. Вместо контекст шифта.

Аноним 22/09/24 Вск 18:02:13 #458 №895330

>>894681
Tiger-Gemma-9B-v1a-Q5_K_M вполне влезает, но тупорылый просто пиздец, зато скорость печати у него дикая. Я бы в раза два с половиной или больше уменьшил её ради мозговитости.

Попробовал сейчас ещё Big-Tiger-Gemma-27B-v1c-Q4_K_M, но там слоупочность адская. Не понимаю, как найти баланс.

Аноним 22/09/24 Вск 18:05:45 #459 №895332

>>895327
>в каком-то месте попадается такой неправильный токен
Да ёб твою мать. Все расхождения там только от этапа генерации vs просчёта. Максимум пересчитывается последнее сообщение нейронки. Всё, я закончил, если ты этого не можешь понять, то ты даун с ICQ улитки.

Аноним 22/09/24 Вск 18:19:06 #460 №895343

>>895327
Это в "идеальном" мире, лол. Накинь сюда ещё багов и начинается лютый пиздец.

Аноним 22/09/24 Вск 18:19:25 #461 №895344

>>895295
> Нет, токенизация не детерминированная.
Причём тут детерминированность. Если ты ещё раз тот выхлоп прогонишь - он не изменится. Просто один большой токен можно записать несколькими мелкими и модель иногда выплёвывает как раз мелкие, но токенизатор при энкодинге всегда выберет большой. Так литералли любой токенизатор работает.

Аноним 22/09/24 Вск 18:24:00 #462 №895355

Аноны, были ли новые 70b рп модели? А то от старых уровень кума уже падает.

Аноним 22/09/24 Вск 18:26:21 #463 №895357

>>895355
Сценарий новый попробуй.

Аноним 22/09/24 Вск 18:27:30 #464 №895358

>>895357
а какой, если все передрочено?

Аноним 22/09/24 Вск 18:28:17 #465 №895359

>>895358
Попробуй от лица женщины или раба.

Аноним 22/09/24 Вск 18:29:04 #466 №895361

>>895359
почти ванилу советуешь...
что-нибудь ещё?

Аноним 22/09/24 Вск 18:29:25 #467 №895362

>>895355
>Аноны, были ли новые 70b рп модели? А то от старых уровень кума уже падает.
Ждём новый Qwen72B на Магнуме, хотя я сомневаюсь, что результат сможет переплюнуть Мистраль Ларж.

Аноним 22/09/24 Вск 18:29:43 #468 №895363

>>895361
К... Канечку...

Аноним 22/09/24 Вск 18:31:20 #469 №895364

>>895361
Тогда пестошь

А вообще тут нейронка новая не поможет тебе, если перекумил.

Аноним 22/09/24 Вск 18:31:32 #470 №895365

>>895362
Даже ванильный квен2.5 72В уже ебёт Лардж. Лардж уже нахуй не нужен, особенно в русском.

Аноним 22/09/24 Вск 18:32:04 #471 №895368

>>895241
>Какой-нибудь уже наполненный чат чтобы хотябы 8к контекста было можешь запустить и посмотреть какие будут статы?
на 7к контекста 2.5 т/с
Вероятно, с меньшими сетками должно быть получше.

Аноним 22/09/24 Вск 18:33:09 #472 №895369

>>895361
>что-нибудь ещё?
Сейчас как раз народ зол на Хомяка, типа мало дали. Ну попробуй сыграть за такого хомяка. Типа ты убегаешь, а вокруг одни школьники-"криптоинвесторы". И каждый норовит тебя трахнуть...

Достаточно хардкорно?

Аноним 22/09/24 Вск 18:38:14 #473 №895379

>>895364
>пестошь
хмммм. не знал о такой штуке.
Возможно имеет потенциал для кума.
>>895369
и чем это отличается от ванильного изнасилования?

Аноним 22/09/24 Вск 18:41:49 #474 №895388

>>895379
Вообще сделай перерыв от кума. Ебани произведение какое-нить, уровня Стругацких. В принципе текст того же Обитаемого острова нейронка высрать сможет. Раз уж 70В запускаешь.

Аноним 22/09/24 Вск 18:41:50 #475 №895389

>>895379
>и чем это отличается от ванильного изнасилования?
Ванильного изнасилования хомяка?

Аноним 22/09/24 Вск 18:43:14 #476 №895392

>>895365
>Даже ванильный квен2.5 72В уже ебёт Лардж.
Разве что в объёме сои. Он у меня чуть ли не на саму карточку триггерится, и выдаёт кило нравоучений на любое действие.
>>895369
>народ зол на Хомяка, типа мало дали
Больше тапать надо было какие же люди ебланы, просто пиздец.

Аноним 22/09/24 Вск 18:45:11 #477 №895397

>>895330
наверное лучшее что сейчас можно засунуть
https://huggingface.co/bartowski/Qwen2.5-14B_Uncencored_Instruct-GGUF

Аноним 22/09/24 Вск 18:48:21 #478 №895402

>>895392
> Разве что в объёме сои.
Уже сто раз написали как избавится от неё. Её ни сколько не больше чем в лардже. Квен не лупится и инструкции выполняет на голову лучше мистраля.

Аноним 22/09/24 Вск 18:48:52 #479 №895403

>>895242
> Мне увеличить/уменьлить количество слоёв ещё сильнее?
Что за железо, 3060 та?
Для начала воспользуйся мониторингом расхода врам отличным от диспетчера задач, из самых простых - gpu-z. Целься по слоям так, чтобы оставались незанятыми 200-500мб, учитывай что при накоплении контекста расход будет расти. Максимум скорости будет с максимумом слоев до начала выгрузки врам в рам.
>>895244
Ну типа в этих случаях авторы явно знали что делали и экспериментировали не просто орочьими технологиями а более точно, или же короме пруф-оф-концепт пока ничего не достигнуто.
>>895259
> рпшишь до талого, вырубаешь. =D
В коде таверны порыться или тех же скриптах. Там можно маппить посты как неактивные, соответственно заполнил контекст - суммарайзнул заблаговременно часть - отключил часть постов и снова имеешь приличный запас на накопление кэша. Или по наработкам с чай-треда сразу же после ответа суммарайзить сами посты, расход контекста меньше, лупов нет как явления, сетке проще работать, но могут пропадать мелкие детали и теряться эффект погружения.
Если идет рандом в глубине и мультизапросы то оно само по себе будет преестраивать, так что придется всеравно ждать, увы. Даже на экслламе это на грани разумного, нужно какое-то прорывное решение без ужасной расплаты. Вон у корпоратов даже на большие объемы у крупных сеток ожидание раза в 2-3 меньше, а пизденыши типа чмони на 90к уже через несколько секунд начинают стриминг, если там только текст без пикч.
>>895269
> Так вот, бэк сравнивает простыню токен за токеном.
Именно, и начиная с нестыковки начинает обрабатывать.
> Одна и та же строка может токенизироваться по-разному в двух последовательных ранах
Если код не макаронный то это учитывается. Собственно потому год назад на процессоре было вообще неюзабельно, а сейчас пока ты в кэше - можно как-то терпеть и он не сбивается каждый пост, даже в жоре.

Аноним 22/09/24 Вск 18:48:57 #480 №895404

>>895402
>Уже сто раз написали как избавится от неё.
Да хоть 1000. Не помогает.

Аноним 22/09/24 Вск 18:49:35 #481 №895407

А нахуй они цензуру пихают?

Аноним 22/09/24 Вск 18:51:23 #482 №895408

>>895404
Только тебе почему-то. Значит что-то не то пердолишь.

Аноним 22/09/24 Вск 18:52:06 #483 №895409

>>895407
А как продавать?

Аноним 22/09/24 Вск 18:53:25 #484 №895412

>>895409
Так же. Внутри-то есть данные для кума.

Аноним 22/09/24 Вск 18:54:12 #485 №895413

>>895408
Остальные запускают 1,5B просто. А я ниже 70 уже давно ничего не кушаю.
Ну или запросы у людей ванильные.

Аноним 22/09/24 Вск 18:54:29 #486 №895414

>>895412
В майкрософт фи нету.

Аноним 22/09/24 Вск 18:55:14 #487 №895416

>>895412
Никто не хочет, чтобы онлайн-ассистент предложил клиенту за щеку вместо помощи.

Аноним 22/09/24 Вск 18:57:06 #488 №895418

>>895416
Так... а если это то, что нужно клиенту? А зачем их бесплатно тогда выпускают в народ? Блочили бы спецом для клиентов. Или не обучали бы.

Аноним 22/09/24 Вск 18:58:11 #489 №895422

>>895418
> а если это то, что нужно клиенту?
Плоти тогда, клиент.

Аноним 22/09/24 Вск 19:01:39 #490 №895429

>>895332
Там, вероятно, тейк про то что один и тот же текст можно токенизировать огромным количеством вариантов, и по дефолту вызов токенизатора выберет самый оптимальный, тогда как модель из-за семплинга или просто сама по себе использовать другой вариант. Но это учтено в лаунчерах и, обычно, сравнение проводится как раз в текстовом виде посимвольно, а не в токенах, так что ты прав и пересчет идет только для не совпадающих частей.
>>895368
О курва. Ну пофиг, надо пинать жору чтобы чинил.

Аноним 22/09/24 Вск 19:02:17 #491 №895430

>>895422
Так я плотил, лол. В Новел АИ. Хотел еще в АИ Данжен, но когда я вернулся из армии, он скурвился, а до армии денег не было.

Аноним 22/09/24 Вск 20:05:04 #492 №895505

>>895430
>Так я плотил
Ебать ты олень. Может ещё и за девушку в ресторане платишь?

Аноним 22/09/24 Вск 21:21:57 #493 №895581

Есть какие-то адекватные варианты для общения с локалкой не телефоне?

Просто посмотрел документацию для таверны, термукса и охуел от того, что там уже никакая поддержка не ведётся и отвал жопы может быть.

Кто-нибудь из вас имеет опыт использования именно телефона? Ведь в этом же самая суть, чтобы в любой момент написать можно было.

Аноним 22/09/24 Вск 21:28:13 #494 №895594

>>895581
ты чё, совсем хлебушек? Напиши своего бота для тг. Нейросеть тебе в помощь.
Я написал, да лень держать теслы 24/7 включенными - орут же.

Аноним 22/09/24 Вск 21:31:57 #495 №895598

Как включить на хермесе префилл в ор? Помогите... Очень надо
В идеале мне нужно просто сделать так как это у антропиков работает, но если нельзя то в формате единого текста полотна с разделителями

Аноним 22/09/24 Вск 21:44:30 #496 №895615

изображение.png

>>895581
>никакая поддержка не ведётся и отвал жопы может быть
Дожили. Не коммитили в проект 3 месяца, и всё, брошено.
>>895598
>префилл в ор
Что такое ор? А так вот настройка в инструкте, пиши туда свои мокрописи.

Аноним 22/09/24 Вск 21:46:20 #497 №895619

>>895615
Никогда не юзал инструкт. Какие настройки там нужно ставить Гермесу? Какой у него вообще основной форматтинг? Ллама 3.1?
>Ор
Опенроутер же. Или где-то ещё есть Гермес?

Аноним 22/09/24 Вск 21:49:55 #498 №895623

>>895619
>Гермесу
Смотри на странице модели.
>Опенроутер же
А, мимо, что и как работает в этом говне, я не знаю. Тред для локалкобояр если что.

Аноним 22/09/24 Вск 21:57:28 #499 №895629

>>895581
https://github.com/Vali-98/ChatterUI
Как локально, так и по сети (убабуга, кобольд).

>>895263
Не, ну, я просто констатирую, как можно в идеале.
Сам-то я на теслах. =)

>>895269
> Одна и та же строка может токенизироваться по-разному в двух последовательных ранах.
Хрюкнув со смиху. Серьезно?

>>895299
> оно мне нравится
Так начиналась матрица.

>>895305
> Rowsplit её наоборот замедляет
Смотря где, на теслах на 40% ускоряет.
А вот насчет 2 карт не знал, нечетного у меня не было.

> Контекст шифт с ФА в лламе вполне совместимы. К счастью.
Вроде, в кобольде написано, или то, или это.
Но вообще хз, может и работает, тогда отлично. =)

>>895407
Законы государств. Буквально.

>>895416
Ор.