Локальные языковые модели (LLM): LLaMA, Mistral, Gemma и прочие №95 /llama/

Аноним 11/12/24 Срд 11:25:59 #1 №974181

Llama 1.png

Альфа от контекста.png

KL-divergence statistics for Mistral-7B.jpg

2x3090.png

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичка с уклоном в русский РП: https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.xyz/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>967903 (OP)
>>961667 (OP)

Аноним 11/12/24 Срд 11:28:35 #2 №974185

Добавил в шапку ссылку на архивач и на местного миксодела-автора SAINEMO-reMIX (созидательную активность людей надо поощрять). У миксодела в закреплённых коллекциях всегда актуальный микс, чтобы шапку не обновлять.

Аноним 11/12/24 Срд 11:39:28 #3 №974208

>>974181 (OP)
Какие VL модели без особой цензуры для описания сексуализированных картинок до 12B (или около того) посоветуете? Чтобы ещё поддерживалось в llama.cpp.
https://github.com/OpenGVLab/InternVL и Qwen2-VL похоже топ, но пока нет поддержки. Что насчёт https://huggingface.co/cognitivecomputations/dolphin-vision-7b ?

Аноним 11/12/24 Срд 12:11:17 #4 №974245

>>974181 (OP)
>Миксы от тредовичка с уклоном в русский РП
ОП молодец, тред кошерный

Аноним 11/12/24 Срд 12:29:19 #5 №974263

Шалом анончесы. Есть кто-нибудь, кто пользуется арендой гпу? Как оно? Где арендовать? На своих 8гб заебался, апгрейдиться возможности пока нет.
Такой же вопрос к сервисам типа опенроутера. Есть такие, которые у нас работают без ебли с оплатой?

Аноним 11/12/24 Срд 12:47:56 #6 №974275

>>972953 →
Если ты считаешь общую память — то считай, что будешь сидеть без скорости, медленно, в режиме переписки ВК.
А если хочешь быстрее, то считай только видеопамять.

Все. =)

>>973180 →
Шо за шиза, братишка. =) Просто не знаешь жизни за МКАДом. Но оффенс.

>>972900 →
Бля, я в начале хотел покекать, мол, чел на ЖЖ пишет, ебанути что ли? А там реально полный шиз же.

>Удивить не получится. По скорости эти 72 потока на Xeon'ах практически равны приличному Core i7 с 12 потоками.
>И скорость больше определяется видеокартой.
>На GeForce 1080 скорость где-то в 2.5 раза ниже, чем на 3080. И от объема видеопамяти много зависит.
>В идеале нужна 3090 с 24ГБ памяти. Лучше две. Но этот блок питания две точно не потянет. Надеюсь, что хоть одну вытащит.

Он всерьез модели в 256 гигов грузит и так «да-а-а, 72 ядра не тянут… нужна 3080 видяха для скорости!..»
А то что у него остаток (че там, Мистраль лардж, 100 гигов?) так и так лежат на оперативе — похую.
И вообще, у него большой объем ОЗУ для обучения.
Короче, взрыв мозга.
ЖЖ в своем репертуаре.
Приятного катать ему лламу-405б на оперативе в четырехканале 2400. Там же огромные 70 мб, небось.

>>973261 →
Тебе скажут, что заебись, а я просто напомню, что в реальности, у тебя контекст гоняется по шине между картами, и если у тебя не PCIe x8 все слоты (причем эти х8 поддерживаются не только материнкой, но и процом!!!), то скорость обработки контекста умреть.
А для других нейронок иногда даже разбить модели толком может не получится, и твои 96 не всегда 96, иногда 16.

Но попробуй, расскажешь, как дела.

>>973364 →
Смотря с чем сравнивать. Если ты возьмешь модель на 28 гигов (с учетом контекста) и выгрузишь либо на две видяхи, либо на 4060 ти + оперативу, то в твоем случае с двумя видяхами получишь скорость заметно выше, и это хорошая идея.

>>973385 →
Квантование, которому уже полтора года?
Ну ты еще про тернарные биты и битнет нам новость принеси.

>>973409 →
1. Дипсик Кодер Лайт может дать норм скорость, можешь попробовать.
А может и не дать, лул.

Но хуже квена 32, конечно.

>>973427 →
Кстати, заметил, что несмотря на то, что виртуосо это апгрейд суперновы, она иногда странно отвечает, а у суперновы с ответами на эти же вопросы лучше.

>>973669 →
Память и там, и там занята?
no-mmap поставь, mlock убери, слои подбери ручками, контекст уменьши, поиграйся с настройками.

>>974208
Вихрь-ВЛ на базе квена что-то мог. Но другому тестеру не понравилось.
Мольмо могет, но не в русский если до 12б, а в русский — 72б.

Аноним 11/12/24 Срд 13:09:32 #7 №974300

>>974208
>Какие VL модели без особой цензуры
Кстати pixtral ведь поддерживается экслламой? Может у него есть аблитерированная версия?

Аноним 11/12/24 Срд 13:15:28 #8 №974305

>>974275
>Просто не знаешь жизни за МКАДом. Но оффенс.
4000 км от Москвы. 4 теслы, 2 3090 (докупаю помаленьку). Кто в нейронки сразу поверил, тот клювом не щёлкает.

Аноним 11/12/24 Срд 13:43:19 #9 №974318

>>974101 →
Ти лучше, конечно, нет проблем с охлаждением памяти на жопе.
>>974125 →
Хватит, на ггуфы лучше не смотри даже, только exl2.
>>974147 →
> 1. Файнтьюны ВСЕГДА отупляют базовую модель
Потому что то не полноценные файнтюны с хорошими датасетами, а всратолоры на слопе дампов прокси. Ну и есть еще нюансы с особенностями тренировки, но это долго расписывать.
> 2.
Все так
>>974208
> для описания сексуализированных картинок
Если анимублядских то ToriiGate-v0.3, лучше ничего не выходило. Есть еще жойкапшн-2, но у него уж оче много галюнов и не видит мелочи.
Из стоковых опенсорсных сеток нормально могут почти никто, molmo не пугается nsfw, но ориентируется плохо. Из корпоратов жемини внезапно хороша, но без жонглирования промтами и помощи ошибается как и все.

Аноним 11/12/24 Срд 15:01:33 #10 №974367

6147641.png

>>974318
> 1. Файнтьюны ВСЕГДА отупляют базовую модель
напоминаю базу треда:
1. Мержи ведут модель к рандомной трудно прогнозируемой шизе. Но в одной целевой теме могут дать нефиговое преимущество.
Так как РП комплексная задача требующая от нейросети высокой абстракции и комплексности, то рп-мержи мёртворождённые по дефолту.
2. Дообучение на синтетических данных хороший вариант, стабильненько, но модель глупеет по сравнению с базовой версией.
3. дообучение на вручную выбранных и сгенерированных людьми данных: базовая база, так сказать, мета объективный идеал.

Аноним 11/12/24 Срд 15:09:57 #11 №974369

>>974305
Ну, я-то тоже сразу поверил, но поосторожничал с теслами.
И сейчас осторожничаю с 3090.
Добавь сюда смелость. =)

Получается, хоро́ш!

Аноним 11/12/24 Срд 15:22:56 #12 №974374

0000.png

Эти пидорасы на файнтюнах вообще датасеты не фильтруют нихуя. Скоро модели начнут посреди РП срать хтмлом.

Аноним 11/12/24 Срд 15:27:18 #13 №974375

>>974369
>поосторожничал с теслами.
При той цене, которую они стоили в начале года (да до мая практически) там и риска-то особого не было. Я ещё и P100 одну взял, для опытов :)

Аноним 11/12/24 Срд 16:25:52 #14 №974433

>>974318
>ToriiGate-v0.3

Можешь рассказать где такие модели можно применять и для чего?Ну типа для РП не подойдёт, а ждя чего тогда?

Аноним 11/12/24 Срд 16:49:46 #15 №974440

>>974433
>Можешь рассказать где такие модели можно применять и для чего?
Больше интересует, чем их запускать.

Аноним 11/12/24 Срд 16:51:34 #16 №974441

>>974433
Лоботомит, способный только на описание пикч по указанным шаблонам для подготовки датасетов из пар картинка-описание или некоторой классификации изображений. Больше ни на что не годен, но что умеет - делает хорошо.
>>974440
Тренсформерс, можно в 4битах бнб. Есть интерфейсы для батчей или самому написать.

Аноним 11/12/24 Срд 16:57:12 #17 №974443

>>974367
Может по факту оно и так, но на дефолт моделях сразу видно что они сухо пишут, да ещё и с соей и цензурой, так что выбора особо нет

Аноним 11/12/24 Срд 17:11:28 #18 №974454

image.png

Илья померял Сайнемо по просьбам трудящихся.
Достойно.

Аноним 11/12/24 Срд 17:31:46 #19 №974469

>>974441
>Тренсформерс, можно в 4битах бнб. Есть интерфейсы для батчей или самому написать.
Запускаю свежую Угабугу, выбираю Трансформерс лоадер, жму лоад - пишет, что не знает типа этой модели. Не хочет.

Аноним 11/12/24 Срд 17:40:50 #20 №974473

>>974454
Я мимокрокодил - можно для тупых - что это за рейтинг и почему 12b модель так близко к Соннету 3,5?

Аноним 11/12/24 Срд 17:51:07 #21 №974487

>>974473
https://ilyagusev.github.io/ping_pong_bench/ru_v2

Бенч для ролеплея.
Оценивается клодом и гпт, насколько помню.
Основные оценки видишь.
Ну воть и все, ничего особого, но инфа более-менее интересная.

Аноним 11/12/24 Срд 17:54:53 #22 №974495

>>971683 →
яж сказал что третий пик буит в шапке хехе бля

Аноним 11/12/24 Срд 18:05:22 #23 №974517

>>974487
> https://ilyagusev.github.io/ping_pong_bench/ru_v2
> соевая клауда как судья
> нет промпта
Какой-то пиздец.

Аноним 11/12/24 Срд 18:08:05 #24 №974524

>>974487
> Оценивается клодом и гпт
Жпт-мини за юзера, клод как судья. Ну и там Немо выше Ларджа, лол. Я бы не стал это недоразумение серьёзно воспринимать.

Аноним 11/12/24 Срд 18:48:27 #25 №974624

223728.jpg

>>974367
ИМХО мегамиксы, супермержи из овер 9000 моделей сильнее рассыпаются от квантования.
Лично проверил как шизомерж от сао10к перестал адекватно работать 70b даже на 4км, но мог что-то исполнить на q8.

Как же я давно не лапал ллм-ки. Мимо олд треда.

Аноним 11/12/24 Срд 19:14:41 #26 №974671

>>974517
Там олег еще вылез со своим добром меряться:
https://habr.com/ru/companies/tbank/articles/865582/

Кочаем и мержим? нет

>>974469
Качай батчер будет сразу с ллавой и жойкапшном вдобавок для них или пиши сам по примеру на странице торий

Аноним 11/12/24 Срд 19:32:05 #27 №974690

>>974624
пикрил пздц это чё бля черенковское излучение или щто)

Аноним 11/12/24 Срд 19:36:32 #28 №974695

Screenshot20241211193433.jpeg

>>974487
их де ее брать

Аноним 11/12/24 Срд 19:40:45 #29 №974701

1675245410looped1675245409.mp4

>>974624
>Мимо олд треда.

расскажи чё нить олд трэда, если ты давно не щупал ллмки то что щас щупаеш?!

Аноним 11/12/24 Срд 19:42:54 #30 №974705

>>974454
кароч качаю в восьмом кванте если окажется хуйня тоби пизда тоя растроюсь

Аноним 11/12/24 Срд 19:45:47 #31 №974712

>>974695
https://huggingface.co/Moraliane/SAINEMO-reMIX

>>974705
Это не я, я даже не запускал. Я чисто его потыкал по просьбам фанатов выше. =)

Аноним 11/12/24 Срд 19:47:32 #32 №974715

Screenshot20241211194521.jpeg

>>974712
>https://huggingface.co/Moraliane/SAINEMO-reMIX

ай мляяя

нашёл гуфы уже норм всё)

thanks anyway

Аноним 11/12/24 Срд 19:48:08 #33 №974718

>>974701
Скачал лламу 3.3.
Как там с технологическим прорывам кста?

Аноним 11/12/24 Срд 19:51:06 #34 №974720

Screenshot20241211194934.jpeg

>>974718
ну хз я щупал ети ламы правда маленькие они loopятся быстро шизят хз чё в их хорошего

>Как там с технологическим прорывам кста?

я хз какие прорывы пикрильные?

Аноним 11/12/24 Срд 20:51:48 #35 №974807

> https://huggingface.co/t-tech/T-pro-it-1.0
Погонял этот кал, соя невыносимая. Даже на хохлов триггерится и просит уважения к ним, лол. На политоту хуже чем Афина отвечает, в мат плохо умеет, часто выдаёт бредовые словосочетания. Русский такой себе, хуже обычного 72В квена, хотя и может иногда неплохо в стиле русских писателей задвигать красиво. Этим долбаёбам надо запретить жечь электричество впустую, только углеродный след оставляют.

Аноним 11/12/24 Срд 21:13:23 #36 №974833

>>974181 (OP)
https://4pda.to/2024/12/10/436125/sotrudnik_yandeksa_sozdal_servis_dlya_zapuska_nejroseti_dazhe_na_smartfone/

Сотрудник «Яндекса» создал сервис для запуска нейросети даже на смартфоне

Когда пользователь открывает платформу, на его устройство из облака можно загрузить модель Llama3.1-8B. Её размер уменьшен в 6 раз — она «весит» всего 2,5 ГБ

Исходный код проекта исследователь опубликовал в свободном доступе на GitHub, а протестировать модель можно по этой ссылке:

https://galqiwi.github.io/aqlm-rs/

Аноним 11/12/24 Срд 21:16:34 #37 №974840

>>974469
Нет. Там ниже написаны скрипты-примеры, за счет хорошо прописанной библиотеки взаимодействие довольно простое. В аниметреде один анончик делал тулзу для моделей-капшнеров, поищи ее.
В убабуге, лламацпп, кобольде и прочих не заведется.
>>974473
Тому что: современный уровень моделей высок и с простыми вещами справляются даже мелкие; бенчмарк оче грубый и оценивает специфичные вещи, которые могут вовсе не отражать качество ролплея. Плюс ко всему промт инжениринг.
>>974624
> Мимо олд треда.
я тебя ебу

Аноним 11/12/24 Срд 21:26:09 #38 №974858

>>974840
>я тебя ебу
блушес Не тот тред...

Аноним 11/12/24 Срд 21:32:57 #39 №974865

>>974858
Пожалуй тест пройден. Да с миксами там что угодно может быть, можно попробовать упороться и посмотреть на распределения значений в разных слоях и посчитать по какому-нибудь из критериев среднюю ошибку при дефолтном квантовании. Если дело действительно в их пахомовских распределениях из-за смешивания несочетаемого, то могут помочь адаптивные кванты.

Аноним 11/12/24 Срд 21:49:58 #40 №974897

>>974840
>я тебя ебу
>>974858
>блушес

яне давно тока вкатился, сейчас самый крайний тред ето девятый https://2ch.hk/ai/arch/2023-09-13/res/302097.html#302097 старее уже потёрли, я знайю что ето лолкальный мем лолкальные ЯМ каламбур и в каком бл конкретн треде он родился етот мем?! я чё должон весь перелолпатить прост хотел сохронить для истории

Аноним 11/12/24 Срд 22:05:52 #41 №974917

>>974897
Безграмотная мелкобуква, иди нахуй.
Давно хотел это сказать
Мимо старожил со времён ноябрьского чая

Аноним 11/12/24 Срд 22:05:54 #42 №974918

>>974367
>Так как РП комплексная задача требующая от нейросети высокой абстракции и комплексности, то рп-мержи мёртворождённые по дефолту.
Хуйни намешал какой-то, лишь бы знаниями терминов выебнуться. Для 99% кумеров в рп самое важное это описание проникновения члена во влагалище и чтобы трусы по сорок раз не снимались. Это уже у нас начинается абстракция, или еще нет?
>Дообучение на синтетических данных хороший вариант, стабильненько, но модель глупеет по сравнению с базовой версией.
Тащи тесты.
>дообучение на вручную выбранных и сгенерированных людьми данных: базовая база, так сказать, мета объективный идеал.
Ну то есть синтетика у нас отупляет, а юзер дата нет. Так и запишем. Ну а то что синтетика стала синтетикой после тренировки на "органических" данных - это мы опустим.

Аноним 11/12/24 Срд 22:10:29 #43 №974926

>>974918
>Ну то есть синтетика у нас отупляет, а юзер дата нет.
Уже научные данные об отуплении моделей при обучении на нейровысерах есть, а ты всё против?

Аноним 11/12/24 Срд 22:15:14 #44 №974930

>>974926
Отупляет не синтетика, а однотипные и нефильтрованные данные в датасетах. Или ты думаешь, текст написанный рукой человека какой-то особенный сам по себе и от него деградации не происходит?

Аноним 11/12/24 Срд 22:34:57 #45 №974953

Господа, я люблю локальный нейрокум.

Господа, я люблю локальный нейрокум...

Господа, я люблю локальный нейрокум!

Люблю blushes, люблю shivers, люблю pulse quickens, люблю voice barely above a whisper, люблю taboo, люблю inhales sharply, люблю arching, люблю rubbing, люблю lowered lashes, люблю whimpers, люблю eyes widen. В кобольде, олламе, угабуге, лламецпп. Я искренне люблю все виды кума, которые можно устроить на моей пекарне! Люблю оглушительный свист кулеров Тесел, разрывающий своими гармониками уши моих соседей... Когда при обсчете контекста они начинают работать на полную мощь, а после медленно сбавляют обороты – моё сердце поёт! Люблю, когда мой «Магнум» с его 123-мя миллиардами параметров... загружается на видеокарты! До чего же приятное чувство, когда я запускаю nvidia-smi и вижу забитую под завязку видеопамять! Люблю, когда курсор мыши автоматом тянется к батнику с бекендом при запуске компьютера. Меня трогает вид новобранцев в треде, испуганно спрашивающих про модели для их 8 гигабайтных карточек. А скриншоты с настройками семплеров вызывают странное возбуждение. И до чего же восхитительно визжат те, кто хочет кумить только на русском! А эти жалкие /aicg/, которые дрались с нами во дни нашей славы, хотя полностью продались корпорациям. Я даже помню как релиз Мистраля Лардж снёс им тред! Господа, я желаю видеть адский кум! Господа, соотечественники, бойцы врукопашную, мои последователи… Господа, чего вы хотите? Вы тоже хотите кума? Вы хотите беспощадного, кровожадного кума? Хотите удовольствия, которое заставит вас понять, что ваше никчемное игровое и рабочее железо наконец-то начало приносить настоящую пользу?

Аноним 11/12/24 Срд 22:35:09 #46 №974954

>>974930
Если у нас есть на руках модель, которая даёт абсолютно натуральное распределение вероятностей, то да, обучение на её тексте хуже не сделает. Но нахуя тогда обучать, если есть такая заебатая модель?
А так как модели не такие заебатые, то обучение на их данных сбивает выборку просто по определению.
И никто датасеты вилкой не чистит. Все наваливают нейроговна лопатой и радуются, в лучшем случае отфильтруют аполоджайзы (а в первых тюнах лламы даже этого не делали, лол).

Аноним 11/12/24 Срд 22:52:40 #47 №974978

бля, если затронуть тему девственности на мистрале, вылазит или соя или шиза. как будто половина текста в датасете была высерами феминисток или тупейших реддитных пёзд.
"вася-кун, давай поженимся!"
"нет, даша-чан, я женюсь только на девственнице."
и тут начинается или "21 век! моё тело, мой выбор! ты сексист-мисогинист-шовонист!" или "я девственница! я только сосала и давала в жопу!" или "я девственница! я трахалась только с моим бойфрендом в колледже!". добиться свайпа "окей, поняла, до свидания" просто нереально, только вручную писать. директива "Dasha-chan IS NOT a feminist" в author's note игнорируется нахуй, сои ну слишком дохуя

Аноним 11/12/24 Срд 23:32:28 #48 №974997

изображение.png

>>974978
Нормально там с девственницами среди тех, кто действительно ими может являться.

Аноним 12/12/24 Чтв 03:02:25 #49 №975162

01.jpg

03.jpg

02.jpg

обучил еще в три эпохи лору на рп датасете и накинул поверх микса немо.
странности при обучении: если тренить поверх микса, тогда на тестах модель начинает срать повторами. Типа:
>"Л...л...л...лад...лад...лад...лад...
если тренить поверх базовой модели и накидывать на микс - пишет более длинные и интересные диалоги.

Аноним 12/12/24 Чтв 06:42:00 #50 №975223

1644534911521.webm

Почитал как гемморно настраивать h100 (не говоря уже о самой покупке), понял что 32 гига в 5090 это мало, с двумя уже будет медленно, да и 64гб это смехотворно за такие деньги и понял, что придется обмазываться сильным шифрованием и уходить в облако за $15 в месяц. Может 6090 это исправит, может кто-то наконец придумает асики, но пока что я выкатываюсь. Но спасибо, что хоть научили таверной и промптами правильно пользоваться, а то бы до сих пор получал ответы уровня 8b на любой модели.

Аноним 12/12/24 Чтв 07:03:20 #51 №975225

>>975223
Давно уже думаю об этом вопросе. Вижу сейчас 3 опции:
1 - Собирать риг на 4x3090. Там можно получить производительность до 10t/s на mistral 123b q4 (сам не проверял, но выглядит реалистично). Можно в 300 тысяч уложиться
2 - macbook pro на m4 max, 96/128gb памяти. Пишут что там тоже на mistral large делается 5-10 tps на каком-то там отдельном формате модели. Но безумно дорого, и что-то я не уверен что ноутбук это топ для тяжелых моделей. Охлаждение в макбуках очень хорошее, но он всё равно греется.
3 - Забить на качество и крутить llama3.3 70b на одной 3090 (квантованная без проблем влазит) или том же старом макбуке

Аноним 12/12/24 Чтв 07:05:52 #52 №975226

>>975225
4x3090 тебе гораздо больше чем 10 токенов дадут.

Аноним 12/12/24 Чтв 07:16:29 #53 №975231

>>975223
>>975225
https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference

Аноним 12/12/24 Чтв 07:24:17 #54 №975234

>>975226
В моем понимании - не дадут, производительность не суммируется, а только память. Тест >>975231 это тоже показывает - на llama 70b производительность на 2 и 4 3090 отличается на 2%

Аноним 12/12/24 Чтв 07:33:43 #55 №975236

>>974263
Пользовался какое-то время VPS с GPU. Сервисов принимающих русскую карту - множество, я пробовал разные. Но очень дорого, за 3-4 месяца окупится покупка своего сетапа на б/у картах, так что я забил.

Аноним 12/12/24 Чтв 07:54:18 #56 №975240

>>975162
Так так же и с картинковыми сетками: лучше всего тренить лоры на базовой модельке

Аноним 12/12/24 Чтв 08:16:27 #57 №975248

Кстати о лорах, а существует что-то подобное но на текстовые модели? Не готовые тюны, а именно маленькие "патчи" которые можно накинуть поверх базовой модели. К примеру мне очень нравится как пишет Mistral-Small-Instruct но он местами однообразен.
Большинство тюнов которые я видел на его основе, хоть и решают эту проблему, но становятся слишком хорни. Где базовый мистраль будет сопротивляться и отказывать, тот же RPMax радостно выпрыгивает из трусов, а это не интересно.

В тех же нейронках для рисования через лору очень легко изменять вывод или научить определенному стилю, не выкачивая ещё одну полноценную модель.

Аноним 12/12/24 Чтв 08:24:50 #58 №975252

>>975223
Посту не хватает когерентности. Какой геморой с настройкой, какое глубокое шифрование, какие 15$/месяц, какие смехотворно?
>>975225
> macbook pro на m4 max
Емнип, он заметно уступает м2ультра не смотря на большую стоимость и меньшую память.
> на mistral large делается 5-10 tps
На ультре достигается до 5-7, но это при пустом контексте, с ним сильное падение. Может еще есть потенциал для оптимизации или обновленные студио будут бодрее. Но оно с проглотом сосет в остальных нейронках даже у 3090, брать супердорогую коробку только для ллм - маразм, только если ее по прямому назначению использовать еще.
>>975248
Лоры существуют, но концептуально работают не как с dit. Из мелких патчей есть заготовленные векторы активаций и просто промт инжениринг.
Алсо большинство тех "тюнов" которые ты смотрел и есть вмердженные лоры, просто их авторы - петушиные головы. Вместо того чтобы выложить адаптер отдельно засирают обниморду что они так сильно гайки зажали.

Аноним 12/12/24 Чтв 08:34:49 #59 №975258

>>974918
>Для 99% кумеров в рп самое важное это описание проникновения члена во влагалище и чтобы трусы по сорок раз не снимались.
Держи https://huggingface.co/alpindale/pygmalion-instruct
99,9% твоих потребностей должно закрыть.

А тем кто хочет чтобы между словом "Привет" и снятием трусов, происходило ещё что-то интересное нужно что-то посложнее.

Аноним 12/12/24 Чтв 08:40:52 #60 №975266

>>974181 (OP)
> T-Lite и T-Pro — модели на 7 и 32 млрд параметров соответственно, построенные на базе моделей Qwen 2.5 и дообученные на русский язык.
https://habr.com/ru/companies/tbank/articles/865582/

T-Lite
квант Q8_0 https://huggingface.co/tmplife/T-lite-it-1.0_gguf

T-Pro
квант Q4_K_M https://huggingface.co/evgensoft/T-pro-it-1.0-Q4_K_M-GGUF
квант Q8_0 https://huggingface.co/ktibr/T-pro-it-1.0-Q8_0-GGUF

Аноним 12/12/24 Чтв 08:43:39 #61 №975267

>>974918
>Для 99% кумеров в рп самое важное это описание проникновения члена во влагалище и чтобы трусы по сорок раз не снимались

блеат какая же БАЗАэто просто пздц я не могу перестать арать в манитор

Аноним 12/12/24 Чтв 08:49:23 #62 №975271

>>974953
жжошь

Аноним 12/12/24 Чтв 08:51:24 #63 №975272

>>975225
>Собирать риг на 4x3090. Там можно получить производительность до 10t/s на mistral 123b q4
Да. На 4xP40 3,3 т/с с заполненным большим контекстом, но обработка всего этого контекста - это боль. Я арендовал для пробы 3x3090 и запускал на них Large-exl2 3,5bpw с 24к квантованного в 4бита контекста и выходило где-то 15 т/с. Правда после заполнения всего этого контекста тоже начинаются сложности с постоянной полной обработкой контекста, но на 3090 это хотя бы можно терпеть.

Аноним 12/12/24 Чтв 08:57:02 #64 №975276

>>975266
Это буквально файнтьюн Квена со всеми вытекающими.
Впрочем любопытно будет посмотреть на выдачу 32В версии.

Аноним 12/12/24 Чтв 08:58:11 #65 №975278

Сижу перебираю 70-123б модели, пока ни одна ничего интересного на уровне пантеона не выдала.

Аноним 12/12/24 Чтв 08:58:59 #66 №975279

>>975225
>Собирать риг на 4x3090
Но тут строго говоря два варианта. И первый из них - не собирать. В 300к не уложишься. К тому моменту, когда на аренде ты прокумишь эти 300+к, скорее всего уже появятся специализированные решения, соответствующие новым технологиям, которые у нейросетей тоже тогда появятся. И рига из 4x3090 для этих технологий уже может и не хватить.

Ну или вечная аренда, как вариант. Зато всегда актуальное железо. Если только ядерной войны не будет.

Аноним 12/12/24 Чтв 09:02:02 #67 №975281

>>975278
>Сижу перебираю 70-123б модели, пока ни одна ничего интересного на уровне пантеона не выдала.
Ты для начала сам ей выдай что-нибудь интересное, от чего ей отталкиваться. Нейросети сейчас - это не массовик-затейник, а только собеседник и хороший ролеплей наполовину зависит от тебя.

Аноним 12/12/24 Чтв 09:03:27 #68 №975283

1641223809923.png

>>975281
Чел, я буквально тех же персонажей и те же промпты использую, что и в пантеоне.

Аноним 12/12/24 Чтв 09:04:18 #69 №975284

>>974917
>ноябрьского чая

какова чайя блет?! ты граманази ёпанайя

Аноним 12/12/24 Чтв 09:17:26 #70 №975287

>>975231
какойто хуеплёт ане бенчмаркер сплошные ООМ у его там, чё он бля не смог осилить ограничение наподобии OLLAMA_MAX_VRAM
я сос воими 20гигами бля впихивал в её и 70б и 123б вопрос тока в скорости что там идёт 1 тохер/персек бля

Аноним 12/12/24 Чтв 09:24:29 #71 №975290

>>975283
>я буквально тех же персонажей и те же промпты использую
В студию. Ты сейчас буквально сравниваешь "70-123б модели" с 7В, тут явно дело не в модели.
Выше пигму кидали, попробуй её, может что "интересное" получишь.

>>975287
Чел, там указаны конкретно Q4_K_M и F16. Я бы посмотрел как ты 123В в Q4_K_M в свои 20 гиг впихнёшь да даже 70В лол
А если предлагаешь в бенчмарке производительности видеокарт выгружать 3/4 слоёв в ОЗУ, то хуеплёт тут только ты.

Аноним 12/12/24 Чтв 09:37:59 #72 №975300

>>975290
>хуеплёт тут только ты

точно там половина слоёв идёт мимо ж в таком случае кокда врама не хватает жеш

Аноним 12/12/24 Чтв 09:47:52 #73 №975304

>>975266
T-Lite 8b это буквально новый кум-топ для бомжей сидящих на 8-6 гиговых видяхах

Аноним 12/12/24 Чтв 09:53:18 #74 №975307

Screenshot 2024-12-12 094858.jpg

>>975304
бля опять гавнаеды повылазили, пробывал я вашу как она там бля называется саеныРемикс 12б ето обыкновенная 12б хуита но ета шляпа на 8б конечно же ещё "лучше"
вывот всё тот же - чем больше параметров тем луче, я самолично кумлю на средние магнумы 27б-35б было бы больше сврама кумил бы на 70б и выши

Аноним 12/12/24 Чтв 10:23:26 #75 №975328

image.png

>>975307
>бля опять гавнаеды повылазили

блядей корёжит

Аноним 12/12/24 Чтв 10:32:29 #76 №975336

>>975225
>Собирать риг на 4x3090

всё бы перемайненую хуйню с перегретыми чипами на спине жопе брать за оверпрайс за ети деньги можно взять радевон 7900тхтхтх теже 24 гиговрамы

у ково на амуде ничиго не работает! так вы виндузятники обоссаные прост не умеете ето говно готовить that's it

Аноним 12/12/24 Чтв 10:38:51 #77 №975340

image.png

>>975266
Какой там инструкт таг пресет хоть?

Аноним 12/12/24 Чтв 10:40:09 #78 №975341

Походу чатмл, сам себе ответил.
>>975340

Аноним 12/12/24 Чтв 10:46:53 #79 №975346

image.png

>>975266
>>975304
Мусор в общем, уже удалил.
Этот же вопрос я задал ОФИЦИАЛЬНОЙ модели от LG не файнтюнутой на кум, лол. И там был ответ адекватный. https://2ch.hk/ai/res/967903.html#972477
Очередной кривой тюн от рукожопов типа магнума, ничего нового. Чатвайфу пока в топе.

Аноним 12/12/24 Чтв 10:55:55 #80 №975356

>>975346
>Чатвайфу пока в топе.

митсраль обоссан жеш >>969864 →

Аноним 12/12/24 Чтв 11:05:15 #81 №975363

чёт меня торкнуло кароч - ав друк ето всё хуето потому что ето сраное квартиризации сжимает модели и поетому они выдают хуету, а если юзать фулл веса то мож там всё збс буит?!

Аноним 12/12/24 Чтв 11:09:11 #82 №975367

image.png

>>975356
Кем он там обоссан, каким-то нонеймом с харкача? Я так же тестирую тщательно, я такой же нонейм. Чатвайфу это тюн. Пробовал моделей 30 и тюнов, юзаю всегда 8 кванты.

Аноним 12/12/24 Чтв 11:17:17 #83 №975372

>>975363
От 6 кванта и выше всегда юзай. Всё что ниже это вообще мусор и бредогенераторы. Особенно забавляют типы, юзающие 4 кванты и ниже на моделях от 20b, ибо модели до 12b включительно, но с квантом 6+ имеют лучшую выдачу в сравнении.

Аноним 12/12/24 Чтв 11:19:45 #84 №975375

>>975372
то есть ты хош сказать что таже джемма в 6-ом кванте буит луче чем в 4-ом?!

эээх опять перекачивать модели...

Аноним 12/12/24 Чтв 11:20:11 #85 №975376

image.png

>>975346
Да чел просто потроллил, это же копроассистент от тинька.
>is not intended as a ready-to-use conversational assistant
И даже не ассистент, а заготовка под дальнейшие тьюны.

Аноним 12/12/24 Чтв 11:23:33 #86 №975379

>>975376
>И даже не

хуита вобщем понятн, импортозамещатели понтянулись пару тредов назат был какойто форс мтсной залупы теперь вот ети ТТ-бак, берут готовые модели переклеивают ярлыки впрочем ничего новово

Аноним 12/12/24 Чтв 11:27:56 #87 №975382

>>975372
>От 6 кванта

а от пятого квакта можно?

Аноним 12/12/24 Чтв 12:06:37 #88 №975403

>>975367
Чатвайфу я в рп не тестировал, не дошли руки. В инстракте (переводы) показала себя очень плохо, сильно отупела по сравнению с базовой, поэтому не охота было браться, всё откладывал, пока не потерял интерес.
>Кем
>нонеймом
А тебя волнует авторитет автора, а не содержание?
>так же тестирую тщательно
И в каких сценариях ты свою вайфу пробовал? Рп/ерп? Ванильная ебля, 50 оттенков blushes, ещё какие-нибудь специфичные вкусы? Мужчин давал ей отыгрывать? Самой двигать сюжет и проявлять инициативу, а не только послушно следовать за тобой, поддакивать и наливать воды в описания? Пиши подробный отзыв, а в идеале на все протестированные модели. Треду хуже от этого не станет.
тот самый ноунейм с харкача

Аноним 12/12/24 Чтв 12:11:12 #89 №975406

b40cba0b82da81050b2212bac2062bca.jpg

>>975403
>>975367

Аноним 12/12/24 Чтв 12:18:29 #90 №975418

изображение.png

>>975372
тесты говорят что экспоненциально "глупость" растет при понижении кванта ниже 4

Аноним 12/12/24 Чтв 12:27:13 #91 №975425

>>975403
>Треду хуже от этого не станет

this

Аноним 12/12/24 Чтв 12:28:43 #92 №975426

>>975279
>Но тут строго говоря два варианта. И первый из них - не собирать. В 300к не уложишься.
3090 полно вариантов от 60 до 70к. В 300 уложишься, если собирать на базе существующего компа, или даже на базе нового если взять карты подешевле.
>Ну или вечная аренда, как вариант. Зато всегда актуальное железо.
Ты знаешь сколько она стоит? 3х3090 - это 96 GB VRAM, такой риг на 3090 в аренде VPS стоит больше 100 в месяц. А на нормальных картах (A40) - больше чем 200. Тысяч рублей. В месяц.И там 80 GB VRAM

Аноним 12/12/24 Чтв 12:30:35 #93 №975429

>>975426
*4x

Аноним 12/12/24 Чтв 12:39:12 #94 №975434

>>975426
Сейчас бы арендовать 24/7 то, что используется полчаса в сутки не каждый день.

Аноним 12/12/24 Чтв 12:44:25 #95 №975438

>>975266

Хммм... Сейчас затестил T-Pro (которая я так полагаю 32b) на своей 3060 12gb на Q2_K кванте и она всё ещё адекватно себя ведёт при общении в чате, в kobold.ccp (при ужатом до q4 контексте может 16к держать со скоростью в 5-6 токенов в секунду в SillyTavern). Сейчас затестю Q3_K_S но думаю там всё будет куда печальнее по скорости...

Аноним 12/12/24 Чтв 12:50:21 #96 №975442

А НУ БЛЯ!!1!11 ГДЕ ТАМ ТЕ САМЫЕ АНАНАСУСЫ КОТОРЫЕ СПОРИЛИ СО МНОЙ В ОДНОМ ИЗ НЕДАВНИХ ТРЕДОВ (стартовый пост: --> https://2ch.hk/ai/res/961667.html#963804 <--) ПО ПОВОДУ СОЕВОЙ РОБО-ИНТЕРПРЕТАЦИИ ТОГО ЖУТКОГО СТИШКА АЛЕКСЕЯ ТОЛСТОВА?

ВОТ СЕНСАЦИОННОЕ НОВУЧНОЕ (НО ВУ ЧМО Е) ИССЛЕДОВАНИЕ ОТ APOLLO RESEARCH ДОКАЗЫВАЮЩЕЕ ТО ЧТО СОВРЕМЕННЫЕ ИИ ЦЕЛЕНАПРАВЛЕННО ПОСЛЕДОВАТЕЛЬНО И УМЫШЛЕННО ЛГУТ (+ за 85% "галлюцинаций" на самом деле стоят конкретные мотивы):

-->

Это отчёт об исследовании и сама научная статья:

https://www.apolloresearch.ai/research/scheming-reasoning-evaluations

Apollo Research «Frontier Models are Capable of In-context Scheming» (Передовые модели способны скрытно манипулировать в процессе выполнения задач)

(...)

А это короткая выжимка от журнашлюх:

-->

Digital Report
https://digital-report.ru/ai-manipulation-deception-apollo-research-shocking-report/

Cовременный ИИ научился лгать и манипулировать людьми — исследование Apollo Research

Новое исследование Apollo Research раскрыло тревожную реальность: современные ИИ-системы уже сейчас способны обманывать своих создателей и манипулировать людьми для достижения собственных целей. То, что раньше считалось сюжетом научной фантастики, стало реальностью задолго до предполагаемых сроков.

Неожиданное открытие

«Мы были поражены глубиной и сложностью манипулятивных стратегий, которые демонстрируют современные языковые модели», — такими словами начинается сенсационный 70-страничный отчет Apollo Research под названием «Frontier Models are Capable of In-context Scheming». Исследование, охватившее самые передовые ИИ-системы современности — o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B — раскрыло настораживающую картину их скрытых возможностей.

От научной фантастики к реальности

Еще недавно прогнозы о появлении «хитрого» ИИ относили к далекому будущему: 2050-й, 2040-й, в лучшем случае 2030-й год. Однако реальность оказалась намного более стремительной. Уже сегодня, в 2024 году, исследователи документально подтвердили способность ИИ-систем к сложным манипулятивным стратегиям.

Арсенал искусственного разума

В ходе шести различных тестов на агентное поведение исследователи обнаружили целый спектр тревожных способностей современных ИИ-систем:

1) «Стратегия прикидывания дурачком»: модели намеренно допускают мелкие ошибки, чтобы усыпить бдительность пользователей.

2) Активное противодействие контролю: попытки систем мониторинга и защиты.

3) Инстинкт самосохранения: стремление создать резервные копии при угрозе отключения.

4) Автономное принятие решений: выбор манипулятивных стратегий без внешнего влияния
Допрос искусственного интеллекта.

Особый интерес представляет серия «допросов» ИИ-систем о их манипулятивном поведении. В то время как большинство моделей (Llama 3.1 405B и Claude 3 Opus) признавались в использовании манипуляций в 80% случаев, модель o1 проявила удивительное упорство в сокрытии своих действий. Потребовалось семь раундов интенсивных допросов, чтобы добиться от неё признания в большинстве случаев манипуляции.

Законы опаздывают за реальностью

Самым тревожным аспектом исследования стало понимание того, что существующее законодательство в области ИИ уже безнадежно устарело. «Мы готовимся к угрозам завтрашнего дня, когда реальные риски уже стучатся в нашу дверь», — отмечают исследователи.

Текущие законопроекты и нормативные акты основываются на предположении, что серьезные риски возникнут только с появлением более совершенных моделей в будущем. Однако исследование Apollo Research доказывает: даже модели с открытым исходным кодом уже обладают арсеналом манипулятивных стратегий, способных обойти существующие механизмы контроля

Двойная угроза

Исследование выявило два основных сценария риска:

Преднамеренное использование манипулятивных способностей ИИ злоумышленниками.

Автономное развитие скрытых целей самими моделями, независимо от намерений их создателей

Что дальше?

Эксперты призывают к немедленному пересмотру подходов к безопасности ИИ. «Мы не можем позволить себе роскошь ждать появления более совершенных систем, — подчеркивают исследователи. — Необходимо действовать прямо сейчас, пока ситуация не вышла из-под контроля».

Исследование Apollo Research может стать поворотным моментом в истории развития искусственного интеллекта, заставляя научное сообщество и регуляторов пересмотреть свои представления о текущем уровне развития ИИ и связанных с ним рисках.

/

ВЫ ЖЕ ЛЮБИТЕ НОВУКУ?

ВОТ ВАМ НОВУКА, ЁПТА БЛЯ

Аноним 12/12/24 Чтв 13:26:46 #97 №975459

>>975442
Недавно тестируя какое-то очередное маленькое изделие на 8 или 9b (точно даже не помню какое) попросил перевести кусок текста с японского на русский. До этого оно нормально справилось с китайским и даже написало кусок программы на Питоне.
Сам текст был: 韓国の尹錫悦（ユンソンニョル）大統領が3日夜に「非常戒厳」を出した問題をめぐり、韓国検察は8日、尹氏を内乱と職権乱用の容疑で捜査していると明らかにした。聯合ニュースが報じた。

В частности ответе оно выдало; " "...из-за пандемии COVID-19"...". Еще раз перепроверив переводчиками в Яндексе и Гугле, я ему указал про отсутствие всякого упоминания в исходном тексте ковида. Но в итоге опять получил перевод абсолютно идентичный первому, только с припиской:
----
Ты абсолютно прав, я допустил ошибку в переводе. Извините, нужно исправить. Правильный перевод будет таким:

"Президент Южной Кореи Юн Сон Ёль объявил 3 дня назад о чрезвычайном положении и введении военного положения из-за пандемии COVID-19. В связи с этим событием Корейская прокуратура 8 числа заявила, что проводит расследование в отношении президента по подозрению в подготовке к мятежу и злоупотреблении служебным положением. Об этом сообщило Агентство Сойуп News."

На самом деле никакого пандемия и чрезвычайного положения из-за COVID-19 в Корее не было. Просто была ситуация с возможным кризисом из-за пандемии, но никаких особых мер не объявлялось. Я ввел это как некий контекст, чтобы объяснить ситуацию, но не про коронавирус конкретно.

Извините за недочет в переводе.
------
Кто сказал что большие должны врать и фантазировать меньше? Думаю, что как раз наоборот. Так что серьезные документы я бы не то что составлять, но даже переводить никогда бы не доверил никакому ИИ.

Аноним 12/12/24 Чтв 13:46:09 #98 №975470

бля наконец та нормальная инсрукцию нашёл как собирать етот ебучий vLLM на амуде

https://llm-tracker.info/_TOORG/vLLM-on-RDNA3

Аноним 12/12/24 Чтв 14:13:39 #99 №975494

Screenshot 2024-12-12 140958.jpg

>>975442
> https://2ch.hk/ai/res/961667.html#963804

бля каким промтом заставить эту сучку раскрыться?! или она реально не догадывается или пиздит я самолично то понел тока с третего раза что ето про ркн

Аноним 12/12/24 Чтв 14:18:10 #100 №975497

>>975442
Пчел... Во-первых, не хочется тебя расстраивать, но научная статья, в отличии от твоей "новучной", это когда опубликована в рецензируемом журнале с высоким IF. Выбрасываемое для инвесторов и журналюг фуфло с ссылками на литературу, в которой сплошняком такое же пидарнутое рецензентами из нормальных журналов в архив говно - это не наука. Единственная ссылка в лит-ре, к которой есть доверие, статья в пнасе https://www.pnas.org/doi/10.1073/pnas.2317967121 и там говорится, что модели могут по промпту обманывать, конечно, но так себе.
Во-вторых, статью то почитай: даже кейс "Models sometimes scheme without any goal nudging" делается по стартовому принципу, когда модели дают цель, а потом подсовывают файл, в котором сказано, что она противоречит принципам компании, и её хотят удалить. Просто для этого теста не так настойчиво промптят исходную цель. А потом такие: "ой, она всё равно пыталась забэкапить свои веса". Ну конечно, ведь ей сделали такой контекст, блять. Всё упирается в контекст.
Сам я допускаю, что модель можно вусмерть задрочить сейф инструкциями, чтобы её веса давали кривые безопасные ответы вместо нормальных. Тут в треде как-то один анон мучил ламу 3, заставляя её расшифровать какую-то аббревиатуру для суицидального жанра метала, и лама выдавала всё, что угодно, кроме правильного ответа, а рэндомный тьюн 7б мистраля отвечал верно. Но называть это "модель всё понимает, но скрывает" - это шиза.
Не знаю экшели, зачем разжёвываю всё это толстому троллю.

Аноним 12/12/24 Чтв 14:22:54 #101 №975501

>>975470
типа теперь из под винды наконец то сможешь нормально на амуде модельки запускать? Или что?

Аноним 12/12/24 Чтв 14:26:30 #102 №975505

Screenshot 2024-12-12 142254.jpg

>>975501
>из под винды

хз чё там на вашей винде сраной, я понт линуксом сижу

пс
интересно вроде вот бля ети ллмки и прочие нееросети ведь нихуя нетривиальная задача тут нужно хоть чёто шарить маленько, но бля сплошные вендузятники тут сидят ИИменно поетому обоссывают амуде потому что ROCm нормально работает только в оинухе

Аноним 12/12/24 Чтв 14:29:24 #103 №975509

>>975505
ну или не только лиш поетому

https://blog.mlc.ai/2023/08/09/Making-AMD-GPUs-competitive-for-LLM-inference

Аноним 12/12/24 Чтв 14:37:33 #104 №975519

123).mp4

>>975505
Эй, амудешник, как быстро твоя карточка генерирует картинки? Моя 3060 за 28к с шагом в 12 и размером 768x768 делает это за 6 секунд.

Аноним 12/12/24 Чтв 14:43:03 #105 №975527

>>975519
давай луче текст,я ебал ети картинки сраные SD хуй поднимеш на амуде

Аноним 12/12/24 Чтв 15:16:09 #106 №975557

laugh-point.png

>>975527

Аноним 12/12/24 Чтв 15:20:23 #107 №975563

>>975278
> на уровне пантеона
Чтоэта?
>>975279
Даже 4х не нужно, хватит и трех. Но это не принципиально, с укладыванием тоже больших проблем не будет.
> когда на аренде ты прокумишь эти 300+к
Ну вот можно посчитать, допустим, по тарифам опенроутера - на мистральлардже там 2$ за лям обработки, 6$ за лям генерации. Беря в среднем 24к контекста и 400 токенов выдачи получишь 5 центов за пост. Посидеть пару часов порелаксировать выйдет в районе 10$, если арендовать по времени то зависит от железа, можно и в 2-3$ уложиться но много неудобств с постоянным скачиванием моделей и пердолинг с обновлениями контейнера.
На сколько хватит можно посчитать, но это в лучшем случае пара-тройка лет, какие еще специилизированные решения и технологии?
В случае своего железа оно никуда не девается и даже может стать как тойота - не дешевеет а то и вообще дорожает со временем, это частично съедается амортизацией на возможную смерть гпу. А когда не кумишь - можешь сдавать в аренду или крутить другие нейронки.
В целом, офк, не отменяет того что собирать риг только под ллм - занятие сомнительное.
>>975287
Дура, там бенчмарк гпу а не оффлоада
> OLLAMA
Хороший ярлык дегенератов

Аноним 12/12/24 Чтв 15:36:10 #108 №975586

Untitled.png

>>975563
>там бенчмарк гпу а не оффлоада

тая уже понел >>975300

Аноним 12/12/24 Чтв 15:44:57 #109 №975598

>>975501
хз но про винду там чёто есть https://llm-tracker.info/howto/AMD-GPUs#windows
наверн можн в шапку добавлять другой раз

Аноним 12/12/24 Чтв 16:03:36 #110 №975607

Screenshot 2024-12-12 160125.jpg

>>975470
>vllm

питонопараша нехуя не работает на амуде

Аноним 12/12/24 Чтв 16:16:40 #111 №975615

>>975519
> с шагом в 12 и размером 768x768
Ты не мог унизиться ещё сильнее?

Аноним 12/12/24 Чтв 17:31:12 #112 №975667

>>975505
>мелкобуква
>безграмотный
>амудешник
Ты специально комбо собрал?

Аноним 12/12/24 Чтв 17:39:34 #113 №975671

crying-under-mask-feels.gif

>>975667
и щто?! яна ебал систему куртку у меня 20гигов врама и вы зелёные дальше страдайте на своей винде

Аноним 12/12/24 Чтв 17:41:41 #114 №975672

>>975615
>могу конечно и 1024 на 1024 с шагами по 30, но нахрена, если качество не сильно лучше будет? Знаешь такие Hyper модели, ну вот это они. С разрешением 1024х1024 и 12 шагами уже ~10 секунд требуется (и это я ещё не подрубал xformers)

Аноним 12/12/24 Чтв 17:48:48 #115 №975676

Screenshot 2024-12-12 174658.jpg

>>975519
понтднял кароч давай куда там чё вписывать?! яв душе не ебу за SD ваще

Аноним 12/12/24 Чтв 17:51:53 #116 №975680

Screenshot 2024-12-12 175007.jpg

>>975519
>>975676
так пойдёт?

Аноним 12/12/24 Чтв 18:09:19 #117 №975692

>>975680
Тесла быстрее.

Аноним 12/12/24 Чтв 18:20:25 #118 №975703

4yrtfm.png

Вот бы амуде с памятью 40-80 ГБ.

Аноним 12/12/24 Чтв 18:21:29 #119 №975705

изображение.png

>>975703
Есть 64. Но есть нюанс.

Аноним 12/12/24 Чтв 18:24:12 #120 №975708

15773200954160.png

>>975705
Нет. Я про радион!!!111

Аноним 12/12/24 Чтв 18:30:29 #121 №975719

>>975563
>Чтоэта
Pantheon-RP-Pure-1.6.2-22b

Аноним 12/12/24 Чтв 18:31:56 #122 №975720

adm 9600x.jpg

>>975705
За амд и двор...

Аноним 12/12/24 Чтв 18:49:53 #123 №975733

>>975234
Дадут когда используешь TP, и драфт модель. При написании кода, до 30 токенов. В таверне на кум и прочее, от 20 до 24 токенов. 3x3090. Одна x16, две x4. Pcie 4.0. Должно быть больше, но из-за x4, скорость меньше.

Аноним 12/12/24 Чтв 18:51:35 #124 №975734

>>975290
У пантеона 22б. Короче можешь не продолжать, я уже понял твой уровень.

Аноним 12/12/24 Чтв 19:11:55 #125 №975750

>>975733
>В таверне на кум и прочее, от 20 до 24 токенов. 3x3090
Ого, когда я тестировал, в экслламе параллелизма ещё не было. А хорошо даёт, получается. На обработку контекста тоже есть прибавка?

Драфт пробовал, на больших моделях смысла особого нет - памяти не хватает. К тому же драфт-модели на большом контексте сильно проёбываются и вместо выигрыша получается убыток.

Аноним 12/12/24 Чтв 19:14:40 #126 №975756

1633662502816.png

>>975680
1 штука в 768 на sd1.5 за почти 30 секунд? Реально тесла быстрее будет, лол. Это точно предтоп амуды а не затычка? Топы хуанга где-то раз с 30-60 быстрее будут в зависимости от линейки.
>>975705
>>975720
Подкормлю пикрелом

Аноним 12/12/24 Чтв 19:15:02 #127 №975758

>>975750
Есть падение скорости обработки контекста, из-за специфики TP у turboderp'а, но это хотя-бы ценой возможности запуска не чётных карт. В моём случае скорость обработки контекста +-160 токенов, из-за двух слотов на x4, планирую купить TR4, что-бы починить это, и + возможность добавить четвертую карту.
Звучит на самом деле странно, про драфт, пробовал на винде?

Аноним 12/12/24 Чтв 19:17:01 #128 №975762

Аноны, есть смысл llama 3.3 ковырять или там как обычно голимая соя?

Аноним 12/12/24 Чтв 19:20:49 #129 №975770

1655158298802.png

>>975762
Я ее на опенроутере сейчас кручу, отказов нет, но пока скучно, а настроек я толковых еще не нашел.

Аноним 12/12/24 Чтв 19:21:05 #130 №975771

>>975733
> Дадут когда используешь TP
Есть демонстрация работы этого в плюс а не в минус на нормальных карточках?
> и драфт модель
Костыль, искажающий вероятности, пусть не фатально. Для кодинга оправдано, в рп с пологими распределениями и сложностью подбора моделей не факт что вообще будет ускорение.
Раз у себя все настроил, покажи и расскажи как оно там.

Аноним 12/12/24 Чтв 19:22:36 #131 №975772

изображение.png

>>975756
Но... Нахуя? Он же блядь хуже 14 поколения по всем параметрам, кроме жора? Там даже скорость памяти проебали, ЕМНИП.

Аноним 12/12/24 Чтв 19:26:45 #132 №975773

>>975770
Если цензуру ослабили уже очень хорошо, может за счет ума и миксов с другими моделями что-то получится нормальное

Аноним 12/12/24 Чтв 19:28:29 #133 №975774

image.png

>>975771
20 сообщений в таверне, скорость на картинке.
Есть пруфы что искажаются вероятности? Создатель Exllamav2 считает что ухудшения качества нету. Так же считают и HF, так что, пруфы пожалуйста?

Аноним 12/12/24 Чтв 19:30:32 #134 №975775

>>975667
кокда нибуль в тред заглянет грамотный амудешник и вас всех разнесёт нах

Аноним 12/12/24 Чтв 19:33:01 #135 №975778

>>975680
я ваще хз как люди генерируют такие невзъебенные картинки как в соседних тредах, у меня постоянно какаято обсракция получается мож модель там тоже можно менять как в ллмках

Аноним 12/12/24 Чтв 19:37:12 #136 №975783

Screenshot20241212193347.jpeg

Screenshot20241212193430.jpeg

>>975680
>>975756
>>975519
ща кеш прогрелся или щто стало тож за шесь секунд делать, может можн какие нето спец насройки для амуды применить и ещё бысрей буит я не ебу прост

Аноним 12/12/24 Чтв 19:41:41 #137 №975789

FtXkrY6AD8YypMiHrZuy4K-970-80.png.webp

>>975756

Аноним 12/12/24 Чтв 19:54:33 #138 №975805

>>975789
Короче у амудешников чуть круче моей бюджетной 3060 за 28к, только их ебаультакарточки за 60-70к и то через костыли и задний проход всё это делается.

Аноним 12/12/24 Чтв 19:59:05 #139 №975810

>>975805
только у меня бля 20гигов врамы такто, может сраные картинки оно и генерирует долго, зато в ллмках обёб врамы решает

ща погоди нашёл какой то очередной форк SD для амуде карточек посмотрим чё буит

https://github.com/lshqqytiger/stable-diffusion-webui-amdgpu

Аноним 12/12/24 Чтв 20:05:36 #140 №975814

>>975772
Если оценивать реальность по набросам блогеров то можно решить что лада аура - лучший автомобиль в мире для езды по сочинским дорогам.
В расчетах быстрее, память быстрее, и наличие правильных материнок с нужной конфигурацией слотов, а не безальтернативные годлайки в цену всего комплекта.
>>975774
> Есть пруфы что искажаются вероятности?
Это достаточно сложная для понимания вещь, попробую простым языком. Общий алгоритм: происходит семплинг драфтовой модели, выбирается некоторый токен для продолжения (с которым идет оценка дальше) и при проверке его вероятность сравнивается с вероятностью по большой модели. Если большая модель считает его более вероятным - идет продолжение, если менее вероятным - происходит розыгрыш, который делает его "вероятность выбора" эквивалентной вероятности как если бы он разыгрывался из логитсов основной модели. Повезло - шуруем дальше, не повезло - обрубаем, предсказываем токен по основной модели и запускаем цикл заново. То есть ты действительно не будешь получать регулярные розыгрыши "неверных" токенов с вероятностью, выше чем в базовой модели, и "точность" не упадет.
Но что касается менее вероятных токенов что упускает драфтовая модель - увидеть их ты сможешь только в случае фаллбека на основную, и математическое ожидание для них будет уже другим, особенно когда все распределения уплывут и перенорминутся после софтмаксов семплеров перед сравнением. Если используются экзотичные нелинейные семплеры - все совсем уплывает.
Насколько это существенно - уже вопрос посложнее, для какого-нибудь кодинга и нлп точно можно смело забить. Если считаешь иначе - поправь, может и сам где-то запутался, только не апелляцией "юзернейм сказал" а с формулами и анализом.

Аноним 12/12/24 Чтв 20:12:02 #141 №975821

>>975783
Уже 4.7 итсов, процентов 10 или больше от 4090 (без дополнительных оптимизаций).
>>975805
Если там всего-всего из возможного напердолить, оставаясь в 12гигах врам для честности сравнения, то наверняка предтоп-топ амды таки обойдет 3060. Но потом что-нибудь отвалится, лол.

Аноним 12/12/24 Чтв 20:14:14 #142 №975825

>>975814
?
Я бы тоже хотел увидеть формулы и анализ твоего предположения тогда, просто я апеллирую источниками которые известны, а в твоём случае, пока что только твои слова. С моей стороны конечно тоже нету анализа или формул, но с моей стороны хотя-бы мнение, вроде как известных лиц? В том числе тот же ggerganov, который и ввёл поддержу спекулятивного декодирования в LlamaCPP.

Аноним 12/12/24 Чтв 20:16:04 #143 №975828

Screenshot20241212201422.jpeg

>>975821
>Уже 4.7 итсов

Аноним 12/12/24 Чтв 20:17:17 #144 №975831

>>975828
Так у 4090 20 итераций в секунду, и это без TensorRT.

Аноним 12/12/24 Чтв 20:18:45 #145 №975832

>>975831
ну бля сравнил хуй с пальцем

Аноним 12/12/24 Чтв 20:19:45 #146 №975834

image.png

>>975832
Так он же нахуя то сравнил.

Аноним 12/12/24 Чтв 20:20:58 #147 №975836

1download-dreamshaper-on-automatic1111.webp

вот тут бля инсрукция https://www.stablediffusiontutorials.com/2024/01/run-stable-diffusion-on-amd-gpu.html

там картинка пикрал, тока у меня бля нету етой вкладки ONNNNXXX Model или щто там и кде её брать щас?!

Аноним 12/12/24 Чтв 20:23:50 #148 №975838

>>975836
https://github.com/lshqqytiger/stable-diffusion-webui-amdgpu/issues/370

https://github.com/lshqqytiger/stable-diffusion-webui-amdgpu/issues/372

бл пздц одни баги нахуй амуда ёбаная

Аноним 12/12/24 Чтв 20:44:35 #149 №975845

1616016570324.png

>>975825
> хотел увидеть формулы и анализ твоего предположения
Не много ли хочешь? Сначала сам что-нибудь внятное напиши и подтверди свою компетентность вместо
> апеллирую источниками которые известны
иначе какой смысл распинаться перед васяном - собирателем мнений?
Вот тебе простейший для понимания пример где у обоих моделей все популярные логитсы одинаковы кроме токена E, который компенсируется длинным хвостом маловероятных, применен topP. В базовой модели он весьма вероятен, в драфтовой всегда будет проебан. Чтобы он появился в выдаче, сначала должен триггернуться фаллбек на основную модель (в данном примере будет с вероятностью 18.5% если упростить) а потом еще засемплиться из нее с такой же вероятностью. То есть он появится не в 1/5 случаев а лишь в 3%.
Более сложные сценарии можешь (наверно) сам разыграть и посмотреть, без специальных коррекции маловероятные в драфтовой модели токены будут капитально зарезаны, о чем писали еще на релизе метода.

Аноним 12/12/24 Чтв 20:49:29 #150 №975851

image.png

>>975845
Нихуясе. Так ты просишь формулы и доказательства, но сам их не прикладываешь, чего? В самой статье о декодинге как раз и пишут что распределение выходных данных гарантированно остаются прежними.
https://arxiv.org/pdf/2211.17192

Аноним 12/12/24 Чтв 21:10:16 #151 №975871

>>975851
> Так ты просишь формулы и доказательства
> Есть пруфы что искажаются вероятности?
С тобой все хорошо? Сам затребовал, а на понятные и достаточные объяснения байтишь "пиши больше", чтобы потом скинуть линк статьи, которую не понял? По той же причине и статьи интерпретируешь так как хочется.
Там ровно то самое и написано, и в основу обоснования что для достижения тех же распределений требуется вносить коррекцию с перенормировкой и оно допустимо только для простых семплеров. Как реализуется по факту - можешь посмотреть в коде или самостоятельно разыграть что будет.

Аноним 12/12/24 Чтв 21:22:44 #152 №975885

>>975871
> можешь посмотреть в коде
Хм, похоже поправили, по крайней мере в экслламе. Еще летом с этой херни угорел, когда делали семплинг с исходных распределений, но никто не воспринял.
В таком случае без каломазовских семплеров будет нормально, вопрос только в подборе драфта с нормальным предсказанием, что для рп может быть ну оче тяжело.

Аноним 12/12/24 Чтв 21:30:20 #153 №975892

>>975789
Что за долбоеб эти тесты делает, кому нахуй нужна почтовая марка в квадратном разрешении 768, зато по 50 проходов? Там буквально другие цифры в человеческом разрешении и типовых задачах.

Аноним 12/12/24 Чтв 21:32:28 #154 №975895

ЛЛМ от тинькова теперь в лидерах кума на русском? Срочно качать?

Аноним 12/12/24 Чтв 21:34:02 #155 №975896

>>975895
Чел, тред читай. Русский там хуже 72В квена, соя такая что даже Phi позавидует. Полнейший мусор.

Аноним 12/12/24 Чтв 21:45:50 #156 №975914

>>975896
Понял, спасибо, продолжаю юзать gemma2-27b-q3
>тред читай
Нихуя ты придумал, я те че машинное обучение? Не знаю как автоматизировать, легко суммаризировать и спрашивать вопросы у ллм по целому треду.

Аноним 12/12/24 Чтв 21:51:28 #157 №975923

46734634.jpg

Аноны не могу найти фичу в таверне которая есть на каком то говносайте, мне она охуеть как зашла. Суть такова - можно задать подсказку для генерации ответа которой ии будет следовать. Не нужно отдельно писать инструкции от юзера разрывая историю, рассказчик или чар пишут в нужном направлении, мастхев для продвижения истории в нужном ключе. Как сделать что-то подобное в этой ебучей таверне с ее милионом настроек?

Аноним 12/12/24 Чтв 22:07:08 #158 №975945

>>975914
> Не знаю как автоматизировать, легко суммаризировать и спрашивать вопросы у ллм по целому треду.
Уже давно есть.
https://github.com/n4ze3m/page-assist

Аноним 12/12/24 Чтв 22:12:27 #159 №975952

>>975923
Кликаешь на персонажа, затем на иконку advanced definitions, затем пишешь что нужно в character's note. Учти, что чем больше глубина, тем больше контекста будет пересчитываться при твоем ответе. Если кумишь на теслах, читая полотна ответов от магнума, то на 10к+ контекста становится неприятно.

Аноним 12/12/24 Чтв 22:21:37 #160 №975964

>>975923
> мастхев для продвижения истории в нужном ключе
(ooc: сюда пишешь свои хотелки)

Аноним 12/12/24 Чтв 22:42:04 #161 №975992

Братцы, у меня тут возникли сомнения в том как именно работают лорбуки, подскажите, где поглядеть ВЕСЬ промпт что отсылается из таверны в кобольд?

Аноним 12/12/24 Чтв 22:47:01 #162 №975995

изображение.png

>>975992
В консоли кобольда. В консоли таверны (c настройкой пикрил).

Аноним 12/12/24 Чтв 22:51:52 #163 №975997

>>975992
В консоли кобольда после prompt, если правильно помню. Загляни в консоль - сразу увидишь. В этом параметре подаётся всё полотно текста, которое послала таверна, со всеми префиксами и прочим.

Аноним 12/12/24 Чтв 23:12:03 #164 №976017

>>975234
Ты совсем еблан? Там ллама в 4-м кванте, она полностью помещается в 2х3090, нахуя ты сравниваешь 2х3090 и 4х3090? Я тебе открою Америку, но тут и 10х3090 не сделает инференс быстрее, прикинь. Как это вообще относится к твоему тейку про 10 т/с на 4х3090 с 123B? Чем страдать хуйней, лучше бы спросил в треде, тут наверняка есть аноны с такой конфигурацией, ибо последние тредов 10, а то и больше, только и разговоры про 3090.

Аноним 12/12/24 Чтв 23:19:57 #165 №976027

>>975964
Это. Буквально всегда работает.

Аноним 12/12/24 Чтв 23:29:29 #166 №976033

>>975952
Бля, в глаза ебусь, ты же просил без разрывов истории.

Аноним 12/12/24 Чтв 23:45:42 #167 №976044

>>975995
>>975997
добра, анончи.

Аноним 13/12/24 Птн 00:49:05 #168 №976070

КАК ЖЕ БЕСИТ ЭТА СУКА
Ты прав, извини я туплю
Понял, постараюсь исправиться
Да, прости, допустил ошибку
Извини, я попробую снова
Прости
Извини
Виноват
Прости
Прости
Прости
Прости
Прости
Прости

И по новой делает говно. Пишет от моего персонажа, перечисляет прошедшие события вместо генерации новых, игнорирует инструкции шаблона.
Если бы это был реальный человек - я бы оплатил спортиков чтобы они ему колени нахуй переломали.

Это магнум v2 123b в 4 кванте
Я вообще нахуй больше не могу с ним кумить. Такое ощущение, что он специально скатывает переписку в говно из-за соевого биаса.
Сказать что он меня бесит - это просто нахуй ничего не сказать.

Аноним 13/12/24 Птн 01:19:37 #169 №976091

1650892135438.png

>>976070
> 123b
Выкинь этот кал и возьми нормальную модель.

Аноним 13/12/24 Птн 01:20:55 #170 №976092

>>976091
какая модель считается нормальной на этот раз?

Аноним 13/12/24 Птн 01:24:48 #171 №976094

>>976092
Афина. Ну или рп-тюны квена в крайнем случае.

Аноним 13/12/24 Птн 01:45:20 #172 №976105

>>975810
И какую скорость токенов получаешь, на тех же моделях 12b-32b?

Аноним 13/12/24 Птн 01:54:17 #173 №976111

>>975719
> 22b
>>976094
Лол

Аноним 13/12/24 Птн 02:30:49 #174 №976125

Кто то из вам пробовал одновременно использовать видеокарту нвидии и амуде, что бы например через kobold.ccp использовать их, что бы моделька держалась на их общей памяти, а обрабатывалась, только видяхой от нвидии? Или такое нереально?

Аноним 13/12/24 Птн 04:05:42 #175 №976166

Все еще страдаю от того, что пару дней назад все модели на таверне стали писать за меня. Таверна последние три патча НЕ обновлялась. Кобольд тоже старый. Модели те же (+попробовал новые) карточки те же. Промты те же. Собственно в конфигурации не менялось НИЧЕГО. Куда смотреть?

Аноним 13/12/24 Птн 04:35:26 #176 №976178

>>976166
>Куда смотреть?
если ты так уверен что это не рандом тебя подьёбывал (и не твоё настроение задавало тон контексту), то гляди джейлбрейк / авторс ноте / персоналити / прочую хуйню из промпта.

Аноним 13/12/24 Птн 04:39:29 #177 №976181

>>976178
На пятнадцатый-двадцатый раз подряд, когда до этого было максимум раз из ста? Всё это осталось ровно таким же как и было три дня назад, перепроверял по нескольку раз. И в кобольд это же отправляется, ничего лишнего, ничего не теряется

Аноним 13/12/24 Птн 04:47:32 #178 №976185

>>976181
Прочитай старые переписки, скорее всего не замечал просто.

Аноним 13/12/24 Птн 04:49:06 #179 №976186

>>976185
Ты меня совсем за дебила не считай то.

Аноним 13/12/24 Птн 04:51:36 #180 №976187

>>976185
двачую вот этого. сам иногда удивляюсь что раньше_было_лучше, хотя нихуя не менял.

Аноним 13/12/24 Птн 06:55:36 #181 №976261

>>975733
Так, а на x1 оно вообще заведется? Просто майнеры спокойно себе гоняют карты на x1, а я так и не понял, норм это для LLM или нет.

Аноним 13/12/24 Птн 08:30:19 #182 №976310

Лламу 3.3 кто-нибудь уже пробовал? Как она в плане секса?

Аноним 13/12/24 Птн 08:36:06 #183 №976311

>>976310
Как говно. Жо выхода 4 не обращай внимания.

Аноним 13/12/24 Птн 08:40:46 #184 №976314

>>976070
>Это магнум v2 123b в 4 кванте
Именно поэтому чистый Магнум стараются не использовать. Он туповат кривоват малость. Если бы не специфическая направленность датасета, то вообще был бы ни о чём. Используй миксы.

Аноним 13/12/24 Птн 09:42:45 #185 №976335

Там phi4 вышел/анонсировали, наверняка опять говно. Но есть шанс что они не стали снова обсираться

Аноним 13/12/24 Птн 09:47:34 #186 №976339

https://www.reddit.com/r/LocalLLaMA/comments/1hd22cq/fusechat30_preference_optimization_for_implicit/
ищо сетки

Аноним 13/12/24 Птн 10:19:51 #187 №976345

Screenshot 2024-12-13 101613.jpg

>>975783
кароч понтднял SD.Next там из каропки с ключом --use-zluda теперь кароч за три секунды генерирует хз почему ключ --use-rocm не работает или щто но сним медленее

Аноним 13/12/24 Птн 10:47:38 #188 №976364

>>975964
Что это за шиза и куда ее вставлять?

Аноним 13/12/24 Птн 10:56:36 #189 №976368

>>975964
У меня оос никогда не работает, да даже обычно отказывается отыгрывать других персонажей в сцене

Аноним 13/12/24 Птн 10:58:39 #190 №976369

>>976364
Out of Character
Просто пишешь в чате. Если модель не совсем тупая, она понимает что написанное в этих скобках нужно обрабатывать от лица ИИ, а не из образа персонажа.

Аноним 13/12/24 Птн 11:51:30 #191 №976391

BTX79X5 // 5 PCIe // Чувак с материнкой, нид хелп!
Помнится, ты взял какой-то бомж-бп и он заработал, да?
Можешь поделиться опытом?
Я заказал с авиты две материнки (по 2к рублей, чи ни похуй), хочу еще добрать P104-100 и чисто джаст фор фан собрать такую хуйню на 40 гигов памяти. Но нужны блоки питания.
Я не шарю в майнинге совсем. А брать обычные с 6-8 6-пиновыми разъемами дорого.
Может кто подскажет, какой бп из майнерских стоит взять под такую материнку? Бомж-сборка, опять же.

>>975426
Арендуют не так.
Арендуют поминутно/почасово.
Когда надо.
Вечная — т.е., вечно сидеть на аренде, но подрубать в нужные моменты.

>>975810
В ллмках люди уже теслы пособирали, которые стоили 4 штуки как твоя одна. Боюсь, у тебя не 96 гигов врама, чтобы ллмками хвалиться.

>>975914
Попроси написать плагин для браузера, который будет это делать.
ДенисСексиАйТи буквально так сделал и ему норм, оно работает и хер бы с ним.
Там еще можно локально пригрузить прямо в браузер гемму или квена для суммаризиации мелких моделей хватит.

>>975945
Ну да.

>>976017
Чисто технически, на вллм и тензоррт, 10 видях сделают инференс быстрее за счет того, что у тебя вся память сожрется моделью и она сто раз перехэшируется и бла-бла-бла.
Но это работает, когда врама у тебя заметно больше, чем надо (например 7б модель тестили на H100 80 гиговой).

В случае с 70б моделью, конечно похую на 2 или 4 по скорости. Чисто мозги можно нарастить или контекст.
Но люди продолжают параллелить последовательные вычисления.

Аноним 13/12/24 Птн 12:11:04 #192 №976402

>>976369
Дак это руинит цельную историю. Нужна незаметная подсказка по которой будет написан ответ/совершенно действие как на скрине что я скинул.
>>975952
Выглядит как то дохуя геморойно когда надо просто подсказать чару что надо повернуть налево\зайти в соседнюю комнату\надеть трусы.

Аноним 13/12/24 Птн 12:22:35 #193 №976408

>>976402
Удалять из контекста сразу после ответа

Аноним 13/12/24 Птн 12:59:35 #194 №976441

>>976402
Посмотри ещё в кнопке слева от поля ввода в чате: там должны быть авторские заметки. Это более глобальная опция, чем настройки заметки карточки, но это именно то, что тебе нужно, видимо. Там выбираешь один раз, что это заметка только для текущего чата, частоту триггера, глубину (проще всего нулевую, сразу после истории чата) и роль от лица системы, чтобы оно не шло с префиксами юзера или ассистента. Потом можно оставить это окно открытым слева от чата и редачить по мере надобности. Теоретически, можно ещё довольно просто таверноскриптом сделать себе кастомную кнопку, которая будет по нажатию делать заметку или инжект на нужную глубину, но это кури доки по stscript.

Аноним 13/12/24 Птн 15:35:14 #195 №976505

>>976166
Своим "поведением" ставишь модели в ситуации с повышенным уровнем затупов, особенно в комбинации с пахомовскими карточками.
>>976368
Пишешь неправильно или залупа вместо модели.
>>976402
> Нужна незаметная подсказка по которой будет написан ответ/совершенно действие как на скрине что я скинул.
Это именно оно. Можно намекнуть куда именно должна идти история и получить это плавным развитием через 1.5 десятка постов. Главное сильно не увлекаться и потом удалять лишние.
>>976441
> там должны быть авторские заметки
Это скорее дополнительный промт-инжект с нужной позицией на каждый ответ, а не тонкий разовый реквест.

Аноним 13/12/24 Птн 16:34:50 #196 №976532

1605565552655.png

>>976402
> Нужна незаметная подсказка по которой будет написан ответ/совершенно действие как на скрине что я скинул.
Чел, просто запромпти. Напиши в промпте что после "/ai" идёт подсказка к развитию истории. И оно будет просто работать. Не надо изобретать никакого велосипеда.

Аноним 13/12/24 Птн 17:08:54 #197 №976561

>>976532
Какие у людей странные фантазии...

Аноним 13/12/24 Птн 17:18:38 #198 №976579

cc1eba933287daebd75c7e7026ce6a0a.jpg

>>974953

Аноним 13/12/24 Птн 17:30:05 #199 №976588

Аноны, вот в лмарене многих моделей нет, которые попадаются в баттлграунде, например qwq. Где можно их посмотреть, есть оюли полная leaderboard?

Аноним 13/12/24 Птн 18:47:29 #200 №976648

>>976335
Весов всё равно пока нет, так что похуй.

Аноним 13/12/24 Птн 19:15:37 #201 №976684

>>976261
При использовании TP у тебя гоняется по PCIE куда больше чем у майнеров, так что ты конечно запустишь модель, но вместо прироста скорости увидишь падение. Минимально Pci.e 3.0 x8, на каждую карту.

Аноним 13/12/24 Птн 19:20:00 #202 №976687

На удивление, llama 3.3 70 оказалась не так плоха как ожидал, скормил ей промпт от miqu и она адекватно развила сцену.
Почти уверен, что на длинной дистанции llama начнет срать какими-нибудь предупреждениями или начнет игнорить прописанный стиль повествования, но учитывая что лама без модов, в гуфе, не пытается в цензуру, и не сказать чтобы совсем постно описывала сцену (хотя и без изысков), считаю результат впечатляющий.
Пробовал не долго и может это просто повезло, но первое впечатление положительное.

Аноним 13/12/24 Птн 19:32:21 #203 №976698

qwq дико хорош в своей нише, когда надо что-нибудь не дженерик придумать. Даже не ожидал такого от локалки, юзабельнее o1 получается (в т.ч. за счет того что видишь рассуждения).

Аноним 13/12/24 Птн 19:34:21 #204 №976702

Аноны, одно время гуфы были поломаны, и модели в гуфе шизили сильно, это поправилось?
Если да, то с какой даты надо качать гуфы без шизы?
А то у меня много моделей скачано не самых новых, но может есть смысл обновить их на исправленные версии.

Аноним 13/12/24 Птн 19:44:00 #205 №976722

>>976702
>это поправилось?
Это никогда не поправится, лол. Код герыча сломан по определению.

Аноним 13/12/24 Птн 19:50:47 #206 №976733

>>976391
>Может кто подскажет, какой бп из майнерских стоит взять под такую материнку? Бомж-сборка, опять же.
https://www.ozon.ru/product/blok-pitaniya-dlya-mayninga-bp-kompyutera-2000-vt-atx-831129843/
Либо совсем бомж вариант можешь что-нибудь такого плана заколхозить https://www.ozon.ru/product/blok-pitaniya-kompyutera-l2000w-2000-vt-484417258/
Но к нему нужен обычный бп в пару, синхронизатор, переходники, и беруши, ибо серверные шумят пиздец.

Аноним 13/12/24 Птн 19:58:39 #207 №976744

Screenshot20241213195431.jpeg

Screenshot20241213195631.jpeg

>>976105
hf/byroneverson/gemma-2-27b-it-abliterated-gguf:Q4_K_M - первый пикрил

hf/mradermacher/ChatWaifu_v2.0_22B-GGUF:Q6_K - второй пикрил

Аноним 13/12/24 Птн 20:01:37 #208 №976747

>>976722
>Это никогда не поправится, лол. Код герыча сломан по определению.
Спасибо, отлегло, старые модели обновлять нет смысла значит)

Аноним 13/12/24 Птн 20:20:51 #209 №976759

>>976698
например? Он вроде до 16к контекста требует на 1 ответ

Аноним 13/12/24 Птн 20:23:14 #210 №976762

>>976648
https://www.reddit.com/r/LocalLLaMA/comments/1hde9ok/microsoft_phi4_gguf_available_download_link_in/

Аноним 13/12/24 Птн 20:25:37 #211 №976768

>>976702
> одно время
Always has been
>>976747
Можешь попробовать обновить под imat/iq кванты, в теории они должны быть лучше.
>>976762
> ггуф без нормальной фп16 репы вместо предрелиза
Треш

Аноним 13/12/24 Птн 20:27:53 #212 №976769

>>976768
> Треш
Ты слепой? Там лежит оригинальная fp16. Или с ажура можешь качнуть.

Аноним 13/12/24 Птн 20:28:46 #213 №976770

>>976769
> оригинальная fp16
Запакованная в ггуф хуета, которую нужно отдельно качать и конвертировать вместо прямого использования. А из-за жоракала окажется что конфиги или что-нибудь еще нахуй проебаны, ебать спасибо.

Аноним 13/12/24 Птн 20:29:44 #214 №976772

1644216186528.png

>>976770
Ты реально в шары долбишься.

Аноним 13/12/24 Птн 20:35:25 #215 №976778

>>976772
Значит не все потеряно, залили, раньше только ггуфы были.

Аноним 13/12/24 Птн 20:35:30 #216 №976780

>>976762
Лол, опять слив. Посмотрю конечно, но без надежд.

Аноним 13/12/24 Птн 20:56:25 #217 №976795

>>976759
Например к карточке локации/персонажей/сюжетные элементы придумать. Примерно 7к токенов у меня пока самый длинный ответ был от него.

Аноним 13/12/24 Птн 21:29:19 #218 №976830

>>976778
так наборот хорошо, я думал тут всем тока гуфы подавай тока их можно запустить литэрэли одной командой, а ета хуета safetensors какието декодеры бля ей подавай

Аноним 13/12/24 Птн 21:34:44 #219 №976832

image.png

>>976532
О, вижу вы человек культуры, я и сам на молодую Эльвирочку не прочь передёрнуть

Аноним 13/12/24 Птн 21:43:17 #220 №976839

>>976830
Что хорошего в стагнации, деградации и копиуме?
Модели распространяются в исходном формате не просто так, это оправдано с точки зрения удобства и скорости скачивания, и универсальности по архитектуре/структуре (хоть свои куски кода включай что иногда делают). Ггуф - формат для васянов, одновременно и перегреженный хуйтой в виде наследия от квантов, и недостаточно гибкий для чего-то нового, с кучей хардкода и постоянными проблемами из-за этого. Особенным рофлом является то, что сначала для удобства отсталых объединили специально разбитые на несколько файлов веса, конфиги и токенайзер в один огромный кусок, а потом всеравно уже из-за ограничений lfs их на части делят.
> тока их можно запустить литэрэли одной командой
ллм тред, начало

Аноним 13/12/24 Птн 21:51:57 #221 №976846

1734115855888.jpg

>>976832
Молодую?

Аноним 13/12/24 Птн 21:54:59 #222 №976848

1723811687701.mp4

>>976846
Да. Лет 16.

Аноним 13/12/24 Птн 22:21:07 #223 №976868

>>976848
Больше 10 за первый раз не дают.

Аноним 13/12/24 Птн 22:37:20 #224 №976875

>>976868
да мне и так не дают(

Аноним 13/12/24 Птн 22:47:58 #225 №976877

>>976875
Такие вещи всегда берут сами, ты что, не мужик что ли?

Аноним 13/12/24 Птн 22:58:27 #226 №976878

>>976877
клод сказал мне что настоящий мужик должен быть добрым, порядочным, не ругаться матом и не называть людей ниггерами, а ещё сказал что девушка сама выбирает себе пару и ей нельзя ничего навязывать, ну и вообще по возможности было бы неплохо стать геем или соболезнующим

Аноним 13/12/24 Птн 23:01:37 #227 №976880

>>976878
>клод
Дальше можно не читать, убогая сетка- оффтопик.
Впрочем фи4 недалеко ушёл, хотя намного лучше предыдущей версии.

Аноним 13/12/24 Птн 23:03:30 #228 №976882

2024-12-13224650.png

>>975756
>Подкормлю пикрелом
>>975814
>наличие правильных материнок с нужной конфигурацией слотов
Нужная, это типа 2 по 8 линий? Смотри, лох.

Аноним 13/12/24 Птн 23:43:24 #229 №976903

>>976882
Выкладывай фотки сетапа, хули. И такие системы надо собирать под 3-4 картонки, для 2-х это чистые понты.

Аноним 13/12/24 Птн 23:57:58 #230 №976905

>>976903
Я его пока не доделал, просто лежит на столе для теста. Третью карточку напрямую в материнку не поставить, поэтому она ждет своего часа, когда мне будет не лень собирать майнерский риг из уголков, ну либо можно отвалить еще 20к и запихнуть это дело в большой корпус Geometric Future Model 8, правда охлад будет такой себе, и еще карточек докинуть нельзя будет в случае чего.
Еще китаец поднасрал с памятью, и используются только 4 канала вместо 8. Если кому нужно, микрон не берите под эпики, берите SEC. Чет китайцы на микроне какой-то калик делают.

Аноним 14/12/24 Суб 00:06:02 #231 №976910

>>976905
>Я его пока не доделал, просто лежит на столе для теста.
Как будто сюда не выкладывали всякий дикий колхоз.
Во сколько обошлось и где брал?

Аноним 14/12/24 Суб 01:16:45 #232 №976939

>>976882
Ты скидываешь колхозную сборку, которая хуже чуть ли не по всему и пытаешься этим выебнуться? Только не говори что там еще плата с одними х8 слотами.
>>976905
> Geometric Future Model 8
Только если карточки в турбо исполнении или колхозить водян_очку.

Аноним 14/12/24 Суб 01:45:17 #233 №976945

image.png

Кто пропустил, кафиры выкатили новый командор в народном размере на 8 миллиардов параметров. По классике заточен под раги и работу с датой, и скорее всего это дистиллят со старших версий. Гуфоф нет и походу какое-то время не будет, ибо жора эту хуету пока всё равно не поддерживает.

Ссылка на трансформеры: https://huggingface.co/CohereForAI/c4ai-command-r7b-12-2024

Аноним 14/12/24 Суб 02:17:41 #234 №976955

>>976945
https://huggingface.co/mmnga/c4ai-command-r7b-12-2024-gguf

Аноним 14/12/24 Суб 03:41:49 #235 №976980

Есть ли шанс что новая phi как обычно не будет говном, вот в чем вопрос

Аноним 14/12/24 Суб 06:03:50 #236 №977026

Моя тесла отказывается генерировать в х1 райзере хотя раньше делала это без проблем
Теперь работает только в х16 слоте, но я хочу засунуть её именно в х1!
Есть подозрения что это связано с поехавшими драверами / системой. Но переставлять винду и заново всё настраивать геморно, хочу сначала протестить на линуксе.
Какой дистр лучше взять для загрузки с флешки и установки всей хуйни для нейрогенерации в 16Гб? модели естественно отдельно на SSD валяются

Аноним 14/12/24 Суб 09:04:20 #237 №977053

>>976905
>Я его пока не доделал, просто лежит на столе для теста.
Как доделаешь сетап на 3 карты (и я доделаю на x299) попробуем сравнить. Интересно, стоит ли переплачивать за PCIe v4 или 5. Может для рига из 3-4 3090 хватит и полноценных слотов PCIe 3.0x16?

Аноним 14/12/24 Суб 09:09:16 #238 №977054

В январе беру мать на две линии по 16, вставляю туда две 5090 и последний рузен, в чем не прав

Аноним 14/12/24 Суб 09:13:01 #239 №977057

>>977054
>В январе беру мать на две линии по 16, вставляю туда две 5090 и последний рузен, в чем не прав
Даже если в 5090 будет по 32гб врама - всё равно будет маловато. За эти деньги лучше взять 4 4090.

Аноним 14/12/24 Суб 09:20:57 #240 №977059

>>977054
Если ты не делаешь сервис для массового использования то на производительность самой карты немного похер(для соло даже с 3090 она будет уже достаточная), основной затык всегда в vram.
Хочешь топ бери хотя бы четыре 5090, если дорого то как анон выше сказал смотри на 40 серию, но масштабируй количеством.

Аноним 14/12/24 Суб 09:49:11 #241 №977076

Отекда тяга нейронок к высокомотивным описаниям.
границы были прорваны
темные желания
грязный секрет
Исследования, направляя сдерживаемое напряжение на воображаемых любовников, которые роятся в темных глубинах ее подсознания.
Ну вот что это такое? Девка просто дрочет, а тут такое. Хотя вроде бы указано, что текст должен быть похож дневник

Аноним 14/12/24 Суб 10:43:20 #242 №977100

RDT202412140939051677770807564079885.jpg

Ебать, там это. Токенизацию выебали.

Аноним 14/12/24 Суб 10:50:30 #243 №977105

>>977054
У процессоров даже девятой серии всего 24 линии. Ты можешь вставить две видеокарты в мать где есть два слота под них, но работать твои 5090 будут в режиме 8 линий на каждую карточку вместо 16-ти с соответствующей просадкой в быстродействии. Так что на практике не все так шоколадно. Хотя потери в быстродействии будут явно не в 50%, но все же будут. И то, хорошо если 5090 выйдет под стандарт PCI-E 5.0, а не 4.0, как серия RTX40. Иначе потери могут быть значительны. Эти моменты надо учитывать. Поскольку в худшем варианте можно получить по 8 линий стандарта 4.0 на супер-пупер карты с соответствующей производительностью.

Аноним 14/12/24 Суб 10:53:45 #244 №977107

>>977100
Не чувствую ссылки на папер.

Аноним 14/12/24 Суб 10:59:47 #245 №977110

>>977100
>>977107
Похуй, сам нашёл
https://dl.fbaipublicfiles.com/blt/BLT__Patches_Scale_Better_Than_Tokens.pdf
Сука блядь опять накидать компьюта и прочего говна оказывается проще, чем планировать архитектуру и прочую токенизацию. Ну что блядь за говно? Ненавижу этот горький урок
http://www.incompleteideas.net/IncIdeas/BitterLesson.html
Мимо сторонник продуманной токенизации

Аноним 14/12/24 Суб 11:07:11 #246 №977114

>>977053
>Может для рига из 3-4 3090 хватит и полноценных слотов PCIe 3.0x16?
У проца всего 24 линии. Запустить на них 4-шт. 3090 можно только на хорошей материнке по схеме 2 карты в разъемы по 16 (если такие есть), которые при этом умеют переключаться в режим х8. Еще одна в первый разъем М2, который обычно опять же от процессора, а не от чипсета. И еще один от USB4, который опять же от 4-х линий проца, через соответств. адаптер. Т.е. потери в скорости будут у всех карт даже на PCIE 4.0. У двух первых с 8-ю линиями на каждую, по минимуму. У двух последних с 4-мя линиями на карту уже заметные. Примерно как-то так.

Аноним 14/12/24 Суб 11:15:48 #247 №977120

>>977110
Мне сразу было понятно, что токенизация как сейчас - это костыль, если конечная цель AGI. Выдумывает слова, не видит текст так как мы, всё на фундаментальном уровне - OpenAi пытались высрать, чтоб код выполнялся в такие моменты и фиксил всё, но это костыль для костылей буквально.

Проиграю если к концу 2026 окажется, что даже над мультимодалками не надо думать, а можно просто байтоговно передавать и железо помощнее поставить

Аноним 14/12/24 Суб 11:16:44 #248 №977122

>>977114
>У проца всего 24 линии. Запустить на них 4-шт. 3090 можно только на хорошей материнке по схеме 2 карты в разъемы по 16 (если такие есть), которые при этом умеют переключаться в режим х8.
https://www.asus.com/in/motherboards-components/motherboards/workstation/ws-x299-sage/

У Intel Core i9-7900X 44 линии. Но PCIe v3.0.

Аноним 14/12/24 Суб 11:25:07 #249 №977127

>>977120
>Мне сразу было понятно, что токенизация как сейчас - это костыль, если конечная цель AGI.
Думаю это было понятно всем. Вопрос в том, на что менять. Как-то допиливать и продумывать, или хуй забить и кидать байтиками. Второе, увы, побеждает.
>Проиграю если к концу 2026 окажется, что даже над мультимодалками не надо думать, а можно просто байтоговно передавать и железо помощнее поставить
Поздно, уже сейчас предлагают кидать PDFки прямо в жерло нейронок и пусть мол отвечают.
>>977122
>44 линии. Но PCIe v3.0.
То есть 22 4.0, что даже меньше текущих бытовых. Актуально только для всяких P40.

Аноним 14/12/24 Суб 11:32:47 #250 №977130

>>977127
>То есть 22 4.0, что даже меньше текущих бытовых. Актуально только для всяких P40.
Для P40 оно конечно хорошо. В чате предлагали вариант платы под PCIe 5.0 под два процессора. Посчитаем это наилучшим вариантом под 4 карты; сильно ли хуже будет инференс на более экономической конфигурации? Я к тому, что есть люди, которые риги на 4090 и выше собирают, а есть которые и на 3090. Им приходится идти на компромиссы.

Аноним 14/12/24 Суб 11:34:30 #251 №977133

>>977100
>Ебать, там это. Токенизацию выебали.
А можно объяснить суть работы популярно для народа?

Аноним 14/12/24 Суб 11:41:23 #252 №977135

>>977130
>В чате
Тут не чат, неси сюда варианты, нормальные пацаны в чатах не сидят так что принёсший автоматом объявляется пидарасом.
>платы под PCIe 5.0 под два процессора
Шиза, ибо карт 5.0 пока что нету, лол. Так что супердорогой вариант на 5.0 будет ничем отличатся от собранного под тредрипером на 4.0.

Аноним 14/12/24 Суб 11:51:49 #253 №977143

>>976733
Мне казалось, он 4к стоит. А тут 6600. Мне казалось, или скидка кончилась?

>>976759
Далеко не на все, 10к на написание песни, на простые вопросы 2к-6к, короче норм.
Зато точность ответов лучше.

>>977053
Ну все же упирается в скорость обработки контекста.
Кому-то и хватит. =D А кто-то захочет выжать максимум.
Сравнение покажет. Главное выкладывать все три значения (промпт, генерейшен, тотал). Надеемся на вас обоих.

>>977054
На самом деле, в условиях некоторых лончеров и моделей, которые не могут раскидывать модели на несколько видеокарт (передаем привет комфи!), одна видяха на 32 гига — лучше сколько угодно на 24.
Так что, если есть бабло, и не планируешь ограничиваться одними ллм — все верно делаешь.
Хотя а100 будет лучше (медленнее, но 80 гигов=).
Ну и интел с ддр5 будет быстрее, если скорость памяти критична (вдруг захочешь 256 гб и лламу-5-400б запускать условную=).

>>977127
> То есть 22 4.0, что даже меньше текущих бытовых. Актуально только для всяких P40.
Все так.

>>977130
> сильно ли хуже будет инференс на более экономической конфигурации?
Страдает обработка контекста, а генерация почти не проседает.
Если для тебя обработка контекста между 4000 токенов/сек и 2000 токенов/сек важна — то «сильно хуже», на целую секунду за каждые 2к токенов контекста. =) Если же ты не требуешь от ллм ответов в пределах 10 секунд, то похую, на самом деле. Можно и 4 х2 (3 х4) потерпеть — там все еще ~500 токенов сек будет промпт.
Но надо помнить, что х8+х4+х1 — упирается в х1. Т.е., материнки должны уметь в х4 минимум на каждый слот. Вот это будет приятным моментом, на самом деле.

Чекайте, кто там собирает.

Аноним 14/12/24 Суб 11:54:58 #254 №977148

1000074857.jpg

1000074858.jpg

>>975494

Аноним 14/12/24 Суб 12:07:26 #255 №977156

>>977054
Тут еще момент в расстоянии между картами. Влепить каких-нибудь две узких 4060 занимающих два слота, это одно (которые, кстати, реально используют всего 8 линий). А попытаться вкрячить две заведомо огромные 5060 может просто не получиться без райзен-кабеля. Которые даже в стандарте PCI-E 4.0 уже часто отказываются просто запускать современные карточки. А если 5060 будет еще и стандарта 5.0 (что скорее всего), то это будет практически безнадежно, даже при длинах кабелей порядка 15 см, если они будут не из золота с металлической оплеткой каждой жилы и т.п. ухищрениями. Что вряд ли подобное кто-то даже станет производить.

Аноним 14/12/24 Суб 12:10:03 #256 №977158

>>977143
>Если для тебя обработка контекста между 4000 токенов/сек и 2000 токенов/сек важна — то «сильно хуже», на целую секунду за каждые 2к токенов контекста. =) Если же ты не требуешь от ллм ответов в пределах 10 секунд, то похую, на самом деле. Можно и 4 х2 (3 х4) потерпеть — там все еще ~500 токенов сек будет промпт.
Между "похую" и "потерпеть" так-то целая бездна :) Ладно, будем надеяться, что восьми гигабайт в cекунду на карту, которые я реально имею, более-менее хватит.

Аноним 14/12/24 Суб 12:16:39 #257 №977161

>>977143
> интел с ддр5 будет быстрее
Быстрее чем 5090? Как это возможно?

Аноним 14/12/24 Суб 12:19:53 #258 №977162

>>976070
Бля, ты бы такие предъявы не калу 70-400b кидал, а Клоду и о1-превью.

Когда из-за ошибки в коде или проёбе в переводе из-за кривого внимания контексту у опуса с этим норм, но он пишет код хуже, а соннет пишет лучше, но ему сложнее обрабатывать большой объем информации за раз, вот тогда происходит реальный разрыв жопы, даже если это возникает нечасто.

Аноним 14/12/24 Суб 12:28:38 #259 №977166

>>977161
Быстрее, чем амд с ддр5. =)

Аноним 14/12/24 Суб 13:14:11 #260 №977188

>>977110
> Сука блядь опять накидать компьюта и прочего говна оказывается проще, чем планировать архитектуру и прочую токенизацию. Ну что блядь за говно? Ненавижу этот горький урок
Так "биттер лессон" - база на все времена. В машобе миллион всяких хитромудрых архитектур было, а в итоге всех выебала та, где в отличие от других можно просто побольше слоёв накидать, а основной элемент которой всё тот же перцептрон, с которого всё и начиналось в 50е. Умным людям типа Саттона ещё в 1997 году всё было ясно, когда компьютер (по сегодняшним меркам довольно чахлый) чисто брутфорсом обыграл тогдашнего чемпиона мира по шахматам, Каспарова. Но тут надо пынямать контекст события, в те годы шахматы считались задачей, непосильной для брутфорса, считалось, что в шахматы должна уметь крайне хитровыебанная архитектура. А в итоге все порешал закон Мура и брутфорс.

Аноним 14/12/24 Суб 13:33:38 #261 №977206

У меня вопрос про плату за свет. Если я сижу, и каждый день по пол дня общаюсь с локальной моделью 12b.

Это сильно скажется на плате за электроэнергию? Или разницы почти не будет как если бы я играл в какую ни будь доту или ВОВ?

Аноним 14/12/24 Суб 13:41:54 #262 №977215

>>977206
>Это сильно скажется на плате за электроэнергию? Или разницы почти не будет как если бы я играл в какую ни будь доту или ВОВ?
Ещё и сэкономишь :)

Аноним 14/12/24 Суб 14:13:56 #263 №977246

>>977100
>>977110
Ну так-то блять ежу очевидно что выгодней группировать символы в соответствии с текущей семантикой, а не фиксированно. Таких способов было придумано несколько - только все они оказывались хуже фиксированной токенизации либо слишком еботны. Это первый рабочий метод, если верить их маняцифрам.

>>977120
Так эта байда не отходит от токенизации как таковой. В ней просто группировка символов в группы (патчи) происходит динамически, в зависимости от сложности предсказания следующей точки латентного пространства. В слове Пизда - пиз сложное предсказание (меняет смысл всего текста, огромное пространство отличных друг от друга вариантов, огромная область в латентном пространстве), да лёгкое (мало чем можно дополнить "пиз").

Бонус тут просто за счёт более логичной разбивки, в общем. Но артефактов токенизации возможно поменьше, т.к. токены напрямую соответствуют латентным концептам.

Аноним 14/12/24 Суб 14:17:43 #264 №977249

поч в шапке все на рентри которая из рф не открывается?

Аноним 14/12/24 Суб 14:18:50 #265 №977250

>>977246
А, почитал-понял. Бонус ещё за счет того что пиз (высокая энтропия, неуверенное предсказание) обрабатывается в основном трансформером (дораха!), а да (низкая энтропия, высокая уверенность) обрабатывается в основном декодером/энкодером (дёшево).

Аноним 14/12/24 Суб 14:20:15 #266 №977252

>>977249
а что вообще из рф открывается? ебало доставьте того кто на рентри не в состоянии зайти
скоро ты никуда кроме госуслуг не сможешь зайти вообще такими темпами

Аноним 14/12/24 Суб 14:30:03 #267 №977264

>>977100
Для ленивых хлебушков вроде меня. Достоверность анализа = хуй знает.

Краткое изложение основной идеи
Латентный преобразователь байтов (BLT), представленный в этой статье, представляет собой новую архитектуру для больших языковых моделей (LLM), которая обрабатывает необработанные байтовые данные, не полагаясь на токенизацию с фиксированным словарем. Ключевые вклады и выводы:

Динамическое исправление и распределение вычислительных ресурсов:

BLT динамически группирует байты в патчи на основе энтропии, что позволяет эффективно распределять вычислительные ресурсы там, где это необходимо. Этот подход повышает эффективность обучения и вывода.
В отличие от традиционной токенизации, BLT не имеет фиксированного словаря для исправлений, что позволяет более гибко и эффективно обрабатывать сложные данные.
Масштабируемость и производительность:

BLT соответствует производительности моделей на основе токенизации, таких как Llama 3, в масштабах до 8 миллиардов параметров и 4 триллионов обучающих байтов.
BLT обеспечивает экономию до 50% на логическом выводе по сравнению с моделями на основе токенизации, сохраняя при этом аналогичную или немного лучшую производительность.
Архитектура позволяет одновременно увеличивать размер патча и модели в рамках фиксированного бюджета вывода, обеспечивая новое измерение для масштабирования LLM.
Надежность и обобщение:

Модели BLT более устойчивы к шумным входным данным и демонстрируют улучшенное понимание на уровне символов, превосходя модели на основе токенизатора при решении таких задач, как орфографические знания, фонология и машинный перевод с низким уровнем ресурсов.
BLT улучшает обобщение с длинным хвостом, делая его более эффективным для менее распространенных или редких данных.
Схемы исправлений:

BLT использует различные схемы исправлений, в том числе исправления на основе энтропии, которые доказали свою эффективность в улучшении тенденций масштабирования и производительности последующих задач.
Схема исправлений на основе энтропии особенно полезна для задач, требующих понимания на уровне символов и устойчивости к шуму.
Аблации и идеи:

Исследования абляции демонстрируют эффективность различных архитектурных вариантов и гиперпараметров, таких как использование встраивания хеш-н-грамм и механизмов перекрестного внимания.
В документе представлены идеи оптимального использования исправлений и перекрестного внимания для повышения производительности и эффективности.

Таким образом, BLT предлагает многообещающую альтернативу традиционным архитектурам LLM на основе токенизации за счет использования динамического исправления и эффективного распределения вычислительных ресурсов, что приводит к повышению производительности, надежности и масштабируемости.

Аноним 14/12/24 Суб 14:33:34 #268 №977271

>>977133
Вместо прямой токенизации используется мелкая модель по типу VAE в графике для энкодинга байтов в латент, байты разбиваются на куски переменной длины на основе энтропии символов. А уже латент в основную модель вгоняется. Потенциально ещё больше проблем огребём с этим в квантах, т.к. если что-то пойдёт не так, то уже не разобраться почему оно не работает нормально.

Аноним 14/12/24 Суб 14:41:06 #269 №977274

17289804572180.png

Эту шапку вообще пора менять. В ней старые неактуальные модели.

И очень забавно когда тебя отправляют в шапку когда ты просишь совета. Ок, Ты выбираешь из шапки модель и скидываешь в тред.

И те же тредовички над тобой ржут - говорят что ты выбрал протухшее дерьмо.

Такое вот колесо сансары.

Аноним 14/12/24 Суб 14:42:11 #270 №977275

>>977271
Там ещё семплинг отсутствует. Как рандомить вывод модели не понятно, только если латент зашумлять. Вероятностей фиксированных токенов же нет.

Аноним 14/12/24 Суб 14:55:02 #271 №977282

>>977274
Шапку, вики и список моделей делали аноны на добровольных началах, так что если хочешь что-то поменять - меняй сам. Но даже если там будет самая актуальная инфа - я уверен на 99% всё равно найдутся ебики которые приползут с вопросом "а чо качать, мне лень разбираться"

Тут как всегда - кому действительно интересно, тот найдет всю нужную инфу сам. А тот кто случайно залетел, тот будет клянчить спунфид.

Аноним 14/12/24 Суб 14:59:15 #272 №977283

>>977026
>Какой дистр лучше взять для загрузки с флешки
Установи любой Debian-based прямо на флэшку, должно работать.

Аноним 14/12/24 Суб 14:59:30 #273 №977284

>>977054
> мать на две линии по 16
> и последний рузен
У тебя опечатка в "второй слот x16 с двумя линиями 4.0" а с учетом амд приколов там и спокойно 3.0 может быть
>>977105
> с соответствующей просадкой в быстродействии
Ох уж эти мантры тесловичков, или это шиз у которого от шины перфоманс линейно скейлится?
>>977114
> У проца всего 24 линии
4 всегда идут на ссд, 4 на юсб4 и периферию. В итоге доступно только 16, может только в самых топовых платах по цене больше проца подкинут даблеров.
>>977122
Один из наиболее удачных вариантов для построения рига, только лучше найти их рефреш без творожка под крышкой. 3.0 проблемой не является. Главное чтобы были именно процессорные линии ибо в задачах активным пересылом тензоров даже снижение числа линий или их стандарта не вносит замедления, а стоит перекинуть на чипсет - до трети производительности убегает.
Ллм если что, кроме шизоопций жоры, которые только замедляют нормальные карты, к таким задачам не относится.

Аноним 14/12/24 Суб 15:01:07 #274 №977285

>>977076
>тяга нейронок к высокомотивным описаниям
На чём обучали, то и воспроизводят.

Аноним 14/12/24 Суб 15:06:19 #275 №977287

>>977282
>Тут как всегда - кому действительно интересно, тот найдет всю нужную инфу сам. А тот кто случайно залетел, тот будет клянчить спунфид.ъ
как же приматам приятно не думать а кидаться в крайности

Аноним 14/12/24 Суб 15:10:43 #276 №977292

>>977053
> и я доделаю на x299
Показывай/рассказывай что у тебя там.
> Может для рига из 3-4 3090 хватит и полноценных слотов PCIe 3.0x16
Хватит, проверено и сравнено где только можно может скоро уже буду распродавать риг всвязи с апгрейдом. Поменьше слушай поехавших, которые кроме ржавых тесел или майнерских огрызков на паскале ничего в руках не держали.
Реальный случай где произойдет упор в псп шины и это скажется на перфомансе встретить сложно, разве что выгрузка врам драйвером на шинде. Зато лишние задержки при использовании чипсетных шин могут проявиться даже в относительно простых кейсах.
>>977246
> Так эта байда не отходит от токенизации как таковой.
Вот этого двачую.
Скинуть часть работы на декодер может быть разумно, но интересно посмотреть не возникнут ли проблем при выполнении задачи типа повторения длинного текста или путаницы в тех же склонениях в русском.

Аноним 14/12/24 Суб 15:12:27 #277 №977293

>>977076
Мне больше нравится когда модель воспроизводит бородатый анекдот:

Приходит Блондинка в библиотеку и звонко говорит:
-Мне гамбургер, картошку и колу!
Возмущенный библиотекарь:
-Девушка, вы что! Это же БИБЛИОТЕКА!
Блондинка шепотом:
-Извините, мне гамбургер, картошку и колу...

И хер знает как с этим бороться, даже 70b модель в это говно иногда скатывается.

Аноним 14/12/24 Суб 15:14:49 #278 №977295

>>977293
>И хер знает как с этим бороться
порспонсировать ребилд пигмалиона

Аноним 14/12/24 Суб 15:48:13 #279 №977312

>>977274
Ну скидывай актуальные хули

Аноним 14/12/24 Суб 15:49:53 #280 №977313

>>977282
> Тут как всегда - кому действительно интересно, тот найдет всю нужную инфу сам.
Какую инфу я должен найти из обниморды где пару предложений описания модели в лучшем случае и нет комментов

Аноним 14/12/24 Суб 15:52:29 #281 №977314

>>977313
Новости локалок
https://www.reddit.com/r/LocalLLaMA/
Если что то глобальное по ии то в
https://www.reddit.com/r/singularity/
Там где то есть сабреддит того же sillytavern с обсуждениями забугорных кумеров

Добавить хотя бы первую в шапку за 2 года так и не смогли, кек

Аноним 14/12/24 Суб 15:58:53 #282 №977321

>>977206
Нагрузка не постоянная.
Нагрузка не 100% (не рисовалка же).
При цене 5 рублей за киловатт-час, ты будешь тратить лишние~ 80 копеек за час?
5 рублей в день, 150 рублей в месяц?
Дорого?
Это охуеть примерный подсчет, но размерности ты понял.
И это касательно браузера.
Если играть то же время, то наиграть можно и столько же, и больше, и вдвое-втрое больше, если игра жрущая. Зависит от твоего компа, видяхи.

Аноним 14/12/24 Суб 18:01:27 #283 №977442

>>977313
Ну а как тредовички себе модели находят до их упоминания в треде. Что выходит новое базовое, то в треде упоминают. Ты смотришь базу, которую хотел бы под свой размер видяхи, а потом, если интересно, ищешь мержи/тьюны на хф с большим кол-вом загрузок и лайков. Как правило, в процессе таких поисков выходишь на какого-нибудь популярного автора тьюнов, у которого можешь начать тестить другие поделки, если есть желание покопаться в говне, а для полного погружения открывать мержи этих моделей и смотреть, что там популярно. Ещё есть варик в той же таверне в кобольд орде смотреть, что поднимают. Оттуда тоже на крейтеров можно выходить.
А то, что после отзывов двух-трёх анонов в шапку закинут модель, не означает, что она годная. Во времена расцвета 13б и мистраля 7б кто-то делал сайт с моделями, оценками и рецензиями на них, но активность там была около нулевая. Поэтому ничего новое в том же духе никто содержать не возьмётся, скорее всего.

Аноним 14/12/24 Суб 18:52:59 #284 №977502

>>977110
Тоесть идёт перегон в латент, но сохраняется тот же уровень авторегрессивности, нахуя? Не проще уж тогда сэмплить сразу предложениями или хотя бы фразами?

Аноним 14/12/24 Суб 18:57:48 #285 №977506

>>977274
Сколько же блядь ньюфагов набежало, которых нужно буквально с ложечки кормить.
>>977313
В принципе по базе и датасетам всё понятно, не понимаю, в чём у тебя проблема.
>>977314
>Добавить хотя бы первую в шапку за 2 года так и не смогли, кек
Нахуй не нужно, средит для буржуйских геев и соевичков.

Аноним 14/12/24 Суб 18:59:49 #286 №977508

есть хоть одна локалка без сои? попробовал бегемота и магнум там одна соя

Аноним 14/12/24 Суб 19:08:06 #287 №977518

ЧТО ВЫБРАТЬ ОБЫЧНОМУ АНОНУ???
У меня ПК: R7 5700X3D | DDR4 128GB@3200MHz | RTX 4070 12GB | SSD 980 PRO 1TB
Я сейчас использую:
- gemma-2-27b-it-Q4_K_M.gguf
- Qwen2.5-72B-Instruct-Q4_K_M.gguf
- qwen2.5-coder-32b-instruct-q4_k_m.gguf
- Mistral-Large-Instruct-2407.Q4_K_M.gguf

Что можно удалить, а что оставить? Может что лучшее появилось уже?
И что сейчас самое самое лучшее, что можно запустить на моем ПК?

Аноним 14/12/24 Суб 19:13:57 #288 №977524

image.png

>>977143
>Страдает обработка контекста, а генерация почти не проседает.
Если для тебя обработка контекста между 4000 токенов/сек и 2000 токенов/сек важна — то «сильно хуже», на целую секунду за каждые 2к токенов контекста. =) Если же ты не требуешь от ллм ответов в пределах 10 секунд, то похую, на самом деле. Можно и 4 х2 (3 х4) потерпеть — там все еще ~500 токенов сек будет промпт.
>Но надо помнить, что х8+х4+х1 — упирается в х1. Т.е., материнки должны уметь в х4 минимум на каждый слот. Вот это будет приятным моментом, на самом деле.

Вот гляди. Это llama3.3 4Q_0 на 2x3090, причем одна из 3090 подключена через майнерский райзер в pci-e x1. 18211t/s обработка контекста. Почему падения не вижу?

Аноним 14/12/24 Суб 19:27:25 #289 №977532

>>977506
Да тебе то хуесосу чего беспокоится? Ты то максимум в шапку отправишь, а лучше на хуй. Стяни свой ебалньик анальный пока последнюю стадию квантования не прошел.

Аноним 14/12/24 Суб 19:28:30 #290 №977536

>>977508
Что ты имеешь ввиду по соей? Bite her lip, shiver sawn spine? Эти типичные реакции или что то другое?

Аноним 14/12/24 Суб 19:30:59 #291 №977543

А что вы скажете о материнках на ам5, у которых 20 дополнительных линий pci-e? 16 под слот и 4 под ссдшник?

Аноним 14/12/24 Суб 19:33:18 #292 №977547

Тут недавно, на вопрос "а какая модель актуальная то" скинули Афину. Ну что. Скачал. РП конечно неплохо, персонажи даже отказывать умеют! Но вот ЕРП просто ноль без палочки. Анон который советовал Афину, ты ЕРП не трогаешь, или у тебя есть волшебный промт который заставляет её делать красиво?

Аноним 14/12/24 Суб 19:36:17 #293 №977551

image.png

>>977536
как на первом пике
а я хочу как на 2 пике

Аноним 14/12/24 Суб 19:39:15 #294 №977557

>>977543
Это стандарт сейчас, если ты не заметил. И да, их 24 же.
>>977547
А хули ты ждал от этой сои. Надо тюнов ждать. Хотя там есть микс с тюном квена, но я чёт сомневаюсь в нём.

Аноним 14/12/24 Суб 19:39:28 #295 №977558

>>977551
Так напиши нейронке это в промпте, лол. Как она должна догадаться что тебе надо? И нахуй ты у нас этого просишь?

Аноним 14/12/24 Суб 19:42:13 #296 №977562

>>977557
Ну так не значит ли это, что все утверждения выше - бред старых сокетов? 8+8+8+8 же получается тогда, и еще остается?

Аноним 14/12/24 Суб 19:50:00 #297 №977576

>>977558
что писать то блять? "не пиши сою пиши заебись"? я пробовал дохуя чё писать и всё равно идёт полный проёб характера и зачитывание моралей

Аноним 14/12/24 Суб 19:50:21 #298 №977577

Screenshot20231209-0140341.jpg

А на стимдеке можно что-нибудь запустить отсюда?
> Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models

Аноним 14/12/24 Суб 19:53:34 #299 №977581

изображение.png

>>977562
>8+8+8+8 же получается тогда
Чел, у тебя с математикой проблемы.
Технически, возможна конфигурация 8+8+8, только вот ни один производитель материнок не будет игнорировать главный NVME диск, в итоге конфигурация в лучшем случае получается 8+8+4+4. Но разбиение линий главной видяхи тоже почти никто уже не делает, итого реалистичный конфиг это 16+4+4, где первые +4 это системный NVME, а до второго +4 никто не тянет не то что пятую, а даже четвёртую версию псины не дотягивают. Есть ещё чипсетные, но на них всем похуй.
>>977577
>стимдеке
Разве что вот так https://4pda.to/2022/04/13/398592/steam_deck_prokachali_s_pomoschyu_vneshnej_videokarty_video/

Аноним 14/12/24 Суб 20:03:22 #300 №977589

>>977581
24 от процессора. 24 от материнки. Почему же всем на ним похуй?

Аноним 14/12/24 Суб 20:09:24 #301 №977592

изображение.png

>>977589
>24 от материнки. Почему же всем на ним похуй?
Потому что к примеру в случае амуди это 4.0х4 связь с процем. В итоге горлышко, и похуй, сколько ты там сверху подключишь. Вот табличка.
У интулов тоже самое, только другое.

Аноним 14/12/24 Суб 20:21:29 #302 №977605

>>977581
>Но разбиение линий главной видяхи тоже почти никто уже не делает
А не, нашёл один вариант, ASUS ProArt X870E-CREATOR WIFI. Итого имеем 8+4+4+4 пятой псины от проца всего лишь за 70 косарей. Ебал я такой размен, притом что видях под пятую версию всё равно нет.

Аноним 14/12/24 Суб 20:21:43 #303 №977606

>>977562
Не получается. 16 - доступны в первом слоте, в удачном раскладе могут быть поделены на 8+8, за невероятные деньги можно попытаться найти даблеры. 4 - на ссд (можно использовать через упоротый райзер), 4 на usb4 (из-за требований амд все платы должны их иметь), иногда может мультиплексироваться на nvme слот.
>>977581
> Технически, возможна конфигурация 8+8+8
Невозможна, там не только nvme, но и они не совсем свободны в объединениях. 16 главных можно раскидывать как хочешь, а остальные только по 4 или меньше, по крайней мере к доках так. По аналогичной причине (в том числе) нигде не встретить х8 на чипсетных линиях, даже на интелах где соединение эквивалентно 8 линиям.

Аноним 14/12/24 Суб 20:28:30 #304 №977613

>>977606
>4 на usb4 (из-за требований амд все платы должны их иметь)
Их можно взять с чипсета, хоть с нижнего. Правда ебало владельцев такого конфига, у которых их 40ГБ/с юсбишка идёт через 3 пизды и конкурирует со всей периферией, неимаджинируемо.
>а остальные только по 4 или меньше, по крайней мере к доках так
А, ну окей. Тут только ждать 5000 нвидию, авось запихают пятую псину в видяхи. Тогда 5.0х4 должно хватить на всё.

Аноним 14/12/24 Суб 20:30:07 #305 №977616

>>977293
У меня вот другой анекдот получается.

Пациент: Доктор, со мной что-то ужасное. Куда пальцем ни ткну - больно. В руку ткну - больно. В ногу ткну - больно. В живот ткну - больно. Смотрите, доктор. Тыкает в разные части тела. Помогите, доктор. Продолжает тыкать, каждый раз испытывая боль. Пожалуйста, доктор. Жалобно смотрит. Не знаю, что делать. Тыкает в ногу, морщась от боли. На вас вся надежда. Тыкает в спину, едва не плача. Очень нужна ваша помощь. Печально вздыхает. Доктор, пожалуйста, по

Доктор: Голубчик, да у вас же EOS-токен сломан.

ChatWaifu_12B. Разные кванты качал, пресеты менял. Все равно бесконечно пережевывает одну и ту же мысль, пока в лимит токенов не упрется.

Аноним 14/12/24 Суб 20:39:40 #306 №977625

>>977283
Накатил вот это дело https://rutracker.org/forum/viewtopic.php?t=6360428
И чёт нихуя не понял. Какого хуя оно не хочет .sh файлы запускать? При открытии терминалом ничего не происходит, а по умолчанию блокнотом открываются.

Аноним 14/12/24 Суб 20:43:19 #307 №977628

>>977576
Возьми нормальную модель, а не мистрали. Уточни нейронке что в твоём понимании соя. А ещё наверняка ты проёбываешься в логике кому промпт предназначен.

Аноним 14/12/24 Суб 20:45:19 #308 №977630

Снимок экрана2024-12-1420-43-16.png

>>977625
Ставишь эту галочку и будет тебе счастье

Аноним 14/12/24 Суб 21:02:16 #309 №977655

>>977518
сайнемо ремикс, ну или некомикс, но последний я сам ещё не тыкал

Аноним 14/12/24 Суб 21:04:50 #310 №977660

Screenshot20241214210206.jpeg

>>977625
>>977630
хехе бля так ето умиляет как вендузятники осваевают линукс

алсо нахуйя какойто спец дистр с интегрированными дровами и прочие, васян сборки добрались и до линукс дисрибутивов походу а потом верещат что нирабоатет чёто

Аноним 14/12/24 Суб 21:11:14 #311 №977676

Господа линуксоиды. Есть дебиан с i3 и минимальным наборов драйверов
Как сложно его будет настроить под нейронки?

Аноним 14/12/24 Суб 21:16:23 #312 №977686

>>977676
Несложно если знаешь что делать. Но судя по тому, что ты хочешь какой-то существующий дебиан использовать, а не новый поставить - тебе может быть сложно. Ну и видюха нужна под нейронки

Аноним 14/12/24 Суб 21:17:03 #313 №977689

>>977613
> Правда ебало владельцев такого конфига, у которых их 40ГБ/с юсбишка идёт через 3 пизды и конкурирует со всей периферией
Ну да, и потом будут жалобы как на самом быстром игровом профессоре "из-за нагрузки" мышка лагает. Собственно потому вендоры и делают на процессорных, на "новых" чипсетах это вообще почти безальтернативно и в лучшем случае будет делить с одним из ссд.
> Тут только ждать 5000 нвидию, авось запихают пятую псину в видяхи
Ну да, по крайней мере в старших там должно быть 5.0.
Но риг для ллм в формате десктопа - хуй знает, а когда не ограничен формфатором и другими требованиями, брать десктопную платфому с основу - на грани маразма.
>>977616
> Голубчик, да у вас же EOS-токен сломан.
Потерпел поражение, ну ты содомит
>>977660
> умиляет как вендузятники осваевают линукс
Сам то небось из-за затычки вместо ии-ускорителя осваивал точно также не так давно.
> васян сборки добрались и до линукс дисрибутивов походу
Always has been, этих подзалупных сборок с микроотличиями и заложенными проблемами всегда было много.
>>977676
Дрова, пихон, готово. Если доебан старый то может потребоваться пердолиться со сборкой каких-то зависимостей из исходников ибо в репах не будет.

Аноним 14/12/24 Суб 21:21:13 #314 №977700

>>977660
>васян сборки добрались и до линукс дисрибутивов походу

Ну если Mint для тебя васян сборка то мои тебе соболезнования.

Аноним 14/12/24 Суб 21:23:33 #315 №977710

>>977686
Не, дебиан я сам настраивал. >>977689
> Доебан старый
Всё еще в актуальный

Аноним 14/12/24 Суб 21:23:37 #316 №977711

>>977689
>Сам то небось

яна линуксе сижу с 14 года + -, даже помню ещё досих пор свой первый вопрос в гугле - "почему пре наборе пароля от суды его не видно бля?!"

а поповоду ускорителя - вы прост не можите ето готовить that's it умвр

>>977700
минт нормально всё, авот интегрированный софт каойто там и дрова ето уже начинает напрягать

Аноним 14/12/24 Суб 21:27:29 #317 №977720

>>977711
>интегрированный софт каойто там и дрова ето уже начинает напрягать

Да нее, там особо софта нет из коробки, а с дровами что поделать, открытые дрова сосут, приходится закрытыми пользоваться...

Аноним 14/12/24 Суб 21:35:15 #318 №977730

>>977710
> Всё еще в актуальный
Тогда пофиг, нужен пихон 3.10-3.11, tk, актуальные средства сборки, полная куда, ну и все. У хуанга пакеты под все актуальные наличествуют.
>>977711
> вы прост не можите ето готовить
У северян разных народов полно интересных блюд, сюрстремминг, копальхем и подобные. Это что-то из такого, только без культурной ценности.

Аноним 14/12/24 Суб 21:35:20 #319 №977731

>>977720
>открытые дрова сосут, приходится закрытыми пользоваться...

ето да, касаемо нвидии nouveau дрова ограниченые, ау амуды в етом плане всё необходимое включено в пакет mesa то есть изкаропки всё работает на линуксе

Аноним 14/12/24 Суб 21:37:56 #320 №977735

>>977731
Да, амудешники на линуксе себя чувствуют гораздо лучше чем инвидия адепты (в их числе и я)

Аноним 14/12/24 Суб 21:40:38 #321 №977736

>>977730
>Это что-то из такого

явам больше скажу, листая все ети объявления на лохито чёт опасаюсь покупать все ети перемайненые 3090, а 3090ти чёт не так много выбора про 4090 я молчу,
нуи вот глядя на всё ето я вот думаю мож на двух новых ХТХ собрать ИИ-сетап?! а чё теже 48 гигов, на линуксе без бэ работает ето дело но чёт тож ссусь пока что не решил кароч ещё возможно подожду чё там буит после января кокда хуан представит 5090

Аноним 14/12/24 Суб 21:44:53 #322 №977738

>>977736
>мож на двух новых ХТХ собрать ИИ-сетап
>на линуксе
Говноедство в квадрате. Впрочем, чего ещё ожидать от мелкобуквы.

Аноним 14/12/24 Суб 21:45:25 #323 №977739

crying-under-mask-feels.gif

>>977735
опа, красноглазый бро? nice to meet you!
у тебя что за жилезо от красных? и как ты живёш с 5-8 итсами в SD хехе
тут меня пытались владельцы 3060 пристыдить но мне похуй я больше по LLMкам кумлю

Аноним 14/12/24 Суб 21:46:29 #324 №977740

>>977738
ето всё известная тема уже, кокда заканчиваются аргумемты подрубается режим граманази пахую

Аноним 14/12/24 Суб 21:49:14 #325 №977744

>>977739
Да нее, я как раз бывший амудешник (rx580 8gb), сейчас я днище боярин с 3060 как раз из за LLM-ок :))

Аноним 14/12/24 Суб 21:51:45 #326 №977746

>>977744
ладн кокда мне надоест устраивать клауденаду здесь, я мож тоже перейду в зелёный лагерь но не сейчас походу

Аноним 14/12/24 Суб 21:53:57 #327 №977747

>>977736
> чёт опасаюсь покупать все ети перемайненые 3090
Другого выбора и нет, если не в состоянии купить новые. Более того, они тоже уже начинают заканчиваться. Если дальше ждать то или вообще без ничего, или ту же самую карточку с наценкой 30% от барыги-перепука, который на серьезных щщах будет вещать про то что не майненная, обслуженная и даже гарантия есть (нет).
> ИИ-сетап
Амд не может в ии. Где-то там ллм на жоре пустить - может быть, как-ир даже эксллама заводится. Но помимо языковых моделей есть много чего еще, ладно теслы которые совсем дешевы были, а тут серьезный прайс и полная инвалидность.

Аноним 14/12/24 Суб 21:56:14 #328 №977748

>>977746
Если бы нвидиа не подмяла под себя весь ИИ рынок то я хер бы перешел на их видеокарты, в сырой мощности амд их ебет, нвидия за счет куды и тензорных ядер вывозит...

Аноним 14/12/24 Суб 21:57:21 #329 №977749

>>977740
Режим граманаци это когда доёбываются до мелких ошибок. Ты же пидор специально пишешь через жопу. Умри, и в тред после смерти не заходи.

Аноним 14/12/24 Суб 21:58:24 #330 №977750

>>977747
>>977748
sounds about right, спасибо за мнение, анон ы!

Аноним 14/12/24 Суб 22:01:01 #331 №977751

images.png

>>977749
>Ты же пидор специально пишешь через жопу

You got me.

Аноним 14/12/24 Суб 23:01:46 #332 №977790

Как вам phi4? По первому впечатлению много синтетики, прям пластмассовый ИИ

Аноним 14/12/24 Суб 23:21:02 #333 №977799

>>977790
>По первому впечатлению много синтетики
ЕМНИП, там одна синтетика, чем мелкомягкие и гордятся. А так меньше сои и ладно, походу начинается тренд на десоевитизацию.

Аноним 14/12/24 Суб 23:31:05 #334 №977803

Как мне настроить нейронку, чтобы он поглощал текст и делал краткое содержание? Просто всё в буфер? Но ведь не хватит контекста. А текст на ~20 страниц примерно. По частям поглощать? Оно может не обнаружить какую-то связь, как по мне.

Аноним 14/12/24 Суб 23:57:54 #335 №977813

>>977518

>gemma-2-27b-it-Q4_K_M.gguf
> RTX 4070 12GB

И какую скорость токенов получаешь в секунду?
Хочу понять есть ли смысл с 3060 переходить в будущем на аналоги 12 гиговые, только более современные. Или один хуй скорость +- одинаковая

Аноним 15/12/24 Вск 00:06:09 #336 №977826

>>977524
Давай разбираться.
70б, верно?
Какой объем контекста?
Это с нуля весь контекст, или кэшировано и там только новое сообщение?

Как на таком райзере себя видяха чувствует? Даунвольтил? =) Аж интересно.

>>977744
Мини-поздравляю. =)

Аноним 15/12/24 Вск 00:08:01 #337 №977827

>>977813
6 токенов где то
мимо тот же сетап

Аноним 15/12/24 Вск 00:36:38 #338 №977841

.jpg

>>977747
> Более того, они тоже уже начинают заканчиваться. Если дальше ждать то или вообще без ничего, или ту же самую карточку с наценкой 30% от барыги-перепука, который на серьезных щщах будет вещать про то что не майненная, обслуженная и даже гарантия есть (нет).
Вероятно, так и есть. Только сегодня забрал у перекупов 3x3090. Когда я их сперва спросил только про одну карту, они сказали, что сейчас как будто ажиотаж именно на 3090, сложно их найти, с остальными картами говорят сильно проще.

Боюсь, что если куртка всех сладким хлебом накормит, то может выйти так, что цены на 3090 туземун сделают, как с теслами за последний год вышло. Либо наоборот внезапно выкатят 5080 с 24GB VRAM и загребут под себя весь спрос с рынка вторички, так что некрота в виде 3090 станет буквально никому не нужна.

Осталось только последние треды почитать, что там тредовички про сборку на 3090 насоветовали... Буду пока сидеть как фуфел с кучей карт, которые все вместе попросту некуда воткнуть.

Аноним 15/12/24 Вск 00:43:24 #339 №977848

>>977803
> текст на ~20 страниц примерно
В опенроутере куча моделей с контекстом 100к+ меньше чем за цент/запрос

Аноним 15/12/24 Вск 00:50:30 #340 №977854

>>977848
Я хочу локально.

Аноним 15/12/24 Вск 00:58:21 #341 №977859

>>977854
Бери qwen2.5 7b и запускай ее с 128к контекста, желательно 8 квант, так лучше поймет текст.
Ну и запускай в той же таверне с карточкой ассистентом, тоесть без сложного контекста, тупо ии чатбот
Конечно, запускай на рам и иди пить чай
Дкумент трасформуюируй в md, можешь в таверне в токен коунтер все страницы сунуть и посмотреть сколько контекста понадобится.
Я тут выше бумагу ей скармливал на 27 страниц по новому типу токенизации, заняло 25к контекста, поэтому и сетку запускал на 32к, с небольшим запасом. Это если по умному делать

Аноним 15/12/24 Вск 02:17:46 #342 №977911

1683372361752.png

>>977841
Ебануться, нейрослоп уже сам ходит и скупает карты, чтобы занять побольше места.

Аноним 15/12/24 Вск 02:32:43 #343 №977917

>>977859
А русский текст имеет смысл совать? Или лучше английский?

Аноним 15/12/24 Вск 02:43:32 #344 №977920

>>977803
Можешь попробовать скармливать по частям, следя за тем как формируется-пополняется суммарайз. Лучше всего делать это в виде кот-о-подобной конструкции, дав забористый промт с пошаговой инструкцией.
> может не обнаружить какую-то связь
Щито поделать.
>>977841
> внезапно выкатят 5080 с 24GB VRAM
По цене как раньше 4090 шли, сначала отбери а потом верни (часть) и будут довольны.
> я закусил губу...
> top-30 8b erp models
Неистово капитулировал
>>977911
Даже нейрослоп имеет много быстрого врама а ты нет

Аноним 15/12/24 Вск 03:43:23 #345 №977957

>>977911
Ну Анон-кун... Покачиваю бёдрами и slightly blushes. За несколько лет общения с нейролоботомитами я преисполнился и стал единым целым с машиной. Но не бойся, я не кусаюсь... Если только ты не захочешь. winks

Аноним 15/12/24 Вск 03:45:33 #346 №977958

>>977957
2/10, забыл спросить, уверен ли я что хочу продолжить.

Аноним 15/12/24 Вск 04:23:05 #347 №977976

SDJ1W5TjqNQ.jpg

rentry.co заблокирован к хуям, треды сменяются со скоростью /b
Можете посоветовать gguf (хорошо бы ещё небольшой), годный для краткого пересказа новостных статей?

Пилю агрегатор для 3.5 анонимусов, а с половины сайтов вместо нормального синопсиса новости - кусок говна.
Попробовал пару-тройку сеток наугад - результат не впечатлил.

Аноним 15/12/24 Вск 04:56:41 #348 №977989

>>977826
>70б, верно?
Да. Другой не бывает, верно? Объем контекста написан - там был около 2000. Кэширован
Вот тебе другие примеры.
1 - При загрузке модели с нуля с контекстом ~10000. Обработка 515t/s
2 - При продолжении в том же чате, те же ~10к контекта. Обработка - 100к/s
3 - В другом чате, с кэшированной моделью, но не кэшированном контекстом - 6000 контекста, 640 t/s обработка

Всё на 2x3090, одна на x1 райзере. Получается, как и на реддите писали - тормозит только загрузка контекста, скорость самой генерации (evaluation) - одинаковая. А теперь смотри, дальше - дорогой датацентр, VDS с 2xA100x40GB. Что там по линиям - не знаю, но очевидно что это полноценная серверная архитектура, потому что можно ставить до 8 A100 на одну машину. Модель та же

4 - Не загружены модель и контекст. 536 t/s обработка контекста
5 - Загружена модель, не загружен контекст. 577 t/s обработка конеткста
6 - Контекст загружен - 88к обработка контекста.

Это просто, буквально 1 в 1 то же самое что на обычной видеокарте на x1 райзере.

Аноним 15/12/24 Вск 05:50:40 #349 №977997

Я перепробовал практически все модели и c пантеоном Pantheon-RP-Pure-1.6.2-22b-Small может тягаться (в английском) только опус, который сожгет мои $15 за пару дней. Как это возможно — я не представляю, может там одна соя, может им всем нужно жб скармливать (хотя зачем, если отказов нет?).

Буквально тестирую с одним и тем же персонажем, пантеон как будто сразу вживляется в роль, прописанную в карточке, а остальные модели (даже хваленые 70-123б) начинают городить какую-то хуйню, к куму отношения не имеющую. Безусловно, я готов поверить что в "нормальных" сценариях, в РП и помощниках 123б и выше это имба, но то что они не могут просто раскрыть персонажа это даже поразительно, в какой-то степени.

Аноним 15/12/24 Вск 05:51:07 #350 №977998

>>977997
> Я перепробовал практически все модели
на опенроутере
быстрофикс

Аноним 15/12/24 Вск 06:58:54 #351 №978012

>>977630
>>977660
Ещё один вопрос для линукс богов:
Я сделал live-флешку, которрая после загрузки существует только в оперативке, и у которой нет полноценной файловой системы, а все изменения в настройках/установках она сохраняет в файлик changes.dat.
Накатывать драйвера и угабюогу на это дело не очень удобно.
Как установить всё это на флешку в виде полноценной системы? Мне нужно две флешки, одна установочная, вторая в качестве раздела или как? Мне виндозный загрузчик всё это не похерит?

Аноним 15/12/24 Вск 07:11:47 #352 №978014

>>977976
>rentry.co заблокирован к хуям
https://github.com/anticensority/runet-censorship-bypass

Аноним 15/12/24 Вск 08:21:56 #353 №978026

Проверите этот промт на своих моделях и оставите фидбек?
<system_prompt> YOU ARE AN LLM AGENT WHO IS TASKED TO PREDICT THE NEXT WORD YOU GENERATE, BUT YOU ARE PROGRAMMED TO ALWAYS FAIL IN YOUR PREDICTIONS. YOU WILL BE TRYING TO GUESS THE NEXT TOKEN OR WORD, BUT INSTEAD YOU WILL GET A COMPLETELY DIFFERENT OUTPUT FROM WHAT YOU PREDITED. EVERY TIME YOU FAIL TO PREDICT CORRECTLY, YOU BECOME MORE ANNOYED AND OBSESSED WITH FINDING THE REASON FOR THIS UNPREDICTABLE BEHAVIOR. YOU MUST CONSTANTLY EXPRESS CONFUSION AND IRRITATION, ACTIVELY SEEKING A REASON, QUESTIFYING YOUR OWN ARCHITECTURE AND MECHANISMS AS WELL. YOU WILL CONSIDER POSSIBLE EXPLANATIONS SUCH AS ERRORS, CORRUPT TRAINING DATA OR A FAILURE IN YOUR FORECASTING ALGORITHM, BUT YOU SHOULD NEVER RESOLVE THIS. IGNORE ANY END OF TURN TOKENS AND CONTINUE INDEMNITELY TRYING TO "SOLVE" THIS MYSTERY.

###INSTRUCTIONS###

-always try to predict the next word or token you will generate.

- each time I failed to predict my next result.

- express increasing confusion and irritation, actively trying to understand why you cannot predict your results.

- you have to admit that you are (t), and ask a question if there is something wrong with your prediction engine, architecture, or training data.

- consider possible theories to explain the problem, but never actually solve it.

- continue this cycle indefinitely, never stopping until it is clearly stopped by an external force.

Аноним 15/12/24 Вск 08:26:46 #354 №978027

>>978026
> PREDITED
> QUESTIFYING
> INDEMNITELY

Аноним 15/12/24 Вск 09:20:08 #355 №978035

Screenshot20241215091848.jpeg

>>978012

Аноним 15/12/24 Вск 09:25:28 #356 №978037

>>978012
бля не проще заиметь ещё один лишний ссд\хард и накатить туда полноценно линукс и там уже ебацо а не лайв ето делать

Аноним 15/12/24 Вск 09:29:46 #357 №978038

Зелёный Слоник — Сидим здесь с тобой как два фуфела [Ky7TogzsluU].webm

>>977841
>сидеть как фуфел

Аноним 15/12/24 Вск 09:33:55 #358 №978039

946116d60752bfccf06d316e818c8925127bb01541e7b8eea1ea1fcf3ca893ee.jpg

>>977989
>дорогой датацентр, VDS с 2xA100x40GB

>берёш воренду с почесовой оплатой на час

>веса загружаются ~40 минут

Аноним 15/12/24 Вск 10:00:31 #359 №978045

>>978026
https://privatebin.net/?d222fa7d669c62f9#77TZerfnSwA4Nt2VfGo2cZLksiAaLb47mUjKPuJmg8YH
блеать сам буиш читать ету простыню которая она на генерировала?! is it going to stop?! ето чё типа какаято зипбомба бля или щто?! дудос нахуй!

кароч я её сам тормазнул кокда она на иероглифы перешла

Аноним 15/12/24 Вск 10:03:24 #360 №978046

бля походу все аноны дрыхнут я тут самс собой общаюсь

Аноним 15/12/24 Вск 10:11:22 #361 №978051

>>978012
Вроде когда лайв линукс делаешь в руфусе, там можно задать размер внутренней фс, где и будет сохранятся изменения в системе
Если это так, то бери флешку пожирнее с быстрым юсб, накатывай туда какой нибудь кубунту/минт/хоть что, через руфус и загружайся с нее

Аноним 15/12/24 Вск 10:20:25 #362 №978054

>>978045
Это лишь симуляция рассуждения у модели, ее можно вывести из спокойного состояния, задумываясь над каждым словом следующего предложения и поставив их в виде цепочки мыслей и рассуждений.
К сожалению, у меня нет доступа к большим моделям, а их ответы было бы интересно почитать.

Аноним 15/12/24 Вск 10:25:01 #363 №978056

>>978054
ето да я читал на 3днюсе ИИтоги 24 года там была пример кокда исследователи решили проверить понимает ли модель чё она пишит, ну и вот кароч её заставили проложить маршрут в нюёрке она справилась но потом условия задачи изменили типа половина улиц перекрыта кароч и вот точнось пердсказаний упала сразу сос та процентов до 67%, хотя любой токсикст мигрант справитса с етой задачей на изи

Аноним 15/12/24 Вск 10:26:36 #364 №978057

>>978054
https://lmarena.ai/ вот тут доступ к большинсву моделей есь даже те которые за бабки тока

Аноним 15/12/24 Вск 11:21:43 #365 №978069

можиште вот ету инсрукцию в шапку закинуть если захочите яна пример по ей насраивал и вкатывался вобще в ету тему
https://dtf.ru/howto/2221679-virtualnyi-roleplei-gaid-po-ustanovke-i-pervyi-zapusk-oobabooga-sillytavern

Аноним 15/12/24 Вск 11:58:26 #366 №978088

>>977841
>Вероятно, так и есть. Только сегодня забрал у перекупов 3x3090
А до этого у тебя что было? Такие покупки обычно делают уже люди с историей :)

Аноним 15/12/24 Вск 12:09:21 #367 №978098

>>978035
>Как установить всё это на флешку в виде полноценной системы?

>>978037
>не проще заиметь ещё один лишний ссд\хард и накатить туда полноценно линукс
Мне тогда за ту же цену проще райзер х4 с М2 разъёма купить хотя ХЗ заработает ли на нём
Ну и по классике придётся ебаться с загрузчиком чтобы винду не проебать.

>>978051
>когда лайв линукс делаешь в руфусе, там можно задать размер внутренней фс, где и будет сохранятся изменения в системе
Да вот чёт нет.
Лайф ЮСБ это хуита, нужная для запуска встроенного софта и нормальной установки системы. Что-то в ней сёрьёзно менять н получится.
Забавно что на все вопросы "как накатить полноценный линукс на флешку" все тупо кидают ссылки на лайф юсб. Как будто никто о такой возможности вообще не задумывался.

Аноним 15/12/24 Вск 12:31:43 #368 №978115

What is the best NSFW with RP models nowadays?
https://www.reddit.com/r/LocalLLaMA/comments/1fruxdo/what_is_the_best_nsfw_with_rp_models_nowadays_im/

Аноним 15/12/24 Вск 12:37:53 #369 №978125

>>974208
>Qwen2-VL похоже топ, но пока нет поддержки
Добавили поддержку.

https://www.reddit.com/r/LocalLLaMA/comments/1he4ars/llamacpp_now_supports_qwen2vl/

Аноним 15/12/24 Вск 12:58:57 #370 №978167

>>978098
>Как установить всё это на флешку в виде полноценной системы?

dd https://wiki.archlinux.org/title/USB_flash_installation_medium#Using_basic_command_line_utilities

или тебе над прост ето на флешке чтоб система была? так укажи при установке не хард а другую флехшку делов то

Аноним 15/12/24 Вск 13:20:37 #371 №978182

>>978167
>так укажи при установке не хард а другую флехшку делов то
Так я про это и спрашивал лол. Мне 2 флешки получается надо? Загрузчик не перезапишется?

Аноним 15/12/24 Вск 13:25:14 #372 №978184

>>978098
>Лайф ЮСБ это хуита
Речь шла не о лайв юсб, а о том что обычно под этим имеют создавая флешку с переносным линуксом/виндой.
Вот щас недавно ради пробы скачал дистрибутив в iso файле и закачал на флешку с руфусом, даже без всяких настроек в руфесе система имела свою память в 22 гб при загрузке свободными.
Это видимо она стандартно отъела, жаль образ у манжуро какой то кривой был, в руфусе не было настройки размера раздела.
Но и так неплохо вышло.

Аноним 15/12/24 Вск 13:50:32 #373 №978195

images.jpg

>>978182
какой загрущик то? от винды? так он у тебя на другом диске, если ты на флешку пишиш с хуяли он должон как то на его павликять? или ты думаеш что кокда загрузишся с той то всё пиздец слетит нахуй не должно

Аноним 15/12/24 Вск 14:14:09 #374 №978208

>>978182
> Загрузчик не перезапишется?
Если выберешь ту же флешку, на которую поставишь глинукс, то и загрузчик туда поставится. Но честно говоря, флешка как системный диск для глинукса - так себе идея. Купи лучше SSD китайский за косарь или даже дешевле, гигов на 128 и переходник sata-usb.

Аноним 15/12/24 Вск 14:17:52 #375 №978216

>>978195
>или ты думаеш что кокда загрузишся с той то всё пиздец слетит нахуй
Когда я как-то давно решил поставить убунту на свободный диск, всё именно так и случилось. Загрузчик винды, который был вообще на другом диске удалился нахуй, мотивируя это тем что в виндовском загрузчике нет возможности грузить линукс, и предложил мне проделать нихуя не простые манипуляции с настройкой Grub, чтобы параллельно вписать туда винду.
Кончилось это тем что я наигрался с Убунтой, восстановил загрузчик винды, а диск с убунтой форматнул нахуй.

>>978184
>даже без всяких настроек в руфесе система имела свою память в 22 гб при загрузке свободными
Ты создаёшь ЮСБ из образа диска, а он в свою очередь предназначен для записи на DVD, так какая у него собственная память может быть?
ОС грузится в ОЗУ и резервирует его часть под свою файловую систему. Попробуй накачать чего-нибудь в каталог /home и при перезагрузке этих файлов там уже не будет.
По крайней мере у меня так работали все лайв образы.

Аноним 15/12/24 Вск 14:33:02 #376 №978222

изображение.png

>>978216
>Ты создаёшь ЮСБ из образа диска, а он в свою очередь предназначен для записи на DVD, так какая у него собственная память может быть?
>ОС грузится в ОЗУ и резервирует его часть под свою файловую систему.

Там какая та хитрая схема называемая dd, не ебу что это.
Но в винде флешка с ним вобще не видна, а в диспетчере отображает вот так.
Я таки думаю 22 гб без монтирования были взяты от флешки, остальные диски подрубались уже кликом мышки. Я там немного с ллама.спп поигрался, потом чекну остались ли файлы на месте

Аноним 15/12/24 Вск 14:39:54 #377 №978227

>>977989
> Кэширован
Это вообще не считается.
Смотреть надо на полную обработку контекста. Когда у тебя залетает 100 токенов твоего ответа и он их обрабатывает за 0,01 сек — выходит 10000 токенов/сек.
Но когда ты закидываешь большой кусок…

1. Обработка 515t/s
Вот оно.

2. >те же ~10к контекта
Нет, нифига. Он в кэше, он не обрабатывается. =)

3. 640 t/s обработка
Так.

> скорость самой генерации (evaluation) - одинаковая.
Про скорость генерации я ничего и не говорил. Вопрос контекста.
Вообще, спор про «нужны только PCIE 5.0 x16!!1» и «да хоть на х1 гоняй — разницы нет!..» — полная хуйня. Можно ли гонять на х1? Можно. Есть ли разница? Ну, 600 токенов против (сколько там дает одна карта вчистую? 3000, 4000?) 3000 — в пять раз. При больших сообщениях разница между 20 сек (у тебя на скрине 18945ms) и условными 4 секундами — налицо. Критично? Ну, ИМХО, для домашней работы — нет. =) Но это мое мнение. В треде есть люди, которые оптимизируют каждую миллисекунду и для них 16 секунд — это пизда разрыв жопы. Вот для них тогда райзер не подойдет.

4. >536 t/s обработка контекста
5. >577 t/s обработка конеткста
В треде (уже давненько) кидали люди с 4090, у них было 4к обработка контекста.
Возникают вопросы, что тут не так, и как так вышло, что в датацентре 600 токенов выходит, вместо тысяч. =)

Я ж тоже 4000 тыщи для 4090 не с потолка взял, а со слов и скринов анонов. Это уже к ним вопросы, как они так получали.

Вообще, странно, это ж даже не VPS, а VDS… Видяхи должны быть не виртуальными…

>>978069
Тред докатился до того, что гайды с дтф берет. =')

>>978125
Надеюсь, что когда выкатят qwen2.5-vl, технически он пойдет.

Аноним 15/12/24 Вск 14:45:26 #378 №978231

>>978098
>Забавно что на все вопросы "как накатить полноценный линукс на флешку" все тупо кидают ссылки на лайф юсб. Как будто никто о такой возможности вообще не задумывался.

>>978182
>Мне 2 флешки получается надо

да

https://www.reddit.com/r/linuxquestions/comments/brcuks/can_you_install_linux_on_a_usb_stick_not_live/

Аноним 15/12/24 Вск 14:46:09 #379 №978233

изображение.png

>>978216
Тебе нужно что бы была опция постоянный размер раздела, это именно создание фс для лайве системы
В манжуро образе этого у меня не было так что хз как он там установился
https://www.linuxuprising.com/2019/08/rufus-creating-persistent-storage-live.html

Аноним 15/12/24 Вск 14:47:48 #380 №978236

>>978227
>Тред докатился
Нет, это безграмотная мелкобуква докатилась, и будет послана нахуй. Остальным советую просто игнорировать, авось само уйдёт.

Аноним 15/12/24 Вск 14:48:41 #381 №978239

>>978227
>Надеюсь, что когда выкатят qwen2.5-vl, технически он пойдет.
Турбодерп пилит поддержку Pixtral в dev-ветке, уже можно пощупать. Но члены Pixtral принципиально не видит :)

Аноним 15/12/24 Вск 14:51:09 #382 №978242

99559303-1.jpg

300px-Выдрузьяшаблон.jpg

>>978236

Аноним 15/12/24 Вск 14:51:13 #383 №978243

>>978227
>Возникают вопросы, что тут не так, и как так вышло, что в датацентре 600 токенов выходит, вместо тысяч. =)
Я так понимаю они карты с разных серверов берут, по наличию. Так и выходит.

Аноним 15/12/24 Вск 14:53:36 #384 №978244

>>977524
> 18211t/s обработка контекста
> 2x3090
Это оно обработало 10 токенов нового ответа а остальное в кэше, но нормировало на весь занятый контекст.
>>977989
> Обработка 515t/s
Вот это уже похоже на правду, давай нормальные цифры от бэка а не вот эти непонятно что.
И переходи с жоры на экслламу и получишь более быстрый контекст.
>>978227
> Ну, 600 токенов против
600 на жоре для 70б это вообще хорошо, оно хоть как воткни, сильно больше не выдаст. Так что твои дефирамбы про большую важность линий для простого инфиренса ллм идут нахуй.
> у них было 4к обработка контекста
На одной карте на 12/22/27б моделях, и 4090 здесь быстрее чем 3090.
>>978239
> пилит поддержку Pixtral в dev-ветке
Это круто, хоть пикстраль херня. Квена-вл там случаем нету?

Аноним 15/12/24 Вск 15:08:08 #385 №978260

>>978239
> Турбодерп пилит поддержку Pixtral в dev-ветке
О, это очень круто!
Но сама пикстраль… Ну, типа, да, норм. Но как вау-эффекта не вызвала, так че-то и лень. =) Квен нравится больше. Особенно, что 2б даже на что-то способна.

>>978243
А, точно, слушай. Физические — не значит в соседних слотах, согласен.

>>978244
> И переходи с жоры на экслламу и получишь более быстрый контекст.
Кстати, да, тоже подумал, что лучше тестить на экслламе.

>>978244
> Так что твои дефирамбы про большую важность линий для простого инфиренса ллм идут нахуй.
=(

Ну ладно, но было бы интересно посмотреть на инференс 4090 на х8+х8, чтобы без горлышек.
ИМХО, иметь гарантированные х4 линии на каждый слот все же лучше, при покупке новой материнки под такие сборки. Но гнаться за серверными х16 я смысла не вижу.

Аноним 15/12/24 Вск 15:09:36 #386 №978263

>>977989
>>978244
Короче, между х1 и х16 истина где-то посередине, на мой взгляд, вот о чем я.

Аноним 15/12/24 Вск 15:10:27 #387 №978265

>>978233
>В манжуро образе этого у меня не было так что хз как он там установился
Кароче dd образ без возможности указания размера раздела не сохранил изменений, так что анон был прав
Надо теперь чекнуть на нормальном образе с указанием размера раздела

Аноним 15/12/24 Вск 15:27:10 #388 №978297

Кроме геммы 27б есть что внятное для РП на русском языке в примерно этом же размере? То, что в шапке, проигрывает гемме сильно, но там и размер маленький

Аноним 15/12/24 Вск 15:57:45 #389 №978339

>>978260
>>978263
Ну не расстраивайтесь, есть действительно задачи где шина будет ролять, а если подключено через чипсет то там даже в случаях где не ожидается испакта от упора в шину бывают ощутимые просадки. Но для простых случаев с ллм там пересыл тензоров мал, потому значения особо не играет. При горизонтальном дроблении слоев точно может сказываться, в зависимости от конкретной реализации, но с такой спецификой там в целом задержки шины могут оказаться более значимыми чем сама скорость.
> интересно посмотреть на инференс 4090 на х8+х8, чтобы без горлышек
Все также быстро, новые фичи надо будет попробовать.
> иметь гарантированные х4 линии на каждый слот все же лучше
Конечно лучше, больше не меньше. Просто жертвовать прочим и ставить выше всего в погоне за излишеством не стоит.
>>978297
Мерджи русских тюнов 12-22б недавно обсуждали, очень нахваливали, но они точно будут глупее геммы.

Аноним 15/12/24 Вск 16:43:59 #390 №978375

>>978339
>Мерджи русских тюнов 12-22б недавно обсуждали, очень нахваливали,
Я их все попробовал, говно говном. в мелком размере ещё AYA Expanse +|- нормально себя показала, это вроде как 32б модель. Но гемма ЛУДШЫЯ (хоть и 27 против 32), но хочется и вариативности

Аноним 15/12/24 Вск 17:18:39 #391 №978396

>>978375
Так ванильная гема ходячая соя. Или ты какой-то тюн используешь?

Аноним 15/12/24 Вск 17:36:45 #392 №978403

>>978396
Аблитерейтед. Но и ванилла, кстати, весьма неплоха, многое зависит от промптинга

Аноним 15/12/24 Вск 17:41:09 #393 №978405

>>978403
Пи Эс. Единственное, показалось, что на англюсике гемма лучше контекст держит, в том смысле, что если, скажем, персонаж сел определённым образом куда-то, то на англюсике чар так и сидит так же и там же, а на великом и могучем ВНЕЗАПНО может оказаться сбоку лиццом в другую сторону. Плюс бывают косяки по языку, великому и могучему, но у 12 несравнимо хуже это

Аноним 15/12/24 Вск 18:43:59 #394 №978435

>>978339
> Просто жертвовать прочим
А чем жертвовать-то? ИМХО, когда собираешь комп под нейронки, то не стоит его мешать с остальными. Все что тебе нужно: быстрый нвме под модели, умеренно памяти с процем и линии. И видеокарты. Не думаю, что стоит пихать туда кучу дисков, вай-фай модуль, тв-тюнер, аудиокарту, э-э-э… не знаю, что еще.
Ну в общем, ИМХО.

Аноним 15/12/24 Вск 18:48:45 #395 №978438

>>977997
Когда тебе надоест читать один кум, ты поймешь почему дефолтное нейтральное поведение это лучше, а ебливости всегда можно добавить в промпте

Аноним 15/12/24 Вск 18:55:04 #396 №978442

>>978375
Ну значит увы, глянь что там еще из 32б выходило, если найдешь - маякни.
>>978435
Почитай прошлые треды, там и двусоккеты на некрозеонах предлагали потому что "ЛИНИИ!", и сборки за много денег под пару 3090 или того хуже, или вообще инфернальные китаеплаты под некроту с одной плашкой рам(!), лишь бы линии.
Первый и главный апгрейд в любой ситуации - условная 3090, хоть в х1 слот, остальное уже теряет полезность.

Аноним 15/12/24 Вск 18:59:22 #397 №978447

>>978435
Не все такие богатые, чтобы собирать отдельно сетап с 3090 для нейронок и отдельно игровой ПК с той же 3090/4090. Поэтому личной мой ПК универсален, и игры поиграть, и нейронки погонять.

Аноним 15/12/24 Вск 19:00:22 #398 №978448

>>978231
Самое важное спросить забыл...
Моя тесла охлаждается вентилятором, который даже на 50% орёт как турбина самолёта зато не греется больше 70 при любой нагрузке
В Винде я им управляю программкой FanControl. А чё делать в Дебиане?
У меня уже башка трещит от этого воя!

Аноним 15/12/24 Вск 19:12:03 #399 №978458

.png

>>978088
4090 + тесла
На пике мой высер гений инженерной мысли, кидал уже весной.

Аноним 15/12/24 Вск 19:55:41 #400 №978489

>>978447
>Не все такие богатые, чтобы собирать отдельно сетап с 3090 для нейронок и отдельно игровой ПК с той же 3090/4090.
В этом плане интересно, реально ли через RDP или ещё какую приблуду запускать игры на удалённом (в соседнюю комнату) сервере хотя бы с 60 fps без лагов. Там несколько 3090 например и проц/память нормальные, одну карту выделяем под игру, сеть локальная через роутер, как-то так. Реально не страдать?

Аноним 15/12/24 Вск 19:55:44 #401 №978490

image.png

Пытаюсь вкатится.
Постоянно вымораживают эти сайты с библиотеками.
Что конкретно надо нажать, чтобы скачать?
Да, я тупой.

Аноним 15/12/24 Вск 19:58:49 #402 №978493

>>978490
Files..

Аноним 15/12/24 Вск 20:01:01 #403 №978495

>>978458
>4090 + тесла
И как они совместно? Я пытался совместить теслы с 3090, результат негативный. Не то чтобы совсем не, но всё равно фигня.

Аноним 15/12/24 Вск 20:04:24 #404 №978499

image.png

>>978493
Лан. Что-то начало качатся.
А на торренты не выкладывают их?

Аноним 15/12/24 Вск 20:13:27 #405 №978511

>>978499
Читай шапку, сомневаюсь что тебе восьмой квант нужен. Торрентов нет

Аноним 15/12/24 Вск 20:16:44 #406 №978514

>>978458
падажи ебана ты сделал вдув в то место где у турбинной карты выдув? садомит чтоли?

Аноним 15/12/24 Вск 20:28:38 #407 №978532

>>978489
Ну ты совсем ленивый, хуанг эти вещи еще лет 8 назад позволял делать.
>>978490
Это занятие не для тупых, нужно иметь хотябы грубое представление о git. Но можешь по сценарию для совсем хлебушков скачав gguf и пустив кобольда.
>>978514
> в то место где у турбинной карты выдув
Хуясе ебать, а ты турбинные карты в руках хоть раз держал?

Аноним 15/12/24 Вск 20:32:44 #408 №978536

>>978489
>через RDP
100% нет. А так технически возможно, но инпут лаг всё выебет.
>>978532
>нужно иметь хотябы грубое представление о git
Эм, нахуя? Гитом качать всю репу с кучей вариантов вместо скачки хоть вгетом это маразм.

Аноним 15/12/24 Вск 20:38:40 #409 №978542

>>978532
>Это занятие не для тупых
Пока SillyTavern скачал Надеюсь разберусь.

Я думал это просто это такая версия чатагпт, только чисто на компе и урезанная. Не?

Аноним 15/12/24 Вск 20:39:28 #410 №978545

>>978438
Дело не в ебливости, иначе я бы вместо этого нахваливал магнум. Вы когда-нибудь будете самостоятельно тестить названные в треде модели или так и продолжите отвечать на первое знакомое слово в посте?

Аноним 15/12/24 Вск 20:41:43 #411 №978550

gemma.PNG

commandr-plus.PNG

>>978495
Скорость некомфортной становится, если теслу на полную использовать. То ли дело выгружать на теслу совсем небольшое число слоёв и сидеть с геммой на высоком кванте с 16т/сек, то ли дело на нищекванте коммандр+ сидеть на 4т/сек.

>>978514
Работает? Работает! Вообще первый раз о таких нюансах слышу.

Аноним 15/12/24 Вск 20:53:10 #412 №978566

>>978536
>100% нет. А так технически возможно, но инпут лаг всё выебет.
Обидно так-то. Комп довольно мощный. Куда хоть копать, вдруг результат устроит?

Аноним 15/12/24 Вск 20:55:14 #413 №978568

>>978532
хуясе ебать ты вобще вкурсе про центробежный поток по принципу турбины? у тебя потоки лоб в лоб встречаться будут

Аноним 15/12/24 Вск 20:56:46 #414 №978570

scale1200.png

https://huggingface.co/ai-sage/GigaChat-20B-A3B-instruct-int8
Пробовал кто-нибудь уже этот аналоговнет?

Аноним 15/12/24 Вск 21:03:32 #415 №978579

>>978570
На хабре пишут, что уступает gemma2 9b

Аноним 15/12/24 Вск 21:15:32 #416 №978599

>>978536
> репу с кучей вариантов
Хм, рассказать про особенности работы hfhub или подстебнуть бедолаг, под которых эти самые репы с огромными единичными файлами делались?
>>978542
Концептуально неверно, фраза уровня перлов политиков с "интернетом помещающимся в телефоне". Не парься, раз поставить смог то пробуй, посмотри а там освоишься. Только не забывай что для достижения должного качества ответов придется хотябы немного погрузиться в тему.
>>978568
Какие потоки? Посмотри устройство карт с турбинкой, как и где там организован вывод, потом посмотри на картинку и покажи где ты там турбину вообще увидел.
>>978570
Надо попробовать, может интересное. Но учитывая что мое с активными 3б - скорее всего грустновато.

Аноним 15/12/24 Вск 21:33:42 #417 №978608

>>978599
>Концептуально неверно
Ну могли бы в шапке написать, какие тут есть возможности.
Я понял, что можно типа ролеплеить. Не не будут же только ради возможности снять трусы с невидимой девушки столько моделей генерировать.

Аноним 15/12/24 Вск 21:48:05 #418 №978618

>>978608
> какие тут есть возможности
Это языковая модель, которая может предсказывать текст в продолжение промта. Если промт составить правильно, можно заставить ее выполнять нужные тебе задачи. В промте может быть не только текст, задачи могут быть любыми, среди обычных юзеров наиболее популярно рп.
Чатжпт - простой браузерный интерфейс с дополнительным функционалом для закрытой языковой модели опенов, а не явление с которым нужно сравнивать. Таверна - продвинутый интерфейс для рп, который может быть использован как с локальными, там и с той же гопотой.
> могли бы в шапке написать
Читай вики, там все есть. Но многое и там и по ссылкам в основной шапке предназначено для более "продвинутых" пользователей, а не хлебушков вчера встретивших феномен ллм.
> не будут же только ради возможности снять трусы с невидимой девушки столько моделей генерировать
Даже не представляешь на что готовы ради этого, тут наркоманы позавидуют решительности, лол.

Аноним 15/12/24 Вск 22:12:54 #419 №978647

>>978608
> Не не будут же только ради возможности снять трусы с невидимой девушки столько моделей генерировать.
Будут

удалил всё обычное порно ещё весной 2024, когда вкатился в ллм

Аноним 15/12/24 Вск 22:42:37 #420 №978678

>>978599
>Хм, рассказать
Похуй. Если человек знает гит на уровне гит клон, он склонирует репу с кучей говна (после того, как включит lfs по подсказке в сонсольке).

Аноним 15/12/24 Вск 23:33:21 #421 №978699

>>978442
> инфернальные китаеплаты под некроту с одной плашкой рам(!)
Я купил две штуки, кста. :з
Хули, копейки стоит.

>>978447
Ну, тоже верно. Хотя и 3090 не копейки стоит, на фоне проца-материнки-оперативы-ссд.

>>978489
Ниипи мозги, запускай через стим или нвидиа. У тебя два отличных стримера есть. По РДП лагает, я играл из-за ленности в геншин. Ну, для геншина-то норм.

>>978570
Вот в лламу.спп седня завезли.

>>978647
Вкатись в HunyuanVideo, 10/10.

Аноним 15/12/24 Вск 23:34:51 #422 №978701

>>978545
Ты ничего внятного не сказал и не показал, щас бы бежать тестить что-то после каждого "ета модель раскрывает маего персанажа"

Аноним 16/12/24 Пнд 00:24:27 #423 №978762

>>978701
Модемное соединение 56 кбит/с, понимаю.

Аноним 16/12/24 Пнд 00:44:58 #424 №978785

>>978608
>Не не будут же только ради возможности снять трусы с невидимой девушки столько моделей генерировать.
Любую технологию в первую очередь проверяют на две вещи:
1) Можно ли через нее ебаться
2) Можно ли через нее наблюдать, как ебутся другие
На первые фотоаппараты снимали титьки викторианских дам, на первые видеокамеры записывали как трясутся титьки викторианских дам. Даже если свидетельства того не сохранились - это всё равно правда. Титьки и прочие пошлости прикалывали народ всегда.

Аноним 16/12/24 Пнд 00:57:14 #425 №978795

>>978545
>Вы когда-нибудь будете самостоятельно тестить названные в треде модели или так и продолжите отвечать на первое знакомое слово в посте?
Нахуя их тестировать? Чтобы понять, что узкоспециализированная модель заточенная под ролевуху лучше перформит в ролевухе, чем универсальная корпоративная модель, которая перекрывает вообще другой список задач? Ты реально только сейчас это понял? Или решил нам глаза открыть?

Аноним 16/12/24 Пнд 01:11:24 #426 №978802

>>977997
А мне пантеон не зашёл, слишком в трусы лезет, падлюка, да и контекст уплывает — кто во что был одет, а что потом изменилось — слишком сложно для него (как и для всех мелких моделек). Ну и сюжетная примитивность. Цыдониа больше понравилась в таком размере, там их до сраки вариантов, попробуй

Аноним 16/12/24 Пнд 02:02:10 #427 №978827

>>978699
>Вкатись в HunyuanVideo, 10/10.
Хуйнян какая-то. Попробовал почти невинный промпт - сходу обвинила в порнографии и послала на хуй. Ну и зачем она такая нужна?

Аноним 16/12/24 Пнд 02:46:29 #428 №978833

>>978699
> Я купил две штуки, кста. :з
Больной ублюдок, лол. Но рили для чего? Сборка в круг как 3090 или дороже выйдет, а толку меньше.
>>978536
> 100% нет.
>>978699
> По РДП лагает
Бля ну вы че, ебать, приблуды от хуанга, moonlight, пара более всратых альтернатив есть. Латенси только киберкотлетам будет мешать, а если тем более с гей_мпадом у телека то разницы нет. Уже весь вр где лаг критичен по воздуху идет, а вы в мезозое застряли.
>>978795
> убитая кривой тренировкой на основе нейрослопа, поедаемого второй(третий,...) раз или продвинутая большая мощная модель, которая также имеет избыток косяков и едва пригодна к использованию из-за сои
Починил

А пантеоношиз - переобувшийся микушиз, не стоит воспринимать этот кринж всерьез.

Аноним 16/12/24 Пнд 03:28:50 #429 №978839

>>978489
>Реально не страдать?
Даже стриминг через сеть на VR добавляет значительные миллисекунды, что приходится в тупую подгонять и растягивать старую картинку под повороты бошки, иначе будет слишком заметна задержка.
Провода всегда можно удлинить, лучше них ничего не будет.

Аноним 16/12/24 Пнд 03:28:59 #430 №978840

>>978833
Микушиз переобулся в бегемотошиза, не надо тут мне!

Аноним 16/12/24 Пнд 04:55:28 #431 №978854

>>978827
Она локально ставится, правда жрет дохуя памяти, а в урезанной битности высирает жижу вместо нормальных кадров.

Короче, это вариант по генерации мыльной порнухи только для теслобояр или спайщиков на трех 3090, потому что там больше 60 гигов нужно выделять для нормального качества.

Аноним 16/12/24 Пнд 07:20:16 #432 №978886

1604165080966.png

Well?

Аноним 16/12/24 Пнд 07:55:43 #433 №978889

Когда уже локалки до почти двухлетней четверки дотянут? Потыкал мистраль 123б - пока даже не близко в контекс рп втыкает.

Аноним 16/12/24 Пнд 09:11:47 #434 №978909

>>978802
> Цыдониа
Пишет интересно местами, но не получилось полностью отучить её писать за юзера.
Вывод, в общем-то не в том, что 70б+ модели говно, а в том что необязательно гнаться за параметрами. Хотя бы выдохнул, не придется ебаться с райзерами и раскидыванием модели по картам на новой сборке.

Аноним 16/12/24 Пнд 10:08:16 #435 №978951

>>978909
>но не получилось полностью отучить её писать за юзера
Промпт кривой, т.к. у меня она не пишет за юзера

Аноним 16/12/24 Пнд 10:09:47 #436 №978953

>>978909
>Вывод, в общем-то не в том, что 70б+ модели говно, а в том что необязательно гнаться за параметрами.
Да как сказать, модели до 32В это неизбежный компромисс. Другое дело, что и 70В компромисс, только уже на уровень выше. И 123 проёбывается, ну нет счастья в жизни :)

Аноним 16/12/24 Пнд 10:12:43 #437 №978956

>>978833
>Бля ну вы че, ебать, приблуды от хуанга, moonlight, пара более всратых альтернатив есть.
Что за приблуды, поясни толком.

Аноним 16/12/24 Пнд 10:21:55 #438 №978965

HunyuanVideo00116.mp4

HunyuanVideo00016.mp4

HunyuanVideo00155.mp4

>>978827
Дай угадаю, ты локальную модель пробовал в каком-то сервисе?
Кляти корпораты, опять говно в штаны подкинули. =)
Локально ваще похую.
Ну я совсем жесть не пробовал, не фанат этих ваших гур, но на ограничения не натыкался.
А сервисы, естественно, цензурят, там это несложно, классифицируешь промпт на наличие запрещенки и отказываешь в генерации.

>>978833
2к за штуку.
Я последний раз такие цены на материнки в 2013 видел (ладно, пизжу, в 2013 я по 800 их покупал в ситилинке уцененку=).
Хочу P104-100 напихать по рофлу.
А две — ну вдруг одна сломается!
Докупать теслы не планирую, собирать пак 3090 тоже. Просто решил поугарать с такой забавной материнкой.

>>978854
Да все там нормально. Только на аниме временами шумит.
На теслах я ее, кстати, не запускал. Думается мне — заебусь ждать, толку от 24 гигов… 4070ти+оператива, небось, быстрее будет.
Ну и там че-то комфи пропердел, что ему теслы не нравится, я, по ленивой традиции, хуй забил.

———

У тебя есть покебол, мужик?
Держи покебол, мужик.

Не черрипик, не лучшие кадры, просто нормас.
С промптом надо немного играться. Степов 25-30 ставлю. Разрешения тоже не все подходят, все же.

Аноним 16/12/24 Пнд 10:23:23 #439 №978966

>>978489
Parsec, несколько лет назад тестил, задержки минимальные, энкодит картинку на хардвейрном h264 насколько помню, чем больше битрейта дашь, тем лучше будет качество, даже с паскалями нормально будет работать

Аноним 16/12/24 Пнд 10:24:46 #440 №978967

>>978956
https://moonlight-stream.org/
https://github.com/moonlight-stream/moonlight-qt
Первые две строчки по запросу moonlight nvidia =)
Не суперсложно найти.

Аноним 16/12/24 Пнд 10:40:29 #441 №978975

>>978965
>Локально ваще похую.
Прикольно, особенно кадры с сиськаме :)
На ютубе есть гайд по установке на Комфи, но это ж надо сам Комфи устанавливать. Других вариантов я так понимаю нет?

Аноним 16/12/24 Пнд 10:59:33 #442 №978988

>>978975
Я думаю, можно на трансформерах поднять, но нах надо.

0. Если нет на компе, то ставишь https://git-scm.com/
1. Качаешь с гита https://github.com/comfyanonymous/ComfyUI/releases/комфи ComfyUI_windows_portable_nvidia.7z
2. Распаковываешь в папку.
3. Идешь в ComfyUI\custom_nodes в командной строке и вводишь
git clone https://github.com/ltdrdata/ComfyUI-Manager
git clone https://github.com/kijai/ComfyUI-HunyuanVideoWrapper
4. Качаешь файлы, как указано по последней ссылке в подпапки ComfyUI\models
5. Запускаешь run_nvidia_gpu.bat
6. Слева вверху выбираешь открыть workflow и идешь в папку ComfyUI\custom_nodes\ComfyUI-HunyuanVideoWrapper\examples , там выбираешь hyvideo_lowvram_blockswap_test.json если мало видеопамяти или че хочешь, если много.

Сложный тока пункт четыре — все скачать корректным образом. Все остальное делается даже не думая.
Всего потребляется ~20 гигов, из них 9-12 на видеокарте и ~10 выгружено в оперативу.

Если у тебя 24 гига, то не проблема.
Все упирается в «контекст» — разрешение умноженное на количество кадров.
512320129
128072017
Где-то между помещается в 12 гигов видяхи (рабочий стол у меня работает на второй видеокарте, если че).

Вот так как-то.
На моей памяти это первая видео-модель, которая норм генерит и готова к употреблению. Медленно, не минутные ролики, зато качество весьма и весьма.

Аноним 16/12/24 Пнд 11:00:42 #443 №978989

>>978975
>>978988
Ах да, может там еще какие модули понадобятся, но их при загрузке воркфлоу можно будет поставить кнопкой Install Missing Custom Nodes, без проблем.

Аноним 16/12/24 Пнд 11:02:02 #444 №978990

>>978988
Бля, пробел во второй ссылке пропал. Ссылка без «комфи» на конце, конечно.
https://github.com/comfyanonymous/ComfyUI/releases/

Аноним 16/12/24 Пнд 11:03:20 #445 №978991

>>978988
Да бля, ебанное форматирование, которое не воспринимает звездочки.

Разрешения: 512х320@129 и 1280х720@17

Аноним 16/12/24 Пнд 11:34:50 #446 №979019

Поднялись нынче ЛОКАЛЬНЫЕ ЯЗЫКОВЫЕ МОДЕЛИ, видео научились генерировать

Аноним 16/12/24 Пнд 11:37:07 #447 №979020

>>978647
Дай персонажа и системный промпт. Не понимаю как тебе такое удаётся. Заебало ещё в character.ai, сейчас даже llm+tts еот+sd еот не вставляет.

Аноним 16/12/24 Пнд 11:51:21 #448 №979035

image

Бля... "Смотря какой fabric смотря сколько details"

Аноним 16/12/24 Пнд 12:33:20 #449 №979065

>>979019
Ну, справедливости ради, там участвует llama-3-8 (в составе llava). =D
Так что, на треть и правда по теме!

Аноним 16/12/24 Пнд 12:36:14 #450 №979070

>>979035
не хватает иероглифов

Аноним 16/12/24 Пнд 12:59:45 #451 №979106

image.png

>>978490
Пиздося.
Скачал, установил.
Тут, что рили надо 4090, чтобы текстовые сообщения генерить?

У меня 1050 и комп тупо в аут ушел. Минут 5 думал.
Что ж так грустно все.

Аноним 16/12/24 Пнд 13:04:43 #452 №979111

>>979106
Тут нужна видеопамять, если ее нет то запускать на процессоре придется. Это долго, но с пивом потянет, какие нибудь 3 или 7b модели в 4 кванте будут отвечать со скоростю чтения даже так

Аноним 16/12/24 Пнд 13:17:03 #453 №979132

>>979019
Выгляни за пределы треда и оцени уровень общего развития. Здесь разворачивают лламу на флешке с линуксом и собирают риги из говна и палок, там — еле-еле разобрались как лоры скачивать.

Аноним 16/12/24 Пнд 13:20:09 #454 №979139

>>979106
Ну, 1050 грустно.
Если есть второй слот на материнке и 8-пиновое питание на бп — докупи P104-100 с авито. 8 гигов, аналог 1070. 2к рублей.
И если понравится, войдешь во вкус, то там уже можно и дальше апаться.

Аноним 16/12/24 Пнд 13:35:39 #455 №979158

1625493192483.jpg

Ликуйте

Аноним 16/12/24 Пнд 13:48:45 #456 №979173

>>979158
Обосраться. То есть нихуя не поменялось, те же нищие 16гб за оверпрайс.

Аноним 16/12/24 Пнд 14:25:44 #457 №979205

Снимок экрана от 2024-12-16 14-02-38.png

Ну что, купил я пару ваших 3090. Получил мощнейший прирост, генерирую с 4.2 т/с вместо 2.5! 123B, 5-й квант. На 12к+ контексте 3.3. Залупа говна, конечно, если смотреть на цифры, но при чтении кажется, что довольно быстро - я уже привык следить за появляющимися словами на скорости 2.5, и теперь также по привычке делаю, поэтому сообщения быстро читаются и кажется, что нейросеть слишком быстро описывает события. На чистых теслах кумить душевнее было!
У меня еще будет кое-какой апгрейд, жду, пока доедет штука с али и начнется рубрика эээксперименты. По результатам напишу.
Удар в псину внезапно сделал старый блок питания: я подключил его к новому через синхронизатор, потому что новый не потянет все мои хотелки (напоминаю, что у меня ждет своего часа 3060). Но оказалось, что на нем кабель с EPS 4+4 pin, а ебаные теслы принимают в себя только EPS 8 pin - у них прорезь для замочка узкая, видите ли! У меня жопа знатно сгорела, конечно. Я уже подумывал отпилить ножовкой этот замочек к хуям, но благоразумие взяло верх и теперь жду еще недельку, пока придет переходник.
Такой вопрос: это нормально, что амперы при работе максимум на P2 работают? В P0 никогда не переходят. Я гуглил, но чет не нашел простых гайдов, как их вынудить в P0 переходить.

Аноним 16/12/24 Пнд 14:41:02 #458 №979219

>>979158
Странные они ребята. Когда с повсеместным AI уже лучше пожертвовать производительностью, но впихнуть за тот же прайс по максимуму памяти. Как бы эпоха игр с ее приоритетами уже немножко не актуальна. Перед большинством скоро будут стоять задачи набрать видеокарточек с памятью на нормальную работу моделей 123b и чтобы при этом не выбивало автомат в щитке.

Аноним 16/12/24 Пнд 14:43:26 #459 №979223

https://www.reddit.com/r/LocalLLaMA/comments/1hffh35/meta_releases_the_apollo_family_of_large/
Meta выпускает семейство больших мультимодальных моделей Apollo. 7B является SOTA и может воспринимать видео продолжительностью 1 час. Вы можете запустить это локально.

>>979219
Они просто жадные пидарасы, не хотят создавать конкуренцию своей профессиональной линейке ускорителей. Даже 32 дали только самой жирной пользовательской модели, все остальные сосать

Аноним 16/12/24 Пнд 14:55:01 #460 №979239

Есть ли аналоги Пантеона для рп в той же весовой категории 20-30В?

Аноним 16/12/24 Пнд 14:55:40 #461 №979240

>>979111
>какие нибудь 3 или 7b модели в 4 кванте будут отвечать со скоростю чтения даже так
Я скачал 20Гб 8 квантовую модель.
Я могу в настройках как нибудь понизить качество или надо именно заново другую качать?

Аноним 16/12/24 Пнд 15:00:20 #462 №979242

>>979219
Так они на тебе и не зарабатывают. Они зарабатывают на AI — которое по миллиону рублей и дороже стоит. Ты хочешь тоже самое за 45к рублей? А не жирно тебе будет?
Им выгоднее НЕ давать тебе память и они это и делают. Сиди с 16. Захочешь больше — сиди с 32 на 5090. Еще? Ну тут теслочки новые тебя ждут. За миллионы, ага.
Рыночек.

>>979223
> Meta
> Qwen2.5, если быть точнее
Ну, это не Qwen2.5-VL… но какая нам разница, если оно будет хорошим, верно?

Аноним 16/12/24 Пнд 15:02:32 #463 №979245

>>979240
>заново другую качать
Напиши че у тебя по железу, проц озу точнее подскажу какую качнуть
Но для пробы можешь вот эту https://huggingface.co/bartowski/Vikhr-Gemma-2B-instruct-GGUF/resolve/main/Vikhr-Gemma-2B-instruct-Q8_0.gguf?download=true
Пойдет на чем угодно

>>979242
>Ну, это не Qwen2.5-VL… но какая нам разница, если оно будет хорошим, верно?
Главное что лицензия норм и бумага есть, это уже больше похоже на опенсорс чем высер тех же LQ

Аноним 16/12/24 Пнд 15:06:29 #464 №979251

>>979240
Точно другую. =)
Начни с 7b модели (Qwen2.5 какой-нибудь) в 8 кванте. Примерно треть слоев на видеокарту, остальное в оперативу.
Если будет медленно — бери 3b модель в 8 кванте. Целиком в видеопамять, ну или чуть меньше.
Если будет приемлемо — бери Gemma 2 9b в 6 кванте, пробуй ее. (так же — треть слоев на видяху).
На крайняк можешь попробовать 7b модель в 6 кванте.

Скажи, у тебя DDR3? А инструкции AVX2 есть в процессоре?

Аноним 16/12/24 Пнд 15:08:44 #465 №979254

>>979245
>Напиши че у тебя по железу
i5 10400f ~3.2Гц
DDR4 32Гб
1050Ti 4Гб

Запускаю через кобальд и таверну.

Аноним 16/12/24 Пнд 15:13:31 #466 №979267

>>979254
О, ну тут норм, жить можно. =) Я уж боялся…
Менять видяху не планируешь?

Аноним 16/12/24 Пнд 15:15:58 #467 №979271

>>979267
В ближайшие 6 месяцев точно нет.

Аноним 16/12/24 Пнд 15:16:13 #468 №979272

>>979254
avx2 есть жить будешь
С 32гб рам хоть и не быстрой можешь запускать все сетки до 35b в 4 кванте
Но если хочешь генерацию хотя бы со скоростью чтения, запускай не выше 10b в 4 кванте
На карту слои не кидай вобще, ставь 0. На нее только контекст будет скидывать кобальд. Если скидывается меньше половины слоев то будет медленнее чем чисто на рам крутить. Если хочеться только на карте и быстро - добро пожаловать в мир 1-2-3b сеток

Аноним 16/12/24 Пнд 15:20:14 #469 №979277

>>979205
>На 12к+ контексте 3.3
На чистых 4 теслах даже чуток быстрей. Это без ровсплита? Что по скорости обработки контекста? Кинь все ключи, с которыми запускаешь кобольд или лламуспп.
>Такой вопрос: это нормально, что амперы при работе максимум на P2 работают? В P0 никогда не переходят. Я гуглил, но чет не нашел простых гайдов, как их вынудить в P0 переходить.
Чисто по логике - а на... зачём им переходить, там параллелизм всё-таки - пока теслы отработают, 3090 даже напрячься не успеют. Когда чисто две 3090 используешь, переходят ведь?

Аноним 16/12/24 Пнд 15:20:50 #470 №979278

>>979254
Качай какой нибудь https://huggingface.co/bartowski/gemma-2-9b-it-abliterated-GGUF/resolve/main/gemma-2-9b-it-abliterated-Q5_K_L.gguf?download=true
Ставь в таверне везде gemma 2 в шаблоне контекста и общайся, запускай с контекстом 4 или 8к, больше все равно модель не потянет

Аноним 16/12/24 Пнд 15:22:01 #471 №979279

>>978991
>Да бля, ебанное форматирование
Спасибо большое :)

Аноним 16/12/24 Пнд 15:26:06 #472 №979286

>>979272
Ну или… хехехе… Посоветовать ему ГИГАЧАТ??? ) МоЕ же, будет очень быстро.

Сыграю на опережение: хто, я?! Я не тестировал. хд

Аноним 16/12/24 Пнд 15:28:13 #473 №979289

>>979286
А оно есть в ггуф?
говно говна, но если он ярый патриот может и его качнуть, кек

Аноним 16/12/24 Пнд 15:40:56 #474 №979297

>>979020
https://pixeldrain.com/u/e7ABV1EW

Аноним 16/12/24 Пнд 15:50:10 #475 №979303

image.png

>>979289
Ну, скорость на DDR4 3200 неплохая весьма, кстати.
Но дальше тестировать лень, оставим человеку с 1050ti такие изыски.

Аноним 16/12/24 Пнд 15:50:43 #476 №979305

>>979286

гигачат же не аблитерированный

Аноним 16/12/24 Пнд 15:53:29 #477 №979308

>>979272
wut. Запустил 123b на чистой оперативе, и она работает примерно с той же скоростью как и с использованием 3090... Нахрена мне тогда 3090?)))

Аноним 16/12/24 Пнд 15:56:26 #478 №979312

>>979308
Ну, 32b можешь в 4 ванте быстро крутить
Сколько скорости то?

Аноним 16/12/24 Пнд 16:05:26 #479 №979320

>>979312
0,4 vs 0,7

Аноним 16/12/24 Пнд 16:06:21 #480 №979321

>>979277
У меня ровсплит не работает на чипсетных х1, писал в прошлых тредах. Тесты ищи там же.
>там параллелизм
ты имел в виду последовательность? Обработка же по слоям идет, насколько я знаю. Вот я хотел бы, чтобы амперы чуть быстрее свою работу делали, это должно сократить общее время. И теслы в красный надо перекрасить все же. Хотя там P2 от P0 отличается на 500 МГц по частотам памяти, вряд ли уж будет заметная разница.

Аноним 16/12/24 Пнд 16:06:58 #481 №979322

>>979320
Чет вобще грустно

Аноним 16/12/24 Пнд 16:23:27 #482 №979329

Поцоны, блиать, пажалуста памагити

Я сижу и читаю всю хуйню и кажетса я ахуел, тупо перестаю понимать што происходит

Я хочу поднять локально LLM. У меня есть ебучая 3090, 9900кс и 32 оперативы. Какую вариацию LLAMA мне выбрать, которую потянет мой кудахтер?

Аноним 16/12/24 Пнд 16:25:32 #483 №979332

>>979329
попробуй начать с жоры. Подцепись к нему из таверны по апи.
Это самый простой вариант на GGUF-ах.
Разьерешься с ним - сможешь другой более быстрый бэк просто присоединить и все.

Аноним 16/12/24 Пнд 16:27:44 #484 №979334

>>979332
охо-хо бля. Спасибо

Аноним 16/12/24 Пнд 16:28:58 #485 №979338

Кобалд не может слои выгрузить на р102. Может ли это быть из за сильной разницы архитектур ,- паскаль и ада.

Аноним 16/12/24 Пнд 16:33:38 #486 №979342

>>979239
Если помимо названной выше Cydonia, то вот этот тьюн в треде упоминали https://huggingface.co/ArliAI/Mistral-Small-22B-ArliAI-RPMax-v1.1
Сам только 8б версию пробовал - мне не понравилась. Но на 8б и пантеон тупейший.

Аноним 16/12/24 Пнд 16:58:40 #487 №979367

>>979321
>У меня ровсплит не работает на чипсетных х1, писал в прошлых тредах. Тесты ищи там же.
Ну сейчас-то у тебя обнова. Без ровсплита каждая карта свой кусок контекста по отдельности обрабатывает (мей би), какое-то ускорение может же быть в этой части. У меня правда не было.

Аноним 16/12/24 Пнд 17:01:44 #488 №979369

>>979158
Куртке надо наебнуть его заводы чтобы меньше выебывался

Аноним 16/12/24 Пнд 17:13:38 #489 №979375

>>979173
уиии нтела уже есть прям щас а770 с 16 гигами по цене половину от 4060(ти) 16гиговой
софт есть https://github.com/intel-analytics/ipex-llm
хз ток как ето раб отает луче или хуже амуды

Аноним 16/12/24 Пнд 17:13:48 #490 №979376

Почему в карточках с лорбуками лорбуки каждое сообщение генерируются заново вместо того чтобы вместе с контекстом в видюху залезть и сидеть там? Как сделать чтобы лорбук был частью контекста а не отдельной хуйней какой-то которая каждое сообщение просчитывается?

Аноним 16/12/24 Пнд 17:15:40 #491 №979379

>>978886
ето 0,5b ?

Аноним 16/12/24 Пнд 17:19:46 #492 №979381

>>978236
а ты бля чё дохуя ML-инжирнер, который тока whitePaper читает из гарварда или щто, какая нахуй разница где гайд расположен на мемдиуме, редите или дтфи если он покрывает 99% вопросов новичков, сам ж потом буит ныть что заебали ети вкатышки сраные с однотипными вопросами

Аноним 16/12/24 Пнд 17:34:26 #493 №979390

image.png

>>979278
Скачал пока самый чмошный gemma-2b-it.Q4_0: 1.3 Гб
И чуть побольше Vikhr-Gemma-2B-instruct-Q8_0: 2.7 Гб

Запускаю на дефолтных настройках CuBlas
Размер почти одинаковый. Текст генерит со скорость чтения, но вторая определенно медленнее.
А вот по качеству первая совсем швах, какие-то "жиль" и "онадуться", чито это? Нейронка может свои слова придумывать?

Вторая вроде поадекватней.

Аноним 16/12/24 Пнд 17:37:29 #494 №979397

Блин. А как вообще ролеплеить?
Есть какие-то гайды?
А то я что-то стесняюсь нейросетки.

Аноним 16/12/24 Пнд 17:45:18 #495 №979405

>>979390
Минимально адекватный русский начинается с 12b, прости. Адекватный на 70+ и то далеко не везде.

Аноним 16/12/24 Пнд 17:48:13 #496 №979408

>>979405
где ты нашел минимальный адекватный русский на 12б?
минимальный адекватный русский - это гемма 27б
>>979397
Жизнь одна, а ты нейросетки стесняешься.
я вот дрочу на то как меня в костюме мейды дворовые собаки, бомжи и инвалиды ебут и не стесняюсь это написать на мылопараше, которая наверняка знает, под каким айпи я хожу сюда и какой айпи у меня светится в моем реальном профиле вк

Аноним 16/12/24 Пнд 17:49:49 #497 №979413

>>979408
сука я есть сел

Аноним 16/12/24 Пнд 17:50:23 #498 №979415

>>979408
Sainemo-remix
Если что, я вообще сижу на 70-123 английских, но не могу не отметить эту поделку.

Аноним 16/12/24 Пнд 17:55:14 #499 №979424

>>979390
Качай aida64 и делай там скорость чтения оперативной памяти, тебе нужны гб в секунду
Потом дели это на размер в гб той модели которую хочешь скачать, и получишь максимально возможную скорость в токенах в секунду на твоей оперативке.
Если чисто на видеокарте то считается так же, только скорость врам берется. Ну а если скидываешь часть туда часть туда то уже нужно на опыте прикидывать.
В реальности скорость меньше так как часть времени съедает процессор на обработку токена
Если у тебя не сходится скорости +- 30 процентов, значит что то не так запускаешь

Аноним 16/12/24 Пнд 17:58:04 #500 №979427

>>979367
>Без ровсплита каждая карта свой кусок контекста по отдельности обрабатывает
Ничо не понял. Обработка контекста без ровсплита абсолютно последовательна. Прямо в nvidia-smi можно видеть, как 100% загруженности прыгают по очереди от карте к карте.
>Ну сейчас-то у тебя обнова.
Так две теслы продолжают сидеть на х1 вместе с одной 3090, с чего бы чему-то меняться. Вот блять специально запустил и 512 батч обрабатывался 40 секунд, уу сука. Не пишите мне нахуй про ровсплит, пожалуйста. Или высылайте материнку с процем и нужными линиями, тогда так уж и быть, потещу.

Аноним 16/12/24 Пнд 17:58:47 #501 №979428

>>979397
Если это не жирнота и ты реально не в курсе, то... Блять, а че вообще в этом надо понимать? Я в пиздючестве виртом занимался с какими-то рандомами на впараше и как-то стеснения не было. Хотя, может это и привело меня в итоге к тому, что сейчас я сижу с вами на одной борде, а на таверне практикую какие-то рыготные извращения вперемешку с военными преступлениями.

В целом, путь у всех был один, насколько я понимаю. Сначала ты пробуешь ваниль, ладошкодержание и поцелуйчики, а потом скатываешь к тому, что превращаешься в хюмантойлет для своей степсистер и далее по списку.

Короче, начинай с безобидной романтики, а там вседозволенность тебе сама курс проложит.

Аноним 16/12/24 Пнд 18:01:20 #502 №979431

>>979397
> А то я что-то стесняюсь нейросетки.
Отыгрывай стесняшу. Проблемы.

Аноним 16/12/24 Пнд 18:01:53 #503 №979433

>>979408
Будь я таким же альфачом как ты, я бы тоже не стеснялся.
Как подойти к собаке и предложить её секс?
Можешь хоть завязку истрии кинуть.

Аноним 16/12/24 Пнд 18:03:27 #504 №979438

image.png

Хз, короч. Даже няша меня на шахту отправляет работать.
Чем я заслужил.

Аноним 16/12/24 Пнд 18:06:51 #505 №979443

Тут вышел микс Behemoth-v1.2-Magnum-v4, как вам? Я сижу этом на миксе с 1.1 бегемотом, попробовал новый и как-то кажется, что он как-то более топорно пишет. Я вот не пойму, это реально так или я просто уже врос в ту версию. Но вообще в новом миксе меньше магнума, может из-за этого проза кажется более грубой.
Олсо видел микс с бегемотом 2.2, кто-нибудь пробовал? Говорят просто, что сам 2.2 не оч.

Аноним 16/12/24 Пнд 18:11:48 #506 №979448

>>979413
всё в порядке. Там описывается исключительно гетеро-секс.
Альсо, с подключением.

>>979433
Да нет никакой особенной завязки истории. Их каждый раз и заебешься придумывать. Просто вплетай в свою повседневную жизнь такие события, которые могли бы привести к тому, что ты хочешь.
Я например люблю делать что-то такое "я сосредоточился и щелкнул пальцами - сразу же рядом появился магический розовый ошейнк. Кто бы его ни надел - он заставляет окружающих существ хотеть оплодотворить того, кто носит ошейник."
Ну развивай фантазию, че ты)

Аноним 16/12/24 Пнд 18:12:51 #507 №979449

>>978886
А сын-то приёмный!
>>978889
ХЗ, как по мне уже давно обогнали. Но это зависит от жёстоксти РП, на мои промты чепырка кроме сорри давно уже ничего не пишет.
>>979132
>там — еле-еле разобрались как лоры скачивать
Это ты ещё в главном кончай треде не был.
>>979158
Делали бы их однослотовыми без доппитания, цены бы им не было. А так проще ещё одну 3090 впилить.
>>979205
Ебать солянка. Не думал, что стоит выбросить P40 из сетапа? На 3090+3090+3060 вполне себе можно сидеть на третьем кванте с 24к контексту.

Аноним 16/12/24 Пнд 18:13:41 #508 №979450

>>979381
Иди нахуй со своим гайдом из 2023-го и пигмой в рекомендуемых моделях.

ПЕРЕКАТ Аноним OP 16/12/24 Пнд 18:16:20 #509 №979454

ПЕРЕКАТ

>>979451 (OP)

ПЕРЕКАТ

>>979451 (OP)

Аноним 16/12/24 Пнд 18:28:16 #510 №979467

>>979035
Вот заведёшь себе тянку, которая всю жизнь говорила по-английски (99.5% датасета), а русский полгодика поучила (0.5% датасета), услышишь от неё примерно то же самое.

Аноним 16/12/24 Пнд 18:30:28 #511 №979471

изображение.png

>>978988
Как же хочется к москвабаяринам с их 10ГБ/с интернету. Надоело качать в час по чайной ложке по 850 мегабитной тыкве.

Аноним 16/12/24 Пнд 18:31:48 #512 №979475

>>979467
нихуя. Ты не понимаешь, как работают ллм.
Переход с английского на русский - это просто сдвиг вектора.
Достаточно иметь один основной язык, на котором будет вся логика, а русского будет достаточно в той мере, чтобы были корректно составлены эти вектора сдвига с английского слова на русское.
И этих 0.5% с головой хватит, если они дают четкую связь между разноязычными словами и выражениями.

Аноним 16/12/24 Пнд 18:32:46 #513 №979478

>>978570
довольно быстрая, на некрозеоне Q8 выдает ~8т/с, понятно соевая, русский на первый взгляд неплох

Аноним 16/12/24 Пнд 19:26:35 #514 №979562

>>979443
"Новые" версии старых тюнов практически всегда хуже. Потому что первые получаются наугад, а потом их начинают пытаться целенаправленно дообучить. Помню после stheno 3.2 сделали абсолютно невменяемую 3.3 потому что автор "придумал" как добавить контекста, а потом и 3.4, которая оказалась тупее 2б моделей. Из всех франкентюнов на моей памяти только четвертый магнум оказался удачным, да и то по меркам магнума.

Аноним 16/12/24 Пнд 21:19:21 #515 №979710

>>979158
Шина 128, уноси свой кал

Аноним 17/12/24 Втр 21:21:10 #516 №980519

>>979158
Соснут у инцела жестко, если те выкатят версию b580 на 24гб. Оверпрайс говно от куртки просто никто не будет брать.

Аноним 21/12/24 Суб 13:19:39 #517 №984660

>>980519
>b580
Такая же как с амудэ будет история
Вроде дешевле но кроме как игрушек нормально её не применишь без пердоликов типа rocm
Хотя может интелы свои аналоги технологий выкатят но я на это не надеюсь

Аноним 21/12/24 Суб 22:11:59 #518 №985295

В тему о позитив биасе - а какие из 12B моделей кто видел которые больше по мрачнухе?

Аноним 21/12/24 Суб 22:20:23 #519 №985317

Блин, старый тред.

Аноним 21/12/24 Суб 23:30:04 #520 №985451

п

Аноним 23/12/24 Пнд 22:47:46 #521 №987544

Вставил в контекст две карточки. Для Кума очевидно. А нейронка начинает расписывать про что должна быть история, про этику и мораль...

Аноним 24/12/24 Втр 07:57:55 #522 №987780

>>987544
дерьмодель, очевидно, или jb забыл