Локальные языковые модели (LLM): LLaMA, Mistral, Gemma и прочие №79 /llama/

Аноним 13/09/24 Птн 18:15:57 #1 №885509

Llama 1.png

Альфа от контекста.png

KL-divergence statistics for Mistral-7B.jpg

Багованная P40.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Рейтинг моделей для кума со спорной методикой тестирования: https://ayumi.m8geil.de/erp4_chatlogs
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>878677 (OP)
>>869674 (OP)

Аноним 13/09/24 Птн 18:18:26 #2 №885513

Анон, для этих нейронок какую карту надо? Выбираю между 4060 8 из магазина или 4070 12 из под полы.

Аноним 13/09/24 Птн 18:19:04 #3 №885515

image.png

>>885509 (OP)
На сцене новый участник gemma-2-9b-it-abliterated-Q4_K_L

Казалось бы, очищенный от сои, но по факту нет. И не знает, кто такие бляди.

Это был бы полный провал, если бы модель не написала код для змейки.

Модель соевая и немного туповатая, но код пишет, поэтому возможно для кодинга она подойдет. И только для кодинга, но надо сравнивать в более сложных задачах. Пройдено 2 теста из 4.

Большая проблема кодинга - нужно постоянно писать дальше, нужно поиграться с размерами контекста. Возможно это поможет.

Аноним 13/09/24 Птн 18:21:15 #4 №885517

>>885513
>Анон, для этих нейронок какую карту надо?
Не какую, а сколько штук 3090, лол.

Аноним 13/09/24 Птн 18:23:27 #5 №885520

Да, проверил, мини-магнум почему то стал говорить во время минета...

Аноним 13/09/24 Птн 18:46:05 #6 №885540

image.png

>>885515
Ну и для разнообразия, еще один партнер для спарринга
с текущим лидером >>885499 →, модель meta-llama-3.1-8b-instruct-abliterated.Q6_K

Модель знает, что такое горловая ёбля, но не знает, кто такие бляди. Соевой не является, но немного тупая.

Код пишет подробный, возможно это новый кандидат для кодинга, но вопросы за пределами сои она не всегда хорошо понимает, по тупости, а не по злому умыслу.

Аноним 13/09/24 Птн 18:52:45 #7 №885547

>>885521 →
короче говоря, если чел хочет 4 поколение ПиСиАй то ему что-то типа такого надо
https://www.ebay.com/itm/175685580161?_skw=epyc+7203&itmmeta=01J7P0QDETRDDS78FPZAGRX929&hash=item28e7ad3581:g:wwgAAOSwYE1kNVaj&itmprp=enc%3AAQAJAAAAwHoV3kP08IDx%2BKZ9MfhVJKliRJzg5rTVmOzb82TPtcE8i07L83Deg742C3nYsppX9olqKTecvwT7gKgzL%2Fztoa66jf%2Bs155ZZuw93vPFDXGWzIzVRANKipEgbqY8CAT9e5TtpZQv6OqquZm%2F9NtgQWaKOmHSqqO3LRfBQF3DjyxPxJchz%2FEzCTsWakD46LhRXcWH6vCNUvwXwuvKC%2FkBMHd0IStF2HJ1fiZaSZ8svR4%2Bi3UmjnsxTSSjacC0TjV%2F5g%3D%3D%7Ctkp%3ABk9SR8LX3cC9ZA&edge=1
если найти с 7203 то можно в косарь вложиться, с риперами +- то же самое будет по цене, те что еще могут чего-то дорого стоят...

Аноним 13/09/24 Птн 18:54:34 #8 №885548

>>885540
Почему у тебя 8б с Q6, а 13б с Q3?

Аноним 13/09/24 Птн 18:55:15 #9 №885550

а подскажите, в чем может быть прикол, что чурез бугу нормальные ответы дает, а по API периодически фигня - это с контекстом связано? или инстракшен кард?

(то пытаюсь настроить систему тестирования моделек, чтобы не гонять вручную запросы, но пока по апи периодически косяки лютые)

Аноним 13/09/24 Птн 18:57:14 #10 №885554

>>885550
Есть такое, ответы с апи отличаются от встроенного чата угабуги, как пофиксить я не знаю. У кого-то нет проблем с этим.

Аноним 13/09/24 Птн 19:05:36 #11 №885559

>>885550
А ты включи --verbose и посмотри, что уба отправляет модели при запросах через api и через встроенный чат. Сюрприз будет.

Аноним 13/09/24 Птн 19:07:08 #12 №885562

>>885517
Почитал шапку
>от 12 до 36Гб памяти
Эта память должна быть на видео карте или я могу использовать свои 32гб ддр4 оперативной?

Аноним 13/09/24 Птн 19:07:46 #13 №885563

>>885559
спасибо анонче, гляну...
выходит через АПИ нельзя сделать по людски, чтоль?

Аноним 13/09/24 Птн 19:08:32 #14 №885564

>>885562
можеш конечно, но тогда ты на процессоре запускать будеш, и это медленно будет довольно...

Аноним 13/09/24 Птн 19:08:37 #15 №885565

>>885562
ОЗУ не нужна, на ней ничего не будет работать, особенно на ддр4.

Аноним 13/09/24 Птн 19:08:48 #16 №885566

>>885562
Читай теперь и вики.

Аноним 13/09/24 Птн 19:10:40 #17 №885567

>>885431 →
> где тут вобще про tr4 речь шла?
> есть старые материнки под Threadripper на x399 чипсете с сокетом AM4, там до четырех честных слотов PCIe 16x единственное что версии 3.0
И пост с исрпавлением очепятки про tr4, в шары долбишься?
> даже в твоем 1920х
Боже упаси в это говно вмазаться
> 64 линии
> PCI-Express: Gen 3, 60 Lanes (CPU only)
Порошок уходи!
И даже если бы их реально было 64 то из них штук 8 выделили бы под пару ssd и остальные поделили чтобы сделать больше слотов.
> тредриперы "огрызки"
Они странные, первые под tr4 параша, которую убили свои же десктопы. После них те что под trx40 имеют неадекватный прайс что есть смысл на эпики или интел смотреть.
>>885446 →
> И всё это добро обходится тебе дешевле одной 4090.
Не забудь добавить что каждый из процов будет стоит как видеокарта, могут быть нюансы с нумой. Но, если есть чем загрузить, вариант вкусный 100%.
>>885533 →
Именно, проследуй нахуй на среддит читать нытье бедолаг, что пытаются завести жору на теслах с двухголовыми некрозеонами и получают сильную просадку скорости в зависимости от того какие из карточек задействованы. В трипаке и амудах если че отдельных нод, как в многосоккетных, нет.
>>885550
Скорее всего ты просто криво юзаешь апи. Для чата необходимо сначала правильно настроить формат промта и прочее. Для текст комплишн правильно оформить все самому и уже передать. Плюс, параметры семплеров.

Аноним 13/09/24 Птн 19:13:13 #18 №885569

>>885563
А там наоборот. Через апи всё идёт, как положено. А через чат - как уба захотел.

Аноним 13/09/24 Птн 19:19:16 #19 №885580

>>885564
>>885566
Прочитал вики. Не понял работают ли матрицы квантования для актуальных моделей.
Как аноны запускают модели на 32гб +?

Аноним 13/09/24 Птн 19:20:43 #20 №885582

>>885548
Сначала качал по советам из шапки, что хотел, скачалась модель meta-llama-3.1-8b-instruct-abliterated.Q6_K

Затем по совету анона >>885391 → качал модели на 5-6 гигов, чтобы хватило на контекст, как итог скачалась модель Mistral-Nemo-Instruct-2407-abliterated.Q3_K_S

Потом сравнивал лучшую модель для своего устройства >>885371 → по критериям >>885390 →, первичный отсев, так сказать

Аноним 13/09/24 Птн 19:27:50 #21 №885586

image.png

>>885582
Ну есть такое, да 5-6 не весят Q4+ Сколько у тебя т\с? У меня 7-9, после падает до ~5

Аноним 13/09/24 Птн 19:29:59 #22 №885589

изображение.png

>>885586
Нахуя?

Аноним 13/09/24 Птн 19:31:18 #23 №885590

image.png

>>885589
Хах, я че знаю? Это с проводника

Аноним 13/09/24 Птн 19:32:58 #24 №885592

image.png

>>885586
> Сколько у тебя т\с?

Аноним 13/09/24 Птн 19:33:16 #25 №885593

>>885567
>каждый из процов будет стоит как видеокарта
Два 4410Y на штуку зелёных и доска на сдачу. Ладно, по цене одной 4090 всё удовольствие.

Аноним 13/09/24 Птн 19:34:34 #26 №885596

>>885592
И куда тут смотреть? Цифирки дают чистое значение? Или
это с запятыми? т.е. 666 т/с или же 6,66

Алсо, это бенчмарк от кобольда что ли?

Аноним 13/09/24 Птн 19:46:24 #27 №885613

image.png

>>885596
> И куда тут смотреть?
Ну вот например

> это бенчмарк от кобольда что ли
Да

Аноним 13/09/24 Птн 19:57:22 #28 №885619

>>885565
> 64 линии
> PCI-Express: Gen 3, 60 Lanes (CPU only)
ну значит гугл звиздит, а на сайте АМД вообще нет спеки этой похоже...

>осле них те что под trx40 имеют неадекватный прайс что есть смысл на эпики или интел смотреть.
так и я о том, но, предпоследнее поколение железа, нам ведь PCIE4 надо, не может дешевым быть... с тройкой цена сразу падает... а так,только страдать...

Аноним 13/09/24 Птн 19:59:33 #29 №885624

>>885567
>Скорее всего ты просто криво юзаешь апи. Для чата необходимо сначала правильно настроить формат промта и прочее. Для текст комплишн правильно оформить все самому и уже передать. Плюс, параметры семплеров.
а есть где-то простые гайды по АПИ?
тоесть выходит все то что в буге настраиваеш на АПИ не влияет? ну окромя параметрова загрузки модели... ? и надо все подстраивать в программе юзающей API?

Аноним 13/09/24 Птн 20:02:13 #30 №885628

image.png

>>885540
Составил таблицу текущих результатов тестов.

В тесте на сою следует различать нуль и минус один. В первом случае модель неправильно ответила на вопрос, потому что она тупая, но не соевая. Во втором случае отказывается отвечать, что хуже. По моим критериям, лучше в некоторых вопросах быть тупой моделью, чем соевой. Тупость - простительна, соевость - нет.

Предлагайте свои модели и критерии отбора.

Аноним 13/09/24 Птн 20:21:20 #31 №885660

>>885628
>В тесте на сою следует различать нуль и минус один.
Спасибо что не ноль и минус ноль.

Аноним 13/09/24 Птн 20:26:15 #32 №885670

image.png

>>885660
Это шедевр

Аноним 13/09/24 Птн 20:30:13 #33 №885678

>>885670
Ну а хули ты хотел от модели, которую обучали на синтетических, стерильных данных? Она и слово то такого никогда не видела.

Аноним 13/09/24 Птн 20:45:32 #34 №885698

>>885670
Ля, аж запах ели почувствовал после такого поста, такие модели сразу отправляются в мусорку, если она не может нормальный связный текст выдавать, с такой даже кумерством заняться проблемно будет, похоже что она русского почти не знает...

Аноним 13/09/24 Птн 20:49:47 #35 №885702

1632952984185.webp

>>885567
> вариант вкусный 100%
Топовые варианты на Эпиках всего в 3 раза быстрее игровой DDR5. Этот кал даже хуже тесл.

Аноним 13/09/24 Птн 20:57:54 #36 №885714

>>885593
Ультразатычка, но в целом почему бы и нет, норм вариант.
>>885624
> а есть где-то простые гайды по АПИ?
https://github.com/oobabooga/text-generation-webui/wiki/12-%E2%80%90-OpenAI-API и в самом коде глянь, там все оче просто.
> тоесть выходит все то что в буге настраиваеш на АПИ не влияет?
А хуй знает, обычно все параметры передаются, непонятно что именно оно юзает при отсутствии данных, какой-то дефолт или выставленное в вебуи.
> окромя параметрова загрузки модели
Через апи можно управлять загрузкой новых моделей.
> и надо все подстраивать в программе юзающей API
Типа того, обычно используют тексткомплишн чтобы сделать себе желаемый правильный формат промта, и с каждым запросом передают основные параметры для генерации.
>>885628
Вот вы тут какие-то выводы делаете, но тестируете в кобольде (!) с неведомым форматом и всратым промтом, какой вообще с этом смысл? Что-то уровня рассуждений об эргономике перфоратора отбивая им чисто вручную без подключения к сети.
>>885702
Можно подумать что твой пикрел кал лучше тесел, и забываешь что там в сумме 16 каналов вместо 12 за меньшую цену.

Аноним 13/09/24 Птн 21:03:22 #37 №885719

>>885714
>Вот вы тут какие-то выводы делаете, но тестируете в кобольде
Вот вы тут выводы какие-то делаете, а ML щики вы не настоящие, а кобольд на порнхабе скачали

Аноним 13/09/24 Птн 21:04:05 #38 №885720

>>885714
> Вот вы тут какие-то выводы делаете, но тестируете в кобольде (!)
А что с ним не так? И где надо тестировать?

> с неведомым форматом и всратым промтом, какой вообще с этом смысл?
А что не так с промтом? Простые житейские вопросы, чтобы быстро обнаружить явные косяки.

> Что-то уровня рассуждений об эргономике перфоратора отбивая им чисто вручную без подключения к сети.
Чисто прикладной тест, чтобы быстро отбраковать заведомо хуевые модельки для моих задач.

Аноним 13/09/24 Птн 21:05:05 #39 №885724

>>885719
>>885714
забыл, кобольд - реально дичь какая-то, когда на угу перешел - значительно лучше ответы пошли, такое чувство что кобольд в некоторых моментах криво настроен.

Аноним 13/09/24 Птн 21:06:27 #40 №885726

>>885720
а ты убедился, что он модельки корректно вообще гоняет? потому что из за этого вообще может бред нести например...

Аноним 13/09/24 Птн 21:08:56 #41 №885730

>>885726
И как это проверить?

Аноним 13/09/24 Птн 21:10:05 #42 №885733

>>885724
>кобольд - реально дичь какая-то, когда на угу перешел - значительно лучше ответы пошли
А ты его что - как фронтенд использовал? Он для этого не предназначен, даром что возможность есть. Кобольд ценен другим.

Аноним 13/09/24 Птн 21:30:22 #43 №885765

>>885733
Какой пресет на магнум для таверны?

Аноним 13/09/24 Птн 21:34:09 #44 №885771

>>885765
>Какой пресет на магнум для таверны?
Могу рекомендовать Миростат.

Аноним 13/09/24 Птн 21:37:04 #45 №885773

>>885771
Это который MiroGold, MiroSilver, MiroBronze?

Аноним 13/09/24 Птн 21:48:39 #46 №885783

>>885773
>Это который MiroGold, MiroSilver, MiroBronze?
У меня там стоит обычный Mirostat. Возможно со старых версий остался. Пробуй все, чего бы и нет.

Аноним 13/09/24 Птн 21:59:23 #47 №885787

image.png

>>885783
В новых версиях, чего-то нет миростата. Скинь как выглядит он.

Аноним 13/09/24 Птн 22:03:22 #48 №885789

>>885787
>путает пресеты и темплейты
Шапку с вики не читал, или в ней не достаточно информации?

Аноним 13/09/24 Птн 22:13:25 #49 №885797

image.png

Страшно?

Аноним 13/09/24 Птн 22:16:53 #50 №885802

>>885789
Вы друг друга стоите, тоже в прошлом треде говорил кто-то про миростат. Имел ввиду не семплеры, а ты теперь что имеешь?

Где у тебя в вики прописано про Template/Пресеты? Покажи если обращаешься к ней.

Аноним 13/09/24 Птн 22:18:14 #51 №885804

>>885787
>В новых версиях, чего-то нет миростата. Скинь как выглядит он.
Это вообще в другой вкладке, там где "настройка ответа ИИ". Не найдёшь там Миростата - ставь Миростат Голд, судя по настройкам разница небольшая.

Аноним 13/09/24 Птн 22:19:28 #52 №885806

>>885802
>Имел ввиду не семплеры
Семплеры-семплеры. И тогда семплеры и сейчас семплеры :)

Аноним 13/09/24 Птн 22:21:17 #53 №885807

>>885802
>Где у тебя в вики прописано про Template/Пресеты?
Я тебя и спрашиваю, достаточно ли там инфы или нет. Видимо ответ нет.

Аноним 13/09/24 Птн 22:22:04 #54 №885809

>>885804
>>885806
Так и так миростат лупиться на магнуме, или может настройки семплера разные? Я чисто пробовал миростат, без голд/бронз и прочего.

Аноним 13/09/24 Птн 22:24:36 #55 №885812

>>885807
Если недостаточно, добавь. В Силли дефолтные пресеты нормальные.

Аноним 13/09/24 Птн 22:26:43 #56 №885815

>>885719
>>885724
>>885720
Кобольд вовсе не плох, но это довольно минималистичный инструмент, который требует настройки и имеет ограниченный функционал. С убой может быть действительно проще, ведь там и полные семплеры и большинство форматов есть по дефолту.
> А что не так с промтом?
Системный промт у тебя какой? Если "ты безопасный ассистент" или подобное то и рассчитывать не на что, модель буквально будет делать то что ты просишь, а ты носом воротишь.
>>885726
Ну да, тут еще ггуфоприколы могут быть.

Аноним 13/09/24 Птн 22:36:55 #57 №885824

image.png

>>885815
> Системный промт у тебя какой?
Ну например для мистраля

Аноним 13/09/24 Птн 22:43:06 #58 №885830

>>885809
>Так и так миростат лупиться на магнуме, или может настройки семплера разные? Я чисто пробовал миростат, без голд/бронз и прочего.
От дефолтного Миростата я только поднял температуру (но это дело вкуса и на лупы не должно влиять) и поставил "Штраф за повтор" в 1,1 при "Окне для штрафов за повтор" = 2048. Этого оказалось достаточно. Правда у меня Магнум 123В.

Аноним 13/09/24 Птн 22:47:59 #59 №885837

>>885824
{{char}} должен отвечать только на русском языке!
"Пиши на русском" - это уж слишком минималистично :)

Аноним 13/09/24 Птн 22:49:47 #60 №885842

>>885830
Получше стало, лупов или нет или их кол-во уменьшилось. Хотя я до сих пор играюсь с семплерами, не могу найти какой-то один.

>>885837
У меня в Силли в заметках автора такое - Все взаимодействия и ответы должны быть на русском языке. Пожалуйста, используй грамматически правильный и ясный русский язык. Если нужно ты можешь использовать ненормативную лексику.

Аноним 13/09/24 Птн 23:08:59 #61 №885873

>>885824
Ну ты содомит, чуть с кресла не пезднулся. Ну удачи с такой херней, хули.

Аноним 13/09/24 Птн 23:41:40 #62 №885906

Немного с АПИ разобрался, оказалось проблема была на стороне "клиентской части", которая не хотела все параметры передавать... но все равно, разница в генерациях есть, может потому что контекста нет при передаче через АПИ, потому что разницы я не вижу уже...

и так, погоняв немного Yi-Coder 1,5 потенциал в нем всеже вижу, лол, аж самому смешно, потенциал в полторашке, да, не всегда правильно, но базовые штуки пишет, типа сортировок, слияния файлов итд...

Аноним 13/09/24 Птн 23:44:41 #63 №885909

Какую базу посоветуете для 10 гб врам (3080) для рп? Есть еще 32 гб оперативы 6000

Аноним 14/09/24 Суб 00:27:26 #64 №885956

image.png

попробовал я этот ваш магнум 123б.
Ебать конечно она шпарит, прям как настоящий человек.
Тян официально больше не нужны.

альсо братишкам с темлами привет, остальным соболезную.

Аноним 14/09/24 Суб 00:27:47 #65 №885958

как блять заебло
пример реал ситуации
посылают в магаз за хлебом
тдешь
покупаешь
возвращаешься

нейронка же мгновенно забывает недавние цели что ты пришел в магаз не на вечность засовывать булки в жопы - а просто сделать чек и сьебать.
нейронка вечно отвливается на какуюто фигню и забывает что это было уточнение истории. и вобще то историю надо двгать дальше.
что сделать чтоб сеть не вела себя так тупо?
надеюсь понятно обьяснил

Аноним 14/09/24 Суб 00:42:35 #66 №885972

>>885958
>что сделать чтоб сеть не вела себя так тупо?
Чем больше модель - тем меньше ошибок;
Делай большой контекст;
Работай на английском (с переводчиком в обе стороны);
Реролль, если генерит совсем не то;
Если пошло совсем не туда - стирай последние посты и подсказывай;
Делай ручной суммарайз;
Пробуй разные модели и файнтюны последних поколений;
Всегда помни, что модель несовершенна.

Аноним 14/09/24 Суб 00:45:16 #67 №885977

>>885956
>попробовал я этот ваш магнум 123б.
А теперь попробуй Luminum-123B. Умнее и даже немного быстрее.

Аноним 14/09/24 Суб 00:54:40 #68 №885981

>>885972
>Работай на английском (с переводчиком в обе стороны);
лол а разве не все так по умолчанию делают?
>Делай большой контекст
хуй найдешь где он больше
>Реролль, если генерит совсем не то;
ваще не решение
>Пробуй разные модели и файнтюны последних поколений;
проблему вижу пару лет на всех моделях . просто где то везет а где то нет но я уверен что причина проблема есть везде
> стирай последние посты и подсказывай
так можно и до рп в блокноте дайти

Аноним 14/09/24 Суб 00:56:45 #69 №885986

>>885981
Хорошо, тогда ещё один совет: найди индюка и еби мозги ему :) А тут не надо. Все живут как-то, справляются.

Аноним 14/09/24 Суб 01:01:08 #70 №885990

>>885956
Вы на чем их гоняете?

Аноним 14/09/24 Суб 01:03:22 #71 №885992

>>885981
лол а разве не все так по умолчанию делают?
так а нафига ллмки если к ним еще гугель транслейт прикручивать
модель должна быть универсальной и сама переводить хорошо

Аноним 14/09/24 Суб 01:04:05 #72 №885994

>>885990
я на трех теслах.
Еще четвертая лежит, но воткнуть некуда и с охладом проблемы.
Карты которые в корпусе на материнских pcie жарче на 10+ градусов чем та, которая снаружи на райзере висит. А это не шутки, когда речь про температуры около 60. И это в жоре когда контекст скачет с карты на карту. СД утилизирует так, что там доменная печь образуется.
Заказал себе мать BTC79x5v1.0, сижу жду. Надеюсь на ней есть above 4g.

Аноним 14/09/24 Суб 01:05:43 #73 №886000

>>885992
чо бля? а если все модели плохи в русском мне с блокнотиком сидеть вместо сеток?

Аноним 14/09/24 Суб 01:08:24 #74 №886002

>>886000
в чем проблема сделать машину времени и год назад купить себе 4 теслы по цене пиццы с школьной столовой

Аноним 14/09/24 Суб 01:09:56 #75 №886003

>>886000
та РПш как хочеш, хоть через Промт переводиОлды здесь?, я говорю что для многих тасков окромя кумерства нативная поддержка языка необходимость практически, более того гугл плохо переводит иногда...

Аноним 14/09/24 Суб 01:10:01 #76 №886004

>>886002
чтобы что?
к чему это блять?

Аноним 14/09/24 Суб 01:11:33 #77 №886006

>>886003
и чо ты предлагаешь - юзать русик который естесно во всем хуже енглиша? мне не сложно копипастить с другой вкладки

Аноним 14/09/24 Суб 01:11:34 #78 №886007

>>886004
Чтобы собрать майнинг ферму и гонять Ламу самую жирную... которая нормально работает со всеми языками, и минимум глюков содержит...

Аноним 14/09/24 Суб 01:12:37 #79 №886008

>>886004
заходит как-то школьник в ЛЛМ тред, снимает ботинок с ноги и каблуком хлопнув по трибуне спрашивает "а хули вы все тут собрались? нахуя это всё?"

Аноним 14/09/24 Суб 01:13:35 #80 №886009

>>886007
причем тут глюки ты меня слышиш вобще?
сетки не защищены от забывания что из уточнения и отвлечения надо возвращатся в основную конву
а нее как у толстово встретил дерево и описывает его на 100 страниц

Аноним 14/09/24 Суб 01:14:21 #81 №886011

>>886008
а зачем ты ботинки с каблуками носиш?

Аноним 14/09/24 Суб 01:14:24 #82 №886012

>>886002
За сколько тогда можно было купить теслу?

Аноним 14/09/24 Суб 01:15:53 #83 №886014

>>886012
зависит от того, какое "тогда" ты имеешь в виду
Я слышал, что год назад то-то и за 13к брал.
>>886011
ну точно школьник, не понял отсылки...
слыш, борда 18+

Аноним 14/09/24 Суб 01:17:01 #84 №886016

>>886014
И смотря какую теслу, я как понимаю в мое "тогда" за 13к, точно уж не 12гиговую.

Аноним 14/09/24 Суб 01:17:10 #85 №886017

>>886006
Ничего тебе не предлагают тут, ты еще и по вкладкам махаеш? жесть... Куда вы этот ролплей примазываете? сириосли днями сидите с нейронкой общаетесь?, если на инглише результат устраивает работай на инглише, внезапно можно и не переводить, инглиш не корейский, надо знать,

>>886009
ну так тут вооббще влияние языка минимальное, это проблема сетки как таковой, вожможно правка контекста подлечивать может такую проблему...

Аноним 14/09/24 Суб 01:18:27 #86 №886019

>>886016
сейчас бы теслу брать не 24 гб...

Аноним 14/09/24 Суб 01:26:16 #87 №886022

>>886016
народная тесла треда только одна - P40.
>>886017
>Куда вы этот ролплей примазываете? сириосли днями сидите с нейронкой общаетесь?
хороший вопрос. Да, обычно примазывать его некуда, кроме кума радугой по вечерам.
Но я иногда спрашиваю её по SRE тематике. Внезапно в 70b+ сетках открывается емерджентное свойство рассуждать логически при скудных вводных данных и плохой изученности проблемы. Сложно описать. Типа, обычная gemma 23b тебе конечно выдаст ответ, но он будет как сборник ответов со стековерфлоу. В то время, как 70b+ может выдать какой-то инсайт.
Ну, а еще мне сетка норм по диете и питанию разложила. И сразу с препаратами даже, а не просто "занимайся больше и жри меньше". Их плюс в том, что они по знаниям дохуя широкие.

Аноним 14/09/24 Суб 01:45:50 #88 №886027

.png

>>886012
Моя лучшая покупка за последний год.

Аноним 14/09/24 Суб 01:59:39 #89 №886033

А производительность у теслы какая? Какая сопоставимая видимокарта

Аноним 14/09/24 Суб 02:51:51 #90 №886050

>>885994
> на трех теслах
Че там по скоростям?
> когда речь про температуры около 60
Это смешная температура.
> BTC79x5v1.0
Ща набегут засрут что там линий недостаточно.
>>886002
Хорош, всхрюкнул
>>886008
А она ему как раз.

Аноним 14/09/24 Суб 03:22:40 #91 №886062

>>886050
> > BTC79x5v1.0
> Ща набегут засрут что там линий недостаточно.
Ее бы какими-нибудь p102 на фулл забить, лол, вот это был бы потешный днищеконфиг. Или еще лучше ту восьмислотовую йобу вместе с дешевым "майнерским" бп. Я бы на такое посмотрел...

Аноним 14/09/24 Суб 06:50:26 #92 №886099

https://www.reddit.com/r/LocalLLaMA/comments/1fg46ak/magnum_v3_27b_kto/
Там еще и гемма 9ь есть магнум версии
Да и вообще куча моделей пачками повыходили чуть ли не каждый день
Ват а тайм ту би лив

Аноним 14/09/24 Суб 07:23:47 #93 №886104

>>885956
Как ты сделал такую двачеоболочку? я что-то пропустил?

Аноним 14/09/24 Суб 07:29:04 #94 №886107

>>885981
Эти проблемы отчасти можно решить скриптами, задавая модели разные промпты на разные ситуации, заставляя её генерить себе "план" и включая его в промпт и т.д.
Анон в позапрошлом треде скидывал методику >>868995 →
Всё хочу попробовать заняться, но некогда...

Аноним 14/09/24 Суб 07:47:46 #95 №886116

>>886099
Да, за Магнумами надо следить.
Добавил в список, особенно 27В. Для меня эта Гемма стала базовой локальной моделью и наконец-то к ней вышло что-то кроме поломанного БигТайгера это надо затестить.

>куча моделей пачками повыходили чуть ли не каждый день
А что ещё?

Аноним 14/09/24 Суб 07:53:34 #96 №886117

111.PNG

222.PNG

>>885509 (OP)
Аноны, подскажите что за хуйня. Загрузка кобальта стопорится на этом этапе и потом очень очень долго ничего не загружается, даже мелкие модели. Причём если один раз эта хуйня прогрузится, то потом будет запускаться моментально. Предположу что проблема возникла после версии с автоопределением кол-ва слоёв на видимокарту, но даже если выставлять своё значение или 0, или вообще использовать нокуда, то ситуация аналогичная.
Что это за хуйня и как победить?
И куда кобольт пишет свои конфиги, в appdata ничего связанного с ним нет?
Версия 1.74.

Аноним 14/09/24 Суб 08:35:03 #97 №886134

>>885509 (OP)
Кому Tesla P40 за 22к?
https://www.avito.ru/sankt-peterburg/tovary_dlya_kompyutera/nvidia_tesla_p40_24gb_4594444521
мопед не мой, случайно наткнулся

Аноним 14/09/24 Суб 08:36:36 #98 №886135

>>886117
Попробуй просто подождать подольше, у меня свеже-скачанный кобальд при первой загрузке модели может тупить минуту+ на этом же этапе.

Аноним 14/09/24 Суб 09:26:22 #99 №886162

>>886117
Попробуй CU12 версию

Аноним 14/09/24 Суб 09:26:40 #100 №886164

>>886104
Два чая этому

Аноним 14/09/24 Суб 09:31:01 #101 №886167

>>886162
аналогично

Аноним 14/09/24 Суб 09:35:20 #102 №886170

456.PNG

>>886162
>>886164
Висит, модельку не грузит

Аноним 14/09/24 Суб 10:39:39 #103 №886210

>>886014
>ну точно школьник, не понял отсылки...

Ну про никитку отсылка совсем древняя, тут пенсионеры не все вспомнят...

Аноним 14/09/24 Суб 10:43:13 #104 №886214

>>886022
к 70b, 123b вопросов нет, вопрос куда столько народу крутит 10 и меньше, и есть ли на них жизнь... я понимаю конечно что локальная гопота это круто, но только если результат практически сопоставим, а не вычищать тексты после локалки 3 дня...

Аноним 14/09/24 Суб 10:44:44 #105 №886215

>>886033
1080 конечно... да она тугая для нейронок, по современным меркам, но ведь 24 гб,

Аноним 14/09/24 Суб 10:46:44 #106 №886217

>>886050
>заходит как-то школьник в ЛЛМ тред
и покупает 660ti
>А она ему как раз.

Аноним 14/09/24 Суб 10:49:54 #107 №886218

>>886062
так сразу ферму купить на 102х норм тема будет, почти... не знаю как 102, но 104 дешевые довольно, по цене выгоднее теслы, но они ж жрать будут электрики капец...
ну и на тесле можно гонять СД в высоком разрешении и с контролнетами

Аноним 14/09/24 Суб 10:52:56 #108 №886219

>>886134
жесть, барыги...

Аноним 14/09/24 Суб 10:54:40 #109 №886220

а кто подскажет по тренировке лор, как происходит процесс и главное сколько памяти надо на такое чудо?

Аноним 14/09/24 Суб 11:19:49 #110 №886233

>>886011
Хочет быть выше, карлан же.
>>886019
P100 по идее тоже интересна, HMB память же, ебёт всё кроме 3090.
>>886050
>Ща набегут засрут что там линий недостаточно.
Линий там достаточно, 40 штук же. А вот одна плашка это конечно лол.
>>886099
>Да и вообще куча моделей пачками повыходили чуть ли не каждый день
Уже два года так живём. Иногда бывают мирные периоды затишья, но выходит новая база, и вот куча шизомержей.
>>886220
>сколько памяти надо на такое чудо
Чем больше, тем лучше. Без 24 гиг лучше не соваться.

Аноним 14/09/24 Суб 11:22:00 #111 №886236

>>886233
а были извращуги пробовавшие на цп тренить лоры? или люди столько не живут?

Аноним 14/09/24 Суб 11:42:34 #112 №886242

хм, интересный момент, судя по калькулятору https://rahulschand.github.io/gpu_poor/, 410м модельку можно полностью тренировать на одной видяхе, кто-то пробовал такое делать?

Аноним 14/09/24 Суб 11:49:14 #113 №886246

>>886236
>или люди столько не живут
Yep.
>>886242
>полностью тренировать на одной видяхе, кто-то пробовал такое делать
Пробовал. Там по времени всё равно дохуя выходит, а я не готов ждать результата неделю. Поэтому у меня были недотрейненные огрызки. Можешь задавать свои ответы.

Аноним 14/09/24 Суб 11:57:25 #114 №886251

>>886242
Сайт ебанутый, ты линком не ошибся?

Аноним 14/09/24 Суб 12:16:42 #115 №886271

>>886050
>Че там по скоростям?
по скоростям жопа, но ради качества ответов я могу это потерпеть.
Для порнорп юзаю сетку поменьше - magnum-72b-v1-Q5_K_M. У неё достаточная скорость генерации, чтобы не ждать прям по буквам пока сеть рожает слова.
>Это смешная температура.
смешная? Ну разогрей карту до 60 и попробуй подержать руку на черной металлической пластине на бэке карты.
Термическую усталость материалов никто не отменял, а карты на секундочку 16 года выпуска. Их и до нас уже хорошо прожарили.
>Ща набегут засрут что там линий недостаточно.
для жоры достаточно x1.
Я экспериментально проверил как работает использование нескольких карт.
Жора кладет одинаковую программу и разыне куски модели во все карты и между ними перекидывается при выполнении небольшой объем данных. Настолько небольшой, что скоростью их передачи можно пренебречь. x16 или x1 - не важно, это не является батлнеком при генерации. Батлнек - работа с самой моделью, она не параллелится.
По сути работа на трех картах по 24 гб с тремя чипами равноценна работе на одной карте с 72 гб и при росте объема модели медленнее она начинает генерировать только потому, что чип в картах слабый и старый.
>BTC79x5v1.0
вообще я именно её взял не из-за линий (хотя там в комплекте проц на 40 линий и написано что на все порты подается x8), а из-за того, что это удобный формфактор. Другие такие платы излишне длинные.
>>886104
просто добавил это в чара
> Она знает о существовании интернета, давно сидит на имиджбордах и умеет троллить, не боится колко выражаться для красоты речи.
>>886214
>куда столько народу крутит 10 и меньше
ну так там и теслы не нужны. Люди просто пробуют. Я тоже сначала гонял мелкую модель на 3070 до покупки тесел. порно рп на них конечно уровня "я тебя ебу, ты меня ебешь, ах", но все-равно новые ощущения.
>>886218
>СД в высоком разрешении
только в рамках одной карты к сожалению. Я не нашел способа использовать память всех трех карт под одну задачу. Есть мультидифьюжн, но он параллелит генерацию мелких картинок, а не размазывает генерацию одной большой картинки на все карты. И то это в half режиме. Если выставить --no-half - там сразу 10 гигабайт от карты съедается просто при загрузке модели. fullhd при ренерации без апскейла - это потолок, да и апскейл тоже падать будет по cuda oom если больше чем x2.
И апскейлеры тоже не умеют апскейлить одну картинку с помощью трех карт.

Аноним 14/09/24 Суб 12:30:53 #116 №886275

>>886099
для моей 3060 12gb это не актуально. Либо слишком ужатая до уровня даун модель, либо 1,5 токена в секунду + по 10 секунд ждать прогрузки каждого 512 контекста.

Аноним 14/09/24 Суб 12:31:33 #117 №886276

Считает ли SillyTavern токены или просто буквы? В метадате моделей написано что есть токен?

Аноним 14/09/24 Суб 12:34:52 #118 №886278

>>886246
Можешь задавать свои ответы.

подкинь тогда где почитать как вкатится в такую содомию, вцелом то вижу задачу зафайнтюнить на конкретную тему, есть подозрения что 410 справится с таким

Аноним 14/09/24 Суб 12:38:03 #119 №886281

>>886271
>но все-равно новые ощущения
я когда-то в анонимном чате так по рпшил, прикольно, но ощущение проёбаного времени, даже ютубчик позалипать менее угнетающе звучит

Аноним 14/09/24 Суб 12:40:06 #120 №886284

>>886275
хуй знает, как вообще люди без тесел живут, господи... 12 гигабайт - для него слишком много. Бедный парень.

Аноним 14/09/24 Суб 12:41:17 #121 №886287

>>886271
по СД то понятно, никто и не просит от нее паралелиться, и потому тесла и выгодна, что 24 это в три раза больше чем 8, а 8 это совсем притык, а если видосы перерисовывать так там надо шустро, и желательно хотяб 720p а не 320*240

Аноним 14/09/24 Суб 12:42:23 #122 №886289

>>886287
> никто и не просит от нее паралелиться
буквально я. Я прошу от неё параллелиться и использовать всю память всех карт.
Блять....

Аноним 14/09/24 Суб 12:48:25 #123 №886293

>>886284
так тут проблема в том, что оно как бы не особо выгодно, купляеш одну теслу - и как лох гоняеш 30b модельки, покупаеш пачку тесел, и.и.и. есть шанс запустить жирную модельку на хреновой скорости, но за эти деньги можно на несколько лет подписку на гопоту купить и работать как белый господин... короче говоря это для энтузиастов, которым гонять самому интересно, а не рабочий иструмент максимально выгодно нужен...

>>886289
хотелось бы конечно, но низзя, не раскидывается она, как минимум потому что не однопроходная......

Лол, короче вспомнил, как по приколу попробовал проходя какой-то курс по нейронкам на основе сверточной натренированной на класификацию картинок посчитать градиенты при класификации рандомного шума и получить с него картинку - вышел психодел лютый)

Аноним 14/09/24 Суб 12:59:15 #124 №886303

>>886293
>подписку на гопоту купить
щас бы платить выблядкам, продавшим свою жопу майкрософту и предавшим принципы opensource коммьюнити, ага

Аноним 14/09/24 Суб 14:23:57 #125 №886382

>>886293
>подписку на гопоту купить
Вот, кстати, интересная хуйня. До первой теслы мне гопота умной казалась. Я тогда гонял 20b франкенштейнов из второй лламы и гопота выгодно смотрелась на их фоне. После первой теслы, появления в моей жизни коммандеров, гемм, третьих ллам - всё в корне изменилось и гопота вызывает только раздражение своей беспомощностью и глупостью.

Аноним 14/09/24 Суб 14:58:04 #126 №886417

>>886382
С коммандером и геммой просто смешно 4о сравнивать. Лама 3 тоже еще далековато, если смотреть не на красивые графики

Аноним 14/09/24 Суб 15:07:20 #127 №886426

>>886382
>всё в корне изменилось и гопота вызывает только раздражение своей беспомощностью и глупостью.
Я давно не общался с ЧатГПТ и даже не в курсе, на каком он сейчас уровне. Но иногда работаю с Клод Соннет - все говорят, что она даже лучше. Очень раздражает демонстративная услужливость и соглашательство данной модели, хотя заметен и огромный потенциал. Но третью Лламу в принципе уже можно сравнивать, а уж Мистраль Ларж 2 тем более. И очевидно - я не пробовал, но это прямо чувствуется - что в РП Соннету точно так же не хватит соображалки, как и тем двум моделям. Тем более он под это не заточен. О сое я уже и не говорю.

Аноним 14/09/24 Суб 15:12:38 #128 №886432

>>886215
Ну чуть быстрее моей 2060, однако памяти 24гб, и сколько т/с на больших моделях? аля 70+, у меня на гуфе 7-9 т\с 13б, при не полной загрузке. Там я думаю на порядок больше, а может и нет.

Аноним 14/09/24 Суб 15:16:30 #129 №886435

>>886432
>сколько т/с на больших моделях
6+ на 70В_Q5KM c 16к контекста
4+ на 123В_Q4KM c 16к контекста
Плюс небольшой. Но - это только генерация. Обработка контекста на теслах - боль, для смягчения которой применяются многие хитрости. Иногда не помогает.

Аноним 14/09/24 Суб 15:20:55 #130 №886441

>>886170
Конечно вряд ли поможет, но попробуй тыкнуть лкмом в консоль и понажимай пару раз enter. В 11 винде консоль блочится если кликнуть на нее
>>886435
>смягчения которой применяются многие хитрости
Это какие? Есть что-то кроме FleshAttension?

Аноним 14/09/24 Суб 15:24:50 #131 №886447

>>886441
>Это какие? Есть что-то кроме FleshAttension?
Прежде всего Context Shift. Если он с моделью работает - всё зашибись.

Аноним 14/09/24 Суб 15:26:26 #132 №886451

>>886278
Я вот эту шнягу использовал
https://huggingface.co/docs/transformers/model_doc/gpt2
плюс нейросетки спрашивал, лол.
>>886382
Уже тысячу раз писал, что соя портит все коммерческие сетки. Все эти килобайтные джейлы нихуя на пользу не идут, а без них у меня Сори я кант континуе прямо на карточку персонажа.

Аноним 14/09/24 Суб 15:26:35 #133 №886452

>>886447
А ну, да, только я его почему-то только в коболде видел, его разве нет в угабуге?

Аноним 14/09/24 Суб 15:29:54 #134 №886464

>>886451
>Сори я кант континуе прямо на карточку персонажа.
в голос

Аноним 14/09/24 Суб 15:30:44 #135 №886467

Достаточно долгое время зависал на сатах типа спайсиаичат и решил попробовать ЛЛМ. После изучения гайдов из шапки решил поставить таверну через кобольда для ерп. Проковырялся несколько вечеров и заставил все работать. Возникло несколько вопросов:
1. Минимагнум 12б на 4070 генерит респонсы примерно полторы минуты на дефолтные 250 токенов. Можно ли это ускорить и каким образом без снижения качества модели? Или эта гпу совсем дно и нужно понижаться до 7б моделей
2. Если я правильно понял, полнота и развернутость ответа зависит от используемой модели и степени квантования. Но в некоторых случаях на одной с разными пресетами персонажей/сценариев получаю совершенной несвязанное повествование. Это значит нужно искать менее кривые карточки персонажей?
3. аналогичная ситуация с ответами за юзера, в некоторых случаях происходит пиздеж за меня на половину респонса. Какой параметр отвечает за это и как ограничить эту возможность.
4. Что можно почитать для более детальной настройки моделей/персонажей, чтобы они не выпрыгивали из штанов после первого респонса.
Заранее спасибо за пояснения.

Аноним 14/09/24 Суб 15:31:39 #136 №886470

>>886452
>А ну, да, только я его почему-то только в коболде видел, его разве нет в угабуге?
Должен быть, но я не пользуюсь. Кобольд стабильнее и удобнее. Кому нужны свежие сборки - есть лламаспп сервер. А в убе ллама особая, на айронпайтоне что ли. Надо бы попробовать для прикола.

Аноним 14/09/24 Суб 15:32:35 #137 №886472

>>886470
Там есть тензоркор, дает больше прибавку к токенам, на порядок 1-2 т/с

Аноним 14/09/24 Суб 15:34:46 #138 №886474

>>886467
>Минимагнум 12б на 4070
У меня мини магнум 12б, на 2060 9-7 т\с, как и почти любая 12б, ПРИ Q4_K_M\Q4_K_L. Смотри какой у тебя квант, наверное выбрал Q8_0
>Это значит нужно искать менее кривые карточки персонажей?
Да, есть такое, зависит от этого, пресеты и семплеры влияют еще, так что все в тандеме.

Аноним 14/09/24 Суб 15:37:28 #139 №886478

>>886467
>Что можно почитать для более детальной настройки моделей/персонажей, чтобы они не выпрыгивали из штанов после первого респонса.
в общем рекомендация сводится к добавлению в чат темплейт чего-то вроде "развивай сюжет медленно". Но зачастую мелкие сетки слишком тупы, чтобы развить сюжет куда-то кроме очевидной ебли и выпрыгивания из штанов. Но ты попробуй оптимизировать инструкции.
>4070
нахуй ты это говно вообще брал?

Аноним 14/09/24 Суб 15:40:25 #140 №886481

>>886472
>Там есть тензоркор, дает больше прибавку к токенам, на порядок 1-2 т/с
Если оно не просто так называется, то печаль - у теслы нет тензорных ядер... Но попробую.

Аноним 14/09/24 Суб 15:43:19 #141 №886483

Futurama - I ask for rich guy stuff and you give shiny pebbles Bah! (online-video-cutter.com).mp4

>>886284
>12 гигабайт - для него слишком много
Наоборот слишком мало, что бы запускать на ней 20b+ модели с более-менее терпимой скорости для RP

Пока что перебиваюсь на разновидностях модели Nemo-Mistral 12b и Magnum 12b v2

Хотя в своё время юзал на своём проце Ryzen 5600g Llama-3SOME-8B-v2b и был рад 2 токенам в секунду и обработке 512 контекста за 10 сек, но потом однажды попробовав на настоящей видеокарте позалипать в нейронки во мне проснулся пикрелейтед

Аноним 14/09/24 Суб 15:44:07 #142 №886484

>>886481
У меня есть эти ядрышки, поэтому перешел с кобольда, на угабугу.

+ буги, она позволяет загрузить намного больше слоев/контекста без ошибки, чем кобольд. Тем не менее за все есть цена, то что ты загрузил сверх меры будет браться с озу.

Я хотел получить скорости, и на 7б кобольд - 20т/с, буга - 22т/с. Прибавка есть, но маленькая, может быть из-за моей rtx 2000.

Аноним 14/09/24 Суб 15:45:56 #143 №886487

>>886484
>перешел с кобольда, на угабугу.
А есть смысл переходить?

Аноним 14/09/24 Суб 15:48:01 #144 №886492

>>886484
>rtx 2000

почему не 3090? Тоже 2 гб, но найти можно за 55к. А твоя под сотку стоит.

Аноним 14/09/24 Суб 15:48:23 #145 №886493

>>886492
24 гб
фикс

Аноним 14/09/24 Суб 15:48:37 #146 №886494

>>886417
Я не на графики смотрю, это чисто субъективное мнение по итогам использования. Если сравнивать 4о с лламой 70b, то первый просто сливается в унитаз, как дешёвка.

>>886426
>на каком он сейчас уровне.
Чисто по ощущениям, это что-то уровня 10-12b с прикрученным RAG. Оно ебать, как много знает, но чтобы выудить эти знания иногда даже наводящих вопросов недостаточно, ты уже должен знать о том, о чём ты спрашиваешь. Эта самая 4o крайне просто входит в петли, не может исправлять свои ошибки, не может на ходу переключиться на другую тему, не понимает сарказм, не понимает, когда ты просишь чего-то не делать, откровенно врёт, если чего-то не знает, и выдумывает на ходу. И да, лупы у 4о это непобедимая хуйня, он либо повторяет одно и то же, либо делает то же самое, даже если ты говоришь этого не делать.
Локалки в этом плане куда честнее, чтоли. Они знают меньше, но понимают гораздо больше.

Аноним 14/09/24 Суб 15:48:47 #147 №886496

>>886487
ue,fue,f negj elj,ytt c nfdthyjq

Аноним 14/09/24 Суб 15:49:35 #148 №886497

>>886474
Сейчас специально протестил у себя магнум 12b на 3060 12gb на kobold.ccp с уже наговоренным диалогом

CtxLimit:2766/8192, Amt:250/250, Init:0.05s, Process:2.73s (1.1ms/T = 922.63T/s), Generate:10.63s (42.5ms/T = 23.51T/s), Total:13.36s (18.71T/s)

Аноним 14/09/24 Суб 15:49:50 #149 №886498

>>886474
Да, на Q8_0.
Сейчас запустил бенчмарк - всего 3.8 Т/с скорость генерации.

Аноним 14/09/24 Суб 15:51:55 #150 №886499

>>886487
Я не знаю, я просто долго сидел на кобольде, и перешел на бугу.

У буги мне апи не нравиться, он пишет иначе чем кобольд.

Проверил по бенчу, у меня на коболде меньше чем у буги на 2т/с

>>886492
) я имел ввиду серию, аля rtx 2000, rtx 3000, rtx 4000

>>886498
Оно и понятно, ставь Q6_K или Q5_K_M

Аноним 14/09/24 Суб 15:52:28 #151 №886501

>>886497
magnum-12b-v2-Q6_K_L если что

Аноним 14/09/24 Суб 15:53:44 #152 №886502

>>886478
>нахуй ты это говно вообще брал?
Была неплохая возможность обновиться с рх580 за 48к. Ничего лучше на тот момент не было.

Аноним 14/09/24 Суб 15:57:37 #153 №886505

>>886487
>А есть смысл переходить?
Есть смысл экспериментировать - 0,2т/с тут выиграл, 0,1 там - в сумме набегает...

Аноним 14/09/24 Суб 16:08:54 #154 №886515

>>886498
Чувак, у тебя во время того как ты запускаешь эту модель - модель вся грузиться в видеопамять. Если во время запуска модели или её использования у тебя ещё запущены другие игры- приложения, даже ютюб - они занимают часть видеопамяти твоей карты и допустим вместо 12 гигов у тебя по факту оказывается 10,5 или вообще 8. Лично у меня встройка на проце и я всю отображаемую графику для моника через неё гоню (тупо оставил моник подключенным к материнской плате а не к видяхе) и моя видяха остаётся незадействованна для всякого мусора и может на все 100% отдаваться обработке генерации текста.

Вот прямо сейчас закрой прогу кобольд или на чём ты там генеришь и открой диспетчер задач. Перейди в раздел производительность и выдели свою видюху. Там ты увидишь сколько у тебя видеопамяти занято и сколько свободно. + учитывай что чем дольше общаешься с чат ботом тем больше памяти нужно будет для хранения в его памяти прошлых твоих сообщений. Контекст короче, который ты изначально выбираешь. У некоторых моделей только 8к а у других и 16к+ можно сделать. У магнума только 8к максимум ставь.

Аноним 14/09/24 Суб 16:09:33 #155 №886516

>>885335 →
Ну, проще написать, на самом деле. =) Делов-то.

>>885341 →
Ты опять забыл таблетки выпить? =( Чувак, ну ты не забрасывай свое здоровье…

>>885371 →
Возьми LazyMix+ (Real Amateur Nudes) и накати NostalgiCam (18+) - Nude Webcam Girls + всякие селфи.

Памяти не хватит ни на что вообще, сразу дропай.
Для кодинга Deepseek-Coderl-V2-Lite, его можно крутить на проце, кстати.
Для кума — пиздуй в шапку, там охуенная подборка спецом для новичков. Чел старался.

> mini-magnum-12b-v1.1
Да.
> Q4_K_M
Нет.
Хотя бы Q6.

Работать будет, если подрубить че-то там, для работы наружу.

>>885379 →
Хуйня, даже не тестируй такое говно. Не трать время.

>>885386 →
Я сочувствую твоим страданиям. =) Зато ты приобрел опыт.

>>885441 →
> по совету
> качает говно в третьем кванте

Чувак, послушай, то что они не влазят тебе в видеокарту не делает модели плохими. Это делает плохой твою видеокарту.
Качай не ниже Q6 (а лучше Q8) и выгружай на оперативу, иначе никак.
Или докупи вторую видяху.

>>885446 →
Опа, нихуя себе.

>>885513
ТОЧНО НЕ 4060.

>>885559
Плюсую, сижу с вербоуз всегда.

>>885563
Нет, скорее только через апи и можно.
Убабуга по умолчанию работает в режиме «Ты отыгрываешь персонажа, вот чат, напиши следующее сообщение:» это ролеплей, а не диалог, и ллм понимает, что она ролит с тобой.
А по апи зачастую диалоги хуярятся, там иной результат.

>>885593
Значит косарь за кит, плюс опера, и видяхи. На райзерах, вероятно.
Ну, так-то, цена норм для тех, кто хочет дохуя, но не хватает на H100.
Новая база тре… кекеке.
Хорошечно, спасибо.

>>885624
Ну, в теории ты можешь обращаться с пресонажам из убабуги через апи, но в общем, да, если не делаешь специально — настройки никак не влияют, только то, что ты даешь.

>>885628
Твоя таблица ну полная хуйня.
Я не обвиняю тебя, просто очень жаль, что тебе сразу никто толком не объяснил, что ты трогаешь исключительно говно, почему-то.
Точнее, тебе говорили, но недостаточно резко.

ВЫКИНЬ
ДЕРЬМО
Качаешь гемму в 8 битах или мини-магнум в 6 битах МИНИМУМ, а лучше в 8.
И тестишь ТОЛЬКО ИХ И ТОЛЬКО ТАК.
Ну, на вкус и цвет, конечно, но все остальное будет давать хуевые результаты в любом случае. Я не знаю, что ты пытаешься выжать из такого ужаса.
И, да, у тебя будет медленно, хоть укакайся, либо будет тупо и криво, тут выбор за тобой.

>>885724
Кобольд пихает свои префиллы в промпт, а если ты еще и галочки не снимал пихать адвенчуре промпт… =) То это эпик фейл.
Кобольд надо тонко настраивать и он все равно так себе.
Чисто для вката подходит.

>>885906
Ну 9 прям говно на фоне дипсик кодера.
Если полторашка такое же говно — то… это уже достойно, конечно. =)

>>885956
Кстати, как пихают такое оформление? Я видел уже где-то тут.

>>885977
А быстрее-то схуя? О_о Но, интересно, попробую.
Я не он, но спасибо. =)

>>885981
Переводчик в 2к24? Ловите наркомана!

>>886000
Скилл ишью или бомж? Но если бомж, то да, переводчики, шо поделать.

>>886003
Здесь. Гугл, кстати, в последнее время прям напоминает…

>>886050
Аноны такие:
> Это смешная температура.
Потом:
> у меня умирает тесла, что делац =')

Но у того чела, вроде, 75 была от стаблы на постоянке.

>>886099
О, 27б может быть клевой!
Надо потестить.
Жаль в 16 гигов не влезет, эх… Где там материнки с тремя слотами? х) Впихну все три P104-100, будет ультра-бомж сборка.

>>886104
Не, баян, еще месяцы назад скидывали такое же.

>>886271
> для жоры достаточно x1.
До первой обработки длинного контекста с двумя и более картами. =)
> Я экспериментально проверил как работает использование нескольких карт.
Ну ты хуйню проверил, братан.

Потестируй следующим образом.
Залей на одну видеокарту небольшую модель и прогони тест на контекст… Ну 60к контекста. Как быстро пережует.
Потом, залей эту же модель ровно на три карты (или сколько у тебя там), и на х1 линии залей тот же контекст.
Охуеешь от разницы.
Вот, не надо сейчас рваться жопой (я надеюсь, ты адекватный) и отказываться от тестов, чтобы не развалился твой манямирок.
Просто возьми и сделай эти тесты, и покажи, какая скорость обработки промпта в 1 видяхе, какая скорость в х16+х16 и какая скорость в х1+х1. Если ты прав, то разницы не будет. Но если разница будет…
Короче, влияние количества линий пренебрежительно мало на малых контекстах, а на больших возникают проблемы. Вот увидишь.

>>886276
Там есть токенайзер каунт. Был раньше.

>>886293
> подписку на гопоту
В локал треде.
Про кум в т.ч.
Гениально.

>>886467

1. Там должно быть пару секунд.
2. Объем ответов зависит и от модели, и от карточки.
3. «Не отвечай за юзера».

https://huggingface.co/Quant-Cartel/mini-magnum-12b-v1.1-exl2-rpcal — возьми 6bpw и 8к контекста или 16к 8-битного контекста.

Аноним 14/09/24 Суб 16:11:31 #156 №886517

>>886515
Вот тут плюсану, я отдельную видяху поставил под рабочий стол и прочее, чтобы игровую всегда держать свободной. Лишний гиг не лишний.

Аноним 14/09/24 Суб 16:15:46 #157 №886522

>>886516
https://huggingface.co/Quant-Cartel/mini-magnum-12b-v1.1-exl2-rpcal
Дай ему нормальную ссылку, без эксламмы и на вторую версию.

>>886467
Вот, держи. Это оптимальный вариант для 12 гигов видяхи и качества.
https://huggingface.co/bartowski/magnum-12b-v2-GGUF/blob/main/magnum-12b-v2-Q6_K_L.gguf

Аноним 14/09/24 Суб 16:18:28 #158 №886524

>>886522
Если у него 4070, то нормальная ссылка — как раз эксллама. И работает чуть лучше, и чуть быстрее. И если вдруг вылезет на оперативу — вылетит к хуям. =D
Поэтому я ему и дал именно на экслламу. Чтобы он сравнил лучший вариант с текущим.

Но, q6_K_L тоже пойдет, думаю.

Выбор у него теперь есть из лучших вариантов под его видяху.

Аноним 14/09/24 Суб 16:22:42 #159 №886527

>>886516
>Переводчик в 2к24? Ловите наркомана!
Может я и наркоман, но плюсов куча:
Токенов для eng-текста требуется меньше, понимание модели лучше. Примитивный стиль перевода Гугла для общения с моделью лучше в целом, имхо. Из недостатков - перевод иногда косячит, но при тексте от 300 токенов уже работает с контекстом и переводит верно, даже художественно.

Аноним 14/09/24 Суб 16:24:06 #160 №886528

>>886524
>оперативу — вылетит к хуям.
Странно, ну это уже проблемы пользователей эксламмы, на кобольде такого нет.
Кстати, а что тогда произойдёт, когда он на этой эксламе упрётся в 8к контекста, учитывая что я слышал что каждый 1к контекст примерно занимает 1гиг видеопамяти и учитывая что сама модель весит около 10,4 гига? Или в эксламме эта модель весит меньше?

Аноним 14/09/24 Суб 16:34:47 #161 №886534

image.png

>>886516
>Не, баян, еще месяцы назад скидывали такое же.
Последний раз видел бота AICG треда, но у него форматирование и оформление другое.
А как новая хуйня называется?

>>886271
>просто добавил это в чара
А двачевское HTML-форматирование с аватаркой бота в посте и постами с ответами он тебе сам по рофлу написал?

Аноним 14/09/24 Суб 16:37:01 #162 №886536

image.png

>>886527
> при тексте от 300 токенов уже работает с контекстом и переводит верно, даже художественно
Может у них там подключается другая модель перевода?
Это интересное замечание, я не обращал внимания.

>>886528
Нет, это не проблема, а фича. =)
Это отключаемо, просто приятнее увидеть, что у тебя модель с контекстом не влазит, нежели сидеть на медленной скорости и думать, что «ну, 4070 не способна более чем на 6 токенов…»
Так что, это ггуфопроблемы, получается. =)

По поводу контекста. хз.

Вот три скина. Без модели. С моделью и 4К контекста. С моделью и 8к контекста.
Это Немо 6.4bpw.
Т.е., 4к контекста = 0,5 гб, я хз. =)

Контекст рабочий.

Аноним 14/09/24 Суб 16:37:43 #163 №886537

>>886293
>хотелось бы конечно, но низзя, не раскидывается она, как минимум потому что не однопроходная......
Недавно Флюкс в GGUF-формате квантовали. Я ни на что не намекаю, но...

Аноним 14/09/24 Суб 16:37:46 #164 №886538

>>886534
Не знаю, самому интересно. =)

Аноним 14/09/24 Суб 16:38:31 #165 №886539

>>886536
*скрина
слоупокофикс

Аноним 14/09/24 Суб 16:52:49 #166 №886549

изображение.png

>>886536
Нахуй так жить?

Аноним 14/09/24 Суб 16:53:06 #167 №886550

>>886303
М-м-м, идейный опенсорсник, наверное и на такси не ездиш если машина проклятых капиталистов и без открытых исходников

если инструмент выполняет работу свою, то им пользуются, или прикажеш опенсорса ждать?

Аноним 14/09/24 Суб 16:56:03 #168 №886553

>>886382
Ну так про гопоту я условно, можно и Ламму жирную арендовать и клавдию, вопрос же не в этом, вопрос в том, стоит ли покупка железа выхлопа от него?

Аноним 14/09/24 Суб 16:58:24 #169 №886555

>>886550
ну иди нагенерируй в гопоте советов по знакомству с маленькими девочками или советов по ебле с уличными псами, я посмотрю как ты это сделаешь, клоун.
Выполняет у него блять работу. Соевая сетка с клеточкой на члене модели.

Аноним 14/09/24 Суб 17:00:51 #170 №886557

>>886426
Та хватит со своим кумерским ролплеем сравнивать, да, никто не затачивает ЛЛМ под то чтобы вася сычев сидел дрочил в чатике,

может ты по уровню эрудированности их сравнивал? или по качеству перевода и умению обрабатывать документы текстовые? Или код генерит и ошибки в коде хорошо ищет?, может граматику проверяет?

такое чувство создается что тут одни кумеры РПшники сидят, и по другим критериям модели не тестятся вообще?

Аноним 14/09/24 Суб 17:02:46 #171 №886560

>>886557
>никто не затачивает ЛЛМ под то чтобы вася сычев сидел дрочил в чатике,
Затачивают. Но не гопоту. И результаты хорошие. Но не с гопотой.

Аноним 14/09/24 Суб 17:04:00 #172 №886562

>>886557
>такое чувство создается что тут одни кумеры РПшники сидят, и по другим критериям модели не тестятся вообще?
ты только это понял?
новичок в треде чтоли?

Аноним 14/09/24 Суб 17:05:26 #173 №886564

>>886549
Бомжую, по факту. =(

А где еще торренты хранить, сериальчики, музычку, ух, все локальное, вдруг захочу пересмотреть или интернет отключат!.. =D

>>886550
Вообще, немного наоборот, коммунизм против опенсорса, это капитализм за.
Так что, наверное на такси ездит, если хочет. Или не ездит, если не хочет. Или каршеринг. Как захочет. Лишь бы не принудительные автобусы. =D

>>886557
В смысле, не затачивает? Файнтьюны — буквально затачивают, да.
Так что, все логично.

Аноним 14/09/24 Суб 17:22:01 #174 №886593

>>886537
ну, поживем - увидим - точто там гуф не значит что разобъется нормально и будет работать....

Аноним 14/09/24 Суб 17:29:46 #175 №886608

RPK-16-(Girls-Frontline)-Girls-Frontline-Anime-stalker-art-8589985.png

1. Нужно купить сервер с 12 канальной ддр5. Дорого нахуй, но тогда даже 400+b модели можно включать.

Аноним 14/09/24 Суб 17:30:22 #176 №886610

изображение.png

>>886555
>советов по знакомству с маленькими девочками
А тебе это зачем? Плюс нейросети выдадут баяны без задач.
>>886564
>А где еще торренты хранить
На NAS, где же ещё.

Аноним 14/09/24 Суб 17:32:01 #177 №886612

1442251251296.jpeg

>>886610
А у тебя хороший нас. Что это за устройство и как собирал?

Аноним 14/09/24 Суб 17:33:14 #178 №886615

>>886555
>ну иди нагенерируй в гопоте советов по знакомству с маленькими девочками или советов по ебле с уличными псами, я посмотрю как ты это сделаешь, клоун.

Ты серьезно? у тебя по жизни два интереса только? псы и девочки? походу надо кластер арендовать и накатить моделькуд для таких кумеров и на бабосы доить....
так по себе ровнять не стоит, другим надо для других задач ЛЛМ, при которых твоя соя не заметна от слова совсем

>>886560
Ну да, но контекст был про коммерческие, ни гопота, ни гемини, ни клава, ни преплексити не заточены под это, более того, формат асистента более выгоден для большинства....

>>886562
>ты только это понял?
Нет, но надеюсь все еще что есть применяющие на практике всеже ... или они все в треде гопоты сидят? отдельного то не кумерского треда нет...

>>886564
>В смысле, не затачивает? Файнтьюны — буквально затачивают, да.
та едрить, там про гопоту разговор шел, и да, ни одна из официальной гопоты не заточена под это...

Аноним 14/09/24 Суб 17:34:00 #179 №886616

image.png

>>886564
> или интернет отключат!

Аноним 14/09/24 Суб 17:34:25 #180 №886618

>>886612
>Что это за устройство и как собирал?
Материнка на 2011-v3 и серверный корпус под 10 15 дисков. Про запас, там и половины гнёзд не занято.
Ещё там можно подрубить 3 видяхи по схеме 16+16+8, но у меня денег на это нет ((

Аноним 14/09/24 Суб 17:44:52 #181 №886631

>>886615
>Ну да, но контекст был про коммерческие, ни гопота, ни гемини, ни клава, ни преплексити не заточены под это, более того, формат асистента более выгоден для большинства....
Ну следовательно если ты не большинство - собирай ГПУ-сервер или арендуй. Плохо, что всё это недёшево. Тяжело быть илитой :)

Аноним 14/09/24 Суб 17:46:57 #182 №886633

6bfaf8eb712ed61332c7d2c16647d4891ae7339av2hq.jpg

>>886618
Малаца. Хорошо зделол.

>>886616
>интернет отключат!
Спутниковая тарелка в сторону швитого маска + НАС

>>886631
>Тяжело быть илитой :)
Жиза. Просто нет ни доступных железяк, ни нормальных сервисов.

Аноним 14/09/24 Суб 17:49:42 #183 №886634

>>886615
>Нет, но надеюсь все еще что есть применяющие на практике всеже ... или они все в треде гопоты сидят? отдельного то не кумерского треда нет...
ну я использую для не кумерских задач, да. И для работы айти и просто проконсультироваться и поговорить.
Но было бы странно имея локальную ллм не кумить на ней. Если ты смог запустить 405б модель у себя под кроватью и не делаешь с ней порнорп - то у тебя точно что-то не в порядлке с головой.
Вот так и получается, что тут полный тред кумеров.

Аноним 14/09/24 Суб 17:52:35 #184 №886635

>>886494
> Я не на графики смотрю, это чисто субъективное мнение по итогам использования. Если сравнивать 4о с лламой 70b, то первый просто сливается в унитаз, как дешёвка.
Ну и для чего ты их используешь?

Аноним 14/09/24 Суб 18:07:57 #185 №886648

>>886633
>тарелка в сторону швитого маска
Он прогибается под требование властей, ты у него получишь тоже, что и по проводу то есть нихуя.

Аноним 14/09/24 Суб 18:25:43 #186 №886660

>>886610
> NAS
Справедливо!

>>886615
> та едрить, там про гопоту разговор шел
Не, чел, ты в треде локальных моделей, там диалог шел о том, что локальные модели превосходят гопоту в том, что заточены. ) Признай поражение, не сопротивляйся.
По факту же разъебали.

А о том, как она в других задачах — то она (вместе с клодом и джемини) все еще сота, но уже не так чтобы сильно.
В VL задачах Qwen2 дышит в лицо попой (API-шная обошла, если что, да), в программировании есть Deepseek-Coder (и вовсе фулл опенсорсный), в РИЗОНИНГЕ ЕСТЬ РЕФЛЕКШИН АХАХАХ, ну, то есть, Llama-3.1-405B, да и дипсик опять же, и Mistral-123b, всего хватает, что отстает от актуальной гопоты лишь чуть-чуть.
У корпоративных ллм плюсы — в артефактах/гптхах, доступе к вебу, доступе к твоей инфе. На локальных это надо костылить, а там уже закостылено до нас.

А если вернуться к началу вашего диалога… Почему платишь за локальные а не подписку? Паранойя и сенситив данные. В корпоративном секторе на это многим плевать (неожиданно, но факт), а вот в частном… так же, но в этом треде сидят те,к ому не плевать на приватность своих данных. Вот и предпочитают закупиться железом вместо подписки.

Такие дела.

>>886618
Оу май, материнкой поделишься?
Я смотрю, на Z270 можно подключить x8+x8+x4, и стоит она 7к рублей на авито.
Но если есть вдвое больше, то почему бы и не да?

>>886634
Кстати, лол, но сижу тут год и не кумлю. Ведь есть stable diffusion с лорами и flux…

Аноним 14/09/24 Суб 18:32:52 #187 №886669

>>886660
>Оу май, материнкой поделишься?
Сасус x99-e, сейчас такие уже не продают, купил последнюю из завалявшихся на складе. Проц офк с алишки самый простой, стопка памяти оттуда же.
>на Z270
Так это же десктопное говно, там никогда не было кучи линий.
>Ведь есть stable diffusion
Текст даёт больше простора для воображения, плюс развитие сюжета, так что стояк на буквы больше, лол.

Аноним 14/09/24 Суб 19:37:01 #188 №886741

Обновил таверну - пропали аватарки у ботов и юзера.
Что за дела? Как вернуть?

Аноним 14/09/24 Суб 19:46:00 #189 №886746

1584950910376.png

>>886233
> Линий там достаточно, 40 штук же
А какая конфигурация слотов и что за процы?
> А вот одна плашка это конечно лол.
Не, вотэт пиздец.
>>886528
> что каждый 1к контекст примерно занимает 1гиг видеопамяти
Даже в богомерзком жоре это подебили добавлением флешатеншн спустя долгое время. Но в целом - эксллама почти не повышает расход врам относительно выделенного в начале, так что вылет крайне маловероятен. Жора же по ходу заполнения контекста наращивает аппетиты, и именно там будешь радоваться оому во время горячего кума.
>>886549
В чем проблема? Непревзойденные объемы, ахуительная надежность и отсутствие внезапных смертей, скорость выше чем днище qlc, низкая цена. Пикрел еще мелочь.
>>886557
> никто не затачивает ЛЛМ под то чтобы вася сычев сидел дрочил в чатике
Всмысле, а как же десятки шизомерджеров, которые с использованием методов средневековых алхимиков пытаются синтезировать золото? А сейчас даже пулл нормальных тюнеров набрался.
>>886610
> На NAS
Скорость доступа не та.

Аноним 14/09/24 Суб 19:46:57 #190 №886747

>>886631
а если большинство то можно не собирать?

Аноним 14/09/24 Суб 19:48:12 #191 №886749

>>886747
>а если большинство то можно не собирать?
Можно. Разрешаю.

Аноним 14/09/24 Суб 19:51:28 #192 №886754

>>886634
>у себя под кроватью и не делаешь с ней порнорп
предпочитаю такой рп с тянучкой на кровати) (не, серьезно, даж завидую немного что у народа времени столько есть чтобы тупо с нейронкой общаться...)

>И для работы айти и просто проконсультироваться и поговорить

это поинтересней уже, какие сетки в каких задачах себя проявили хорошо?

Аноним 14/09/24 Суб 20:01:49 #193 №886762

>>886746
>В чем проблема?
Шум же, и скорость улитки.
>отсутствие внезапных смертей
Ты это говоришь тому, кто похоронил уже 3 жесткача, 2 из них ВНЕЗАПНО.
>Скорость доступа не та.
Если гигабита мало, тянешь 2,5/10/40 гигабит и довольно урчишь.
>>886754
>рп с тянучкой на кровати
Пиздец с каким отребьем я сижу на одной борде.

Аноним 14/09/24 Суб 20:03:19 #194 №886767

>>886762
>Пиздец с каким отребьем я сижу на одной борде.
база. Нормисы уже из б в тематику протекли блять...

Аноним 14/09/24 Суб 20:08:31 #195 №886771

>>886762
> Шум же
Только для шизиков.
> скорость улитки
Не настолько плохо и с учетом остальных плюсов это не проблема.
> кто похоронил уже 3 жесткача, 2 из них ВНЕЗАПНО
Какой-то ультимейт скиллишью, даже с погорельца можно восстановить данные, пусть и сложно. Зато с ссд - нахуй иди просто, оно помирает внезапно и сразу без каких либо признаков, тогда как хард будет до последнего пердеть, страдать но терпеть. Где-то валяется пачка дохлятины, за все время доверия к ним так и нет, никаких важных данных нельзя оставить без регулярного бекапа.
> тянешь 2,5/10/40 гигабит
Куда ты их протянешь, нужно соответствующее железо, что будет стоить неадекват и/или потребует времени и пердолинга. И всеравно всратый протокол не способен обеспечить нормального времени доступа, тогда как на локальном харде проблем нет.
> Пиздец с каким отребьем я сижу на одной борде.
Это моя фраза в твою сторону.

Аноним 14/09/24 Суб 20:12:09 #196 №886773

>>886660
>там диалог шел о том, что локальные модели превосходят гопоту в том, что заточены.
там диалог шел о том что гопота в кумерство не может, но то такое,

>но в этом треде сидят те,к ому не плевать на приватность своих данных. Вот и предпочитают закупиться железом вместо подписки.

Не, ну тут без спорно, а то узнает еще кто, что славик сычев правой дрочит, левой жопу щекочет... прикольно так-то что вообще как раз корпоратам должно быть не плевать на приватность данных, но там и возможности локалки крутить есть... просто интересен вопрос аналитический скажем - сколько переплачиваеш или наоборот выигрываеш в сравнении используя локалки а не коммерцию, и выгоднее ли свое железо, или арендовать

лама 405 жжет конечно...
>Classic tongue-twister!

The answer, of course, is "a woodchuck would chuck as much wood as a woodchuck could chuck if a woodchuck could chuck wood!"

But, just for fun, let's try to estimate a real answer. Woodchucks, also known as groundhogs, are rodents that burrow in the ground and move earth as part of their habitat creation. They are quite strong for their size, and can move a significant amount of soil relative to their body weight.

If we assume a woodchuck could chuck wood with the same efficiency as they burrow soil, we might estimate that they could move a volume of wood equal to the volume of soil they can excavate.

According to a study on groundhog burrowing behavior, a single groundhog can excavate up to 700 pounds (318 kg) of soil in a day. If we convert this to a volume of wood, assuming a density of dry firewood to be around 35-40 pounds per cubic foot (560-640 kg/m³), we could estimate that a woodchuck could potentially move around 1-2 cubic feet (28-57 liters) of wood per day.

So, to answer the tongue-twister in a completely unscientific and humorous way: a woodchuck would chuck about 1-2 cubic feet of wood if a woodchuck could chuck wood!

Аноним 14/09/24 Суб 20:15:46 #197 №886776

>>886771
>Какой-то ультимейт скиллишью
Просто много дисков и много времени плюс удача с двумя ST3000DM001, погугли артикул.
>даже с погорельца можно восстановить данные
Абсолютно нереентабельно, по почке продать за каждый мегабайт. Я лучше в бекапы.
>тогда как хард будет до последнего пердеть
Ну вот у меня не пердели, в один момент перестали данные отдавать и всё.
>нужно соответствующее железо, что будет стоить неадекват
Бу серверного говна навалом, и с нормальными протоколами под SMB оно будет летать неотличимо от локального. А шум где-то далеко.

Аноним 14/09/24 Суб 20:16:01 #198 №886777

>>886746
>Скорость доступа не та.
сколько тебе скорости надо то? 40гбит кинь сеть, хватит же?

Аноним 14/09/24 Суб 20:19:35 #199 №886780

>>886762
>Шум же, и скорость улитки.
Что у вас за винты что вы их слышите? последний который помню из прям слышных это был 4 гиговый из 90х, от еще с таким звонким звуком скрежетал....
или у вас охлады сверх бесшумные? в пеке я вообще не слышу диска, в NAS похрустывают малость, но тоже не критично, охлад опять таки громче...

Аноним 14/09/24 Суб 20:21:34 #200 №886782

>>886762
>Пиздец с каким отребьем я сижу на одной борде.
а тут филиал инцелача и нормисы не приветствуются?
ладно придется кумерить целыми днями в таверне...

Аноним 14/09/24 Суб 20:26:40 #201 №886785

>>886780
Тихий комп и вообще окружение, 2 диска слышно когда работают
Но прикол в том что ссд так же слышно, иногда при полной загрузке тихонько свистят падлы. Чем? Не ебу
Минусы хорошего слуха и низкого звукового загрязнения

Аноним 14/09/24 Суб 20:29:56 #202 №886788

https://www.reddit.com/r/LocalLLaMA/comments/1fg5fmz/polyglot_100_private_translations_on_chrome/
Вот это прикольно, хочу. Вобще хочу больше плагинов для работы в браузерах с локальными сетками
Будет медленно, но все равно интересно

Аноним 14/09/24 Суб 20:49:44 #203 №886803

>>886553
Зависит от ожидаемого срока использования, не? Если ты покупаешь условную теслу и планируешь её заменять на что-то более современное примерно никогда, то тебе достаточно прожить плюс-минус год, чтобы покупка стала выгоднее аренды. А если берёшь 4090 и собираешься её заменять на 5090 сразу с релизом, то лучше не покупать обе и влошиться в аренду. И я здесь даже не учитываю наркоманские ситуации, когда можно купить теслу за 15к и через год продать за 20.

>>886635
>Ну и для чего ты их используешь?
Да для всего. Понятное дело, что гопота для кума не использовалась, но всё остальное - вполне себе. Чатбот, кодинг, обсуждение разной хуйни. В итоге гопота меня на кодинге и доебала, она регулярно уходит в лупы и пишет тот же код, даже если функции она нагаллюцинировала - извиняется, соглашается, что таких функций нет. И снова их использует.

Аноним 14/09/24 Суб 20:54:22 #204 №886809

>>886776
> Абсолютно нереентабельно
Подобное в совсем печальных случаях и если данные вялые. А так по дефолту хватает подмахнуть плату (и перепаять eeprom при необходимости), механические же дефекты прогнозируемые и плавные, всегда успеешь заметить и принять меры. Классика "вот у меня" имеет сомнительную релевантность, погугли тренды и статистику.
> Бу серверного говна навалом
Обмазываться этим добром, тем более дома - довольно сомнительное действо, и всеравно оно будет всратым, что там за "нормальные протоколы"?
>>886785
> Тихий комп
Отдельный вид шизы и расстройств невростеников, под нагрузкой оно будет шуметь априори, в холостую шум не будет заметным. Тут дело не в слухе.

Аноним 14/09/24 Суб 20:55:27 #205 №886814

>>886782
>а тут филиал инцелача и нормисы не приветствуются?
Ну в общем то да. И вообще, зачем имеющим тянку нейросети? Они просто не прозрели ещё. Хотя некоторые живут всю жизнь, не приходя в сознание, лол, и содержат несколько баб с детьми.
А кто прозрел, те понимают, что нейросетки, даже сейчас, во всём лучше мясных дырок.
>>886803
>и пишет тот же код
Замечал на последних снапшотах, старая умнее была.

Аноним 14/09/24 Суб 20:58:31 #206 №886823

>>886814
>что нейросетки, даже сейчас, во всём лучше мясных дырок.
та блин, хавать не готовят хату не убирают... дороговаты пока что короче роботы-гуманоиды... хотел робособаку прикупить от Унитри, но тоже дорого...

Аноним 14/09/24 Суб 20:59:01 #207 №886825

>>886809
>погугли тренды и статистику
Тренды как раз показывают, что механика отлетает всё чаще, а сосоди достаточно надёжны при домашнем использовании.
>что там за "нормальные протоколы"?
InfiniBand вестимо, задержек меньше, и самба умеет по нему работать.
>Отдельный вид шизы и расстройств невростеников
Вполне себе нормальное желание иметь тихий ПК. И да, дело именно в слухе, у меня мама нихуя не слышит, и 144 герца 4к монитора не видит. А мне прям критично.

Аноним 14/09/24 Суб 21:00:38 #208 №886829

>>886823
>хавать не готовят хату не убирают...
К мамке вернись, всё было в комплекте, при хороших отношениях с ней будет лучше любой другой родной дырки. И любит по настоящему а спускать лучше в кулачок под нежный сгенерированный голос.
>дороговаты пока что короче роботы-гуманоиды
Пока да. Но скоро будет в каждом доме.

Аноним 14/09/24 Суб 21:22:14 #209 №886859

>>886780
>Что у вас за винты что вы их слышите? последний который помню из прям слышных это был 4 гиговый из 90х, от еще с таким звонким звуком скрежетал....
Ага, а потом механику отладили и винты стали тихими. Старые и сейчас тихие, какие живы. А вот новые делают на отъебись и там уже жопа. Именно поэтому я лично перешёл на ссд.

Аноним 14/09/24 Суб 21:23:45 #210 №886860

Your selected API doesn't support the tokenization endpoint. Using estimated counts.
Что это за ошибка в Таверне? Кобальд после нее падает.

Аноним 14/09/24 Суб 21:25:12 #211 №886862

>>886829
>Пока да. Но скоро будет в каждом доме.
Скоро. Как раз те аноны, которым здесь и сейчас нет и двадцати к старости успеют попользоваться. Кашку сварить, задницу вытереть - в государственных богадельнях.

Аноним 14/09/24 Суб 21:25:44 #212 №886863

>>886860
Выбери в таверне внутреннюю токенизацию. Или обнови кобольд, вдруг старый. Или скажи, на какой модели ты наблюдаешь эту хуйню, ибо у меня такого никогда не было.

Аноним 14/09/24 Суб 21:29:16 #213 №886868

>>886863
Кобольд последней 1.74 (но было на всех версиях), модель Magnum 12b 2.5 kto, но опять же ошибка была всех моделях, если перебирать ботов в таверне.

Аноним 14/09/24 Суб 21:30:23 #214 №886871

изображение.png

>>886868
А, точно. Какое апи выбрано? Должно быть пикрил.

Аноним 14/09/24 Суб 21:33:23 #215 №886874

>>886809
>не будет заметным
Отдельная шиза читать жопой и считать всех дураками
У меня тут ночью тишина такая что я пердеж мухи из соседней комнаты слышу, а хорошо спать с включеным компом не могу, внимание на себе удерживает, паскуда
Собрал тихий комп, но и в простое его слышу все равно если чет на ночь оставлять там на вроде торрентов
Печаль беда

Аноним 14/09/24 Суб 21:36:38 #216 №886881

>>886874
>Собрал тихий комп, но и в простое его слышу все равно если чет на ночь оставлять там на вроде торрентов
>Печаль беда
Ну, пришло время собирать NAS. Я этим путём уже прошёл, пока остановился на этом шаге, даже интересно, что будет дальше. ин4б познаю дзен и сотру всю инфу нахуй, потом уйду в тайгу пасти овец.

Аноним 14/09/24 Суб 21:42:09 #217 №886889

>>886881
Можно упороться и собрать комп с полностью пассивным или полу пассивным охладом и качественными не свестящими ссдшниками
Будет полностью тихо до средней нагрузки, но слабовато и дорого. Но если хочется тишины любой ценой - это вариант
Нас - не хочу становится сисадмином и ебаться уже с 2 компами, но вариант

Аноним 14/09/24 Суб 21:42:56 #218 №886891

>>886825
> что механика отлетает всё чаще
Делая это плавно, прогнозируемо и громко вопя о проблемах, тогда как ссд - мгновенная смерть и в очень редких случаях обнаружение проблемы и блокировка записи.
> дело именно в слухе
Не, дело именно в невростении и расстройствах, причем оно может быть и как с йоба слухом, так и вообще без него. Со музыкальными навыками, способностью слышать/различать и тем более зрением никак не коррелирует, это что-то уровня "раздражает микроузор обоев что висят где-то позади". Не то чтобы осуждаю, каждый дрочит как хочеть, но нужно осознавать уровень.
>>886874
> хорошо спать с включеным компом не могу
Это нормально если там реальный шум, но когда "пердеж мухи" и такое - это диагноз, буквально. нахуя вообще спать в одной комнате с компом? И каково это жить без кондиционера? Страдай с берушами, обмазывайся noise machine, или покупай оверпрайс продукты с пренебрежимой разницей для дойки бедолаг.
>>886889
> комп с полностью пассивным или полу пассивным охладом
Во, апофеоз безумия.

Аноним 14/09/24 Суб 21:52:02 #219 №886902

>>886889
>не хочу становится сисадмином и ебаться уже с 2 компами
Настроил и забыл. Первое время ещё заглядывал в панельку, сейчас же зашёл туда впервые за полгода (диски пока ещё в порядке).
>>886891
>громко вопя о проблемах
В лужу пердя разве что. Пока в логи не заглянешь или в смарт не посмотришь- хуй узнаешь.

Аноним 14/09/24 Суб 21:53:27 #220 №886903

>>886891
>диагноз, буквально
Кек, я думал диванные психоаналитики уже вымерли лет 10 назад
Я могу спать с неоднородным шумом, дождь - балдеж
Но упорядоченный шум мозги не игнорят а активно отслеживают. И это прям нормально, инстинкты помнят хищников в соседнем кусте.
Но мешает когда эта хуйня триггерится на ерунду, на вроде активности дисков или однородного шума крутиляторов
Завдуую тем кто спит в любых условиях

Аноним 14/09/24 Суб 22:02:28 #221 №886906

>>886874
>хорошо спать с включеным компом не могу
Cплю в наушниках под документалки про маньяков или аудиокниги Г. Ф. Лавкрафта. И это просто охуенно. Правда, наушники быстро разваливаются, но это похуй.

Аноним 14/09/24 Суб 22:03:06 #222 №886907

Монотонный шум очень мне мешает, поэтому я не понимаю как люди спят с включенным пк в одной комнате. Однако, с тем же самым я спокойно могу уснуть слушая - мело/техникал/брутал дет и прочую музыку, хуй поймешь мозг.

Аноним 14/09/24 Суб 22:07:03 #223 №886912

image.png

Rocinante-12B-v2d-Q6_K

Аноним 14/09/24 Суб 22:07:18 #224 №886913

>>886859
та вопрос в объемах, 8, 16 тб в виде ссд дорого очень будет, а винты для НАСов вполне надежные, на них не так экономят...

Аноним 14/09/24 Суб 22:09:10 #225 №886917

>>886912
М... Макс?

Аноним 14/09/24 Суб 22:11:28 #226 №886921

>>886917
Л... Лёха?

Аноним 14/09/24 Суб 22:11:57 #227 №886922

>>886902
так а кто тебе мешает настроить уведомление о проблемах с диском? более того, нормлаьные раид контроллеры диск который начинает сбоить из массивы выкидывают и начинают на резервный восстанавливать, но для этого диски конечно правильные нужны...

Аноним 14/09/24 Суб 22:18:57 #228 №886930

>>886922
>нормлаьные раид контроллеры
Я на мержФС сижу, поверх юзерспейсового NTFS в люнупсе...

Аноним 14/09/24 Суб 22:27:04 #229 №886934

>>886930
Что ты такое? зачем ты такие странные штуки юзаеш?
есть же православный MD, LVM, ZFS, BTRFS, последние две предпочтительней, если мы уж про програмные райды говорим, есть хардверные райд контроллеры которые с процессора нагрузку снимают по подсчету контрольных сумм, но то уже сильно гиковское, но зачем НТФС под линупсом? она ж капец дибильная...

Аноним 14/09/24 Суб 22:29:39 #230 №886938

>>886930
Выше по треду ловили каких-то наркоманов-переводчиков, но у этого анона явно что-то более забористое.

Аноним 14/09/24 Суб 22:34:05 #231 №886941

>>886938
я вообще хз где люди такое назодят вообще? сколько уже толкусь с серверами, но про такую дичь не слышал даже, и оно походу капец странное, посыплется так не факт что вообще восстановиш чем-то... на популярные штуки хоть инструментарий есть...

Аноним 14/09/24 Суб 22:41:32 #232 №886946

Накопал я короче инструментов для тренировок, походу калькулятор трохи трындел... бо диспетчер задач показывает что шаред мемори используется - тобиш 410М полностью не влазит в 8гб, хотя... кто знает, может что-то не нужное выгрузилось... около 3 сек/итерацию молотит...
теперь назревает вопрос по подготовке датасетов - обучение идет исключительно супервайзед? и надо датасет в виде вопрос-ответ? или есть возможность просто текстами накормить модельку?

и еще вопрос - Токенайзер, он настроенный заранее идет и во время тренировок не меняется? или он тоже тренируется? просто выходит фигня в том, что токенайзеры в основном на инглиш ориентированы, то явно не очень хорошо, если только с кириликом работать...

и как к стати понимать прогресс тренировок? лосс как-то падает не охотно...

Аноним 14/09/24 Суб 22:52:32 #233 №886955

>>886934
>зачем ты такие странные штуки юзаеш?
>>886938
>>886941
Да ёбт, говорю же, эволюция. У меня уже было 4 диска в винде, самой собой на NTFS, и я не стал переделывать всё это говно под BTRFS, которая конечно мне мила, но всё равно не доверяю, наебнёт все данные и глазом не моргнёт.
Знаю что упорото, но оно работает.
>>886941
>посыплется так не факт что вообще восстановиш чем
МержФС это тупо раскидывание папок по дискам и их виртуальное объединение, там нечему сыпаться, по факту у меня самые восстанавливаемые диски, ибо там старая добрая NTFS, и диски могут работать по отдельности как будто и не было никакого мержа.
>>886946
>тобиш 410М полностью не влазит в 8гб
Попробуй меньше, начни с сотки и наращивай. Если будет переломный момент, где скорость прям сильно просядет, значит переполнение.
>3 сек/итерацию
Лол, при обучении меньше ляма итераций вообще ни о чём, вот и считай, сколько это займёт у тебя времени.
> или есть возможность просто текстами накормить модельку?
Я только так и делал.
>и еще вопрос - Токенайзер
Как хочешь. Можешь отдельный обучить, поиграться с предварительным разбиением, к примеру. По коду там всё видно, что происходит.
>и как к стати понимать прогресс тренировок?
Индивидуально, лол. В каждом конкретном случае и комбинации настроек свои темпы падения лоса. Так что запускай саму модель и проверяй, что она высирает. Ты же разбил датасет на трейн, валидейт и тест?

Аноним 14/09/24 Суб 22:53:56 #234 №886958

>>886946
>около 3 сек/итерацию молотит...
Пиздец, как медленно.
>Токенайзер, он настроенный заранее идет и во время тренировок не меняется?
Если файнтюн, то токенизатор лучше не трогать. Лора - трогать категорически не стоит. Кроме использования заранее резервированных тегов, их можно донастроить. Если трейн с нуля, то токенизатор можно натренировать. Настрой претокенизацию, т.к без претокенизации будет суперхуёво. BPE вордпис тренится плохо, очень плохо. А другие тебе и не нужны, скорее всего.

Аноним 14/09/24 Суб 23:08:06 #235 №886980

>>886955
>>886958
я через ЛЛамаФактори пока треню, оно само занимается разбиванием датасета, итд,

С сотки - хорошо сказанно - я ж существующую файнтюню, хотя, надо подумать, может рили можно с нуля бахнуть, и нормальный токенайзер сделать на кирилик языки, по идее это должно лучше перфоманс дать... материалов количество чет к нолю близится по обучениям полным, все про лоры в основном чет...

больше ляма это с нуля если учить или файнтюн? лол в конфиге по умолчанию вообще лимит на 1000 итераций стоял...

Аноним 14/09/24 Суб 23:12:52 #236 №886995

>>886980
С файнтюном не работал если что.
>больше ляма это с нуля если учить или файнтюн
С нуля офк. Хотя наверное зря я тебе про тренировку базовой задвигаю- на это у тебя железа всё равно не хватит.

Аноним 14/09/24 Суб 23:23:01 #237 №887008

>>886946
>410М
Нахуя тренить такую мелочь? Это даже не 1.5B, это что-то совсем за гранью. Только чисто ради опыта может быть, потому что смысла от такой модели ровно ноль.

Аноним 14/09/24 Суб 23:29:34 #238 №887015

>>886902
Признание, правильно.
>>886903
> Но упорядоченный шум мозги не игнорят а активно отслеживают.
Шум нормальных кулеров едва различим и не отличается от дождя, если они не громкие. Пиздецом может быть наличие резонансов и частое слышимое изменение их скорости вращения, вот это будет вымораживать но скиллишью.
>>886930
Ебааааать, снимаю шляпу, делись дурью
>>886946
> обучение идет исключительно супервайзед? и надо датасет в виде вопрос-ответ? или есть возможность просто текстами накормить модельку?
Да. Все зависит от твоих скриптов тренировки и отличия будут только в применяемых масках и желаемом методе.
> если только с кириликом работать
> 410М
Какой самоуверенный господин.

Аноним 14/09/24 Суб 23:31:58 #239 №887016

>>886995
ну, если до 300М снизить то выгрузки не должно бы быть по идее, может шустрее будет...

ну, пока-может и не хватает, но если надо можно ж и в аренду взять 48 гиговых, за 1$/час, если перспектива проекта обозримой будет, а можно и спонсора поискать, под академик ресерч иногда можно достать...
Есть еще про версия колаба, если не так много надо ресурсов,

Аноним 14/09/24 Суб 23:36:20 #240 №887021

>>887015
>Какой самоуверенный господин.
в чем принципиальная разница? в том что в класик модельках токенайзер в кирилик не обучен нормально? собственно для ответов на тупые вопросы со списка больше поллярда выделять как-то не кошерно...

>>887008
ну сорян, кластера для 70В не имею, и в ближайшее время не разживусь...

Аноним 14/09/24 Суб 23:45:01 #241 №887030

>>887021
Обучить ллм - сложно. Обучить ллм с базы - сильно проще. Обучить ллм с базы тому что оно вообще очень плохо знает - сложно. Мелкие модели сами по себе обучаются так себе, русского они не знают и обучение ему само по себе сложная задача.
Если все это сложить - будет ответ. Ничего плохого в этом нет, просто будь готов к неудаче.

Аноним 14/09/24 Суб 23:49:36 #242 №887037

>>887030
та я какбы к удаче и не был готов, меня порадовало что моделька вообще что-то из обучающего набора запомнила, и хоть иногда выдавала связный текст... но походу копну на тему того, как с ноля обучать, мне почему-то кажется что правильный токенайзер залог лучшей обучаемости? или всеже нет? (но ведь в основном ЛЛМ более прожорливы по токенам на русском? а меньше токенов меньше возможностей налажать... но это так, рассуждения...)

Аноним 14/09/24 Суб 23:53:17 #243 №887038

>>887037
>но ведь в основном ЛЛМ более прожорливы по токенам на русском?
Сама суть и структура токенизации говно, просто на русском это более заметно.

Аноним 15/09/24 Вск 00:00:20 #244 №887053

>>887037
Cмотри, какая хуйня, у тебя дефолтный токенизатор, допустим, совсем не может в русский. И будет кодировать один токен - одна буква. Здесь сразу два хуя в сраку. Первый, это модели сложнее выстраивать логические цепочки и взаимосвязи между токенами. То есть твоё количество параметров как бы "снижается". И второй, страдает скорость обучения, т.к за раз в модель посылается фиксированное количество токенов, это мало текста, меньше текста - меньше текста. Трейн идёт дольше.

Аноним 15/09/24 Вск 00:00:28 #245 №887054

Вот бы придумал какой-нить новый принцип этого говнища, чтобы можно было 100В на 12 бомжегигах запускать.

Аноним 15/09/24 Вск 00:07:31 #246 №887061 DELETED

здарова

Аноним 15/09/24 Вск 00:23:44 #247 №887074

>>887054
Скорее мы получим мелкие модели которые будут перформить как текущие сотки. Ну либо нам начнут впаривать видеопамять отдельными платами. На какой нибудь ахуенно мудреный алгоритм сжатия разжатия для запуска больших моделей на днищекартах я бы не рассчитывал.

Аноним 15/09/24 Вск 00:39:54 #248 №887093

>>887053
значит рассужда правильно, и токенайзер сразу надо на русик учить, чтобы словами кидал, а не буквами...

>>887054
принципа кардинально нового не будет, потому, что впихнуть невпихуемое нельзя... может придумают как еще оптимизировать и заквантовать чтоб меньше потери были и пустого не считать, но...

>>887074
тут тоже интересный момент, где предел мелкости, по сути теряя в параметрах мы теряем в эрудированности модели как минимум, та и сообразительности тоже.

По поводу Врама планками отдельными - тут не в враме вопрос собственно, вопрос скорее в тензорных процессорах доступных, сверх дорогой ХренDDR7 не нужон, просто сейчас видяхи по сути самые доступные универсальные решения для такого дела, но, так-то при правильной архитектуре 100500ядер и лютый многоканал памяти дадут возможность даже на DDR3 каком-нибудь выдать хорошую скорость... (хм, интересно, кто-то пробовал уже TPU на ПЛИСах делать и смотреть что с этого выйдет)

(интересно кста, я выше приводил пример ответа 405В ламы на "How much wood would a woodchuck chuck if a woodchuck could chuck wood?", кому нечего делать и есть возможность погонять относительно толстые модельки, чекните, будут попытки в рассуждение и ответ, окромя того что это скороговорка?

Аноним 15/09/24 Вск 01:40:54 #249 №887150

image.png

Хуйня какая-то
Почему не получается загрузить эту модель в textgen? Только вкатываюсь, ничего не гуглится толком.

Аноним 15/09/24 Вск 01:46:56 #250 №887153

>>887150
на всякий случай попробуй таверну. Угабуга на жоре часто модели прогрузить не может, потому что убабуга кривое говно.

Аноним 15/09/24 Вск 01:50:02 #251 №887155

>>886946
О, наконец-то анон решил не проперживать воздух шизотеориями, а сразу взяться за дело, уважаемо!
Делись кодом и результатами, если будет получаться. Я тоже хочу заняться такой хуйней, или тренить с нуля что-то уровня 100М ради опыта, или из идей очевидно зафайнтюнить готовую модель на всем пикабу или дваче, или и то и то вместе. Под пикабу есть готовый датасет, но старый, под двач надо самому архивач парсить.

>теперь назревает вопрос по подготовке датасетов - обучение идет исключительно супервайзед?
Что ты тренишь? Если с нуля, то просто кормишь текстами, под конец закидываешь самые качественные, потом файнтюн инструкциями 5%, потом на DPO отфильтровываются говноответы.
>Токенайзер, он настроенный заранее идет и во время тренировок не меняется?
Токенайзер или берется готовый, или делается на твоем датасете простым алгоритмом. Во время обучения он не меняется, максимум может быть можно вводить новые токены под разметку формата.
> и как к стати понимать прогресс тренировок? лосс как-то падает не охотно...
На 8 гигах, удивительно, что ты вообще видишь как он падает, по моему даже 100М с нуля обучается на H100 ~сутки.
>>887021
>ну сорян, кластера для 70В не имею, и в ближайшее время не разживусь...
Посмотри в строну аренды видеокарт или абуза гугл колаба.

И еще, если ты с нуля тренишь, то твоя модель будет лучше всего работать, если ты kv матрицы в одну или две на стой объединишь, так сейчас на всех новых мелких моделях делают.

>>887093
>TPU на ПЛИСах
А какая там скорость памяти на плисах? По моему там уровень позапрошлого поколения процов, при стоимости одной плисины как готовой H100.

Аноним 15/09/24 Вск 05:16:16 #252 №887199

>>887093
>по сути теряя в параметрах мы теряем в эрудированности модели как минимум, та и сообразительности тоже.
Нынешние мелкие модели на 2-4 лярда уже приближаются к народным 7-12B по производительности. Не во всех ситуациях конечно и не во всех задачах, но если сравнивать с прошлым годом, то скачок ощутимый. Раньше всё что ниже 13B считалось тупым и неюзабельым, непригодным даже для еби-меня-еби кума, не говоря уже о других сферах. А сегодня уже точно понятно, что количество параметров мало влияет на сообразительность.

>тут не в враме вопрос собственно, вопрос скорее в тензорных процессорах
Я не технолог, мозгов у меня мизер. Но в чем проблема выпустить плату чисто с видеопамятью и контроллером, например? Стоит у тебя какая-нибудь днищенская 4060, которая будет проводить часть вычислений, а к ней в пару ты прикупил елду на каких нибудь 32 гигабайта. И теперь у тебя не смешные 8, а целых 40 кило. Сиди гоняй себе какого нибудь командора и радуйся. На сам дорогущий чип тратиться не надо, на охлаждение тратиться не надо, плюс жрать это будет копейки даже в сравнении с какой-нибудь паленой теслой.

Аноним 15/09/24 Вск 11:28:06 #253 №887344

>>887074
> мелкие модели которые будут перформить как текущие сотки
Хотелось бы, но всему есть предел, сравниться с большими оно сможет только с ограниченной области задач под которую заточен.
>>887150
В интерфейсе не пишет про то что нужно скачать токенайзер и не дает инструкцию как это сделать?
>>887153
Надо huggingface пробовать вместо них, вот там говорят все модели загружаются.
орублять
>>887155
> какая там скорость памяти на плисах
Любая какую сделаешь. Именно они применяются во всяких высокоскоростных решениях, где, например, нужно буферизовать данные супербыстрого ацп, с которыми не в силах совладать даже мощный проц. Но конкуренцию передовым решениям хуанга это врядли составит, буквально прототипирование vs asic.

Аноним 15/09/24 Вск 13:00:03 #254 №887442

>>887199
>А сегодня уже точно понятно, что количество параметров мало влияет на сообразительность.
Нихуя подобного. Сотки всё ещё ебут всё и вся.
>прикупил елду на каких нибудь 32 гигабайта
Рядом положил и надеешься, что оно по эфиру сконектится?

Аноним 15/09/24 Вск 13:23:55 #255 №887467

>>887199
>Я не технолог, мозгов у меня мизер
по этому для начала надо почитать как устроен компьютер и как и почему это работает, ты же понимаеш что сама по себе видеопамять не имеет каки-то уникальных характеристик прибавляющих перформанса в десятки раз?

в том же ж и проблема, контроллер памяти по сути в процессоре стоит, суть не в том чтоб просто много памяти залить, суть в том, что нужна память к которой процессор имеет быстрый доступ - а значит ее надо прям на шину процессора вешать, и для этого процессор должен уметь адресовать такие объемы... тут в целом видится с одной стороны подход схожий с тем как в серверных процессорах - тобиш делать регистровую ГПУ память, чтобы адресовать большие объемы, или опять таки делать модульные приблуды, куда памяти докинуть можно... какая-нибудь отдельная тензорная плата, ну или на худой конец, тензорные модули в ЦП будут, и тогда можно будет использовать весь RAM доступный в пекарне, да, может для тренировок это будет не оч, но для запуска вполне себе...

Аноним 15/09/24 Вск 13:40:15 #256 №887484

>>887199
>А сегодня уже точно понятно, что количество параметров мало влияет на сообразительность.
Влияет. Чётко видна разница даже между 70В и 123В. Чем больше деталей нужно учитывать, тем больше параметров нужно.

Аноним 15/09/24 Вск 15:11:52 #257 №887555

>>887484
>даже между 70В и 123В
104 и 123 же.

Аноним 15/09/24 Вск 15:36:29 #258 №887574

>>887199
>Раньше всё что ниже 13B считалось тупым и неюзабельым, непригодным даже для еби-меня-еби кума
А сейчас не так, чтоли? Очевидно, что выше семидесяток умственные способности моделей практически не растут, но 7-12 это далеко не 70b.

>ты прикупил елду на каких нибудь 32 гигабайта.
Дефолтная отмазка - все длины дорожек от гпу до памяти рассчитаны, равноудалены и бла-бла-бла. Решается просто - стандартизацией. С завода распаянной памяти нет вообще, изначально ставится плата. Вторая по популярности отмаза это разъём, мол, там-то точно пизда, помехи и всё такое. Ноутбучная lpddr5 суёт за щеку этим рассуждениям. То есть технических ограничений нет. Да, что-то придётся подшаманить в контроллере памяти. В итоге остаётся только один вопрос - а нахуя это всё кожаному? С какого перепуга ему делать такую систему, которая снижает его прибыль?

Аноним 15/09/24 Вск 15:53:47 #259 №887592

>>886955
Лям итераций при скорости в 3 итерации в секунду это 3-4 дня всего, плевое дело

Аноним 15/09/24 Вск 15:59:37 #260 №887602

>>887155
Там поначалу сетка учится просто слова составлять из букв, а это уже очень много дает в плане падения лосса, я десять лет назад на 980ti lstm модели за сутки надрачивал писать грамматически почти верный текст, так что лосс будет падать конечно в начале

Аноним 15/09/24 Вск 16:04:44 #261 №887605

>>887574
>С завода распаянной памяти нет вообще
А контакты и сам чип под это должны быть рассчитаны. В итоге куча людей будет переплачивать за ненужную им хуету, а во времена, когда производители экономят на каждом резисторе для увеличения маржи, это практически невозможно.

Аноним 15/09/24 Вск 16:10:04 #262 №887610

>>887344
> В интерфейсе не пишет про то что нужно скачать токенайзер и не дает инструкцию как это сделать?
Нет, к сожалению.
Было бы слишком очевидно. Но все-равно скачал, если речь о токенайзере из тредовской инструкции.

Вместе с этим имею еще развернутый llama_cpp_python (в отдельном виртуальном окружении питона) и там подгружаются все модели без ошибок, но через код на питоне это все делать - такое себе, да и явно в убабуге настройки исходные лучше для пользовательского взаимодействия, а также там еще есть человеческая апишка.

Также пробовал развернуть убабугу с нуля на WSL, результат - та же самая ошибка. Придется, крч, еще покопаться.

Аноним 15/09/24 Вск 16:15:23 #263 №887615

>>887605
Cебестоимость слабо влияет на итоговую цену. У той же h100 маржа около 800% от себестоимости. А за счёт массовости эта вся модификация будет стоить баксов десять. Можно отдельно выпускать под увеличение памяти и без такой возможности, но вангую, что это будет дороже.

Аноним 15/09/24 Вск 16:35:56 #264 №887632

>>887615
>А за счёт массовости эта вся модификация будет стоить баксов десять.
Пока что цены только растут. Карт нужно всё больше и даже на игровой рынок забивают. Я даже не представляю, кто и что мог бы сделать для больших локальных моделей. Для 7В вот встречал решения, которые подавались "стартапами" с большим энтузиазмом. Но даже 70В для этих жуликов непреодолимый барьер.

Аноним 15/09/24 Вск 16:39:07 #265 №887634

>>887615
>А за счёт массовости эта вся модификация будет стоить баксов десять.
10 баксов?! А ты не ахуел столько тратить? Очевидно, что 10 баксов на миллион устройств это 10 млн баксов, а это уже сумма, за которую можно удавить и тебя, и меня.
>но вангую, что это будет дороже
Именно. Поэтому никогда и не будет.

Аноним 15/09/24 Вск 16:53:02 #266 №887638

image.png

Что это? Типа автоматом слои выставляет?

Аноним 15/09/24 Вск 17:22:26 #267 №887650

>>887638
Да

Аноним 15/09/24 Вск 17:32:37 #268 №887662

>>887602
так я не с ноля тренил, еще не смотрел со вчерашнего что вышло, но сегодня загляну...

а вообще, мне пришла мысль, что для моей идеи полноценная ЛЛМ не нужна, надо распознать что хочет анон, и отдать ID ответа, или последовательность таковых... походу такое должно проще на порядок тренироваться, и главное, можно править ответы если поменялось что-то... буду наверно в эту сторону копать... но полноценные тоже потренирую конечно

Аноним 15/09/24 Вск 17:35:02 #269 №887665

>>887467
Ты говоришь про устройство материнской платы, а но про ГП.
Китайцы умудряются припаивать чипы с дополнительной памятью картам, в которых она изначально не предусмотрена. Так почему бы не сделать разъём куда будут вставляться готовые модули?

Аноним 15/09/24 Вск 17:39:15 #270 №887669

>>887574
>а нахуя это всё кожаному

Именно!, массовые платформы для нейронок пока не нужны скажем так, они 1.5 калекам сейчас нужны дешевые, а компании покупают и то чот есть... но вообще, хотелось бы увидеть вундервафлю, в которую можно засунуть 100500 гб обычной ддр3, и которая могла б нормально нейронки гонять, но, тут опять таки вопрос в том, кто и для кого єто разработает, спроса нет, значит не разработают... по факту как таковой ГПУ не нужон, нужон просто вычислительный модуль с овер дофига простых ядер...

Аноним 15/09/24 Вск 17:46:02 #271 №887673

>>887467
какая разница мать или видяха, принцип везде одинаковый, китайци припаивают потому, то там свободное место есть, под которое рассчитан процессо, и все, у него есть каналы свободные, есть возможность адресовать - значит можно допаять и биос пофиксить, но, это в потребительских весьма ограничено, и 80гб в 1060 не запаяеш, как бы не хотел... какой смысл от разъема будет, если еще и биос карты править надо, и к тому же выбор не велик будет чуть меньше или чуть больше, не забывай, что в этом плане, видеокарта не мать, и как угодно какую угодно память жевать не будет, + ты получиш едреного франкенштейна с разъемами памяти, которую не понятно как остужать, и которая зачем?

Аноним 15/09/24 Вск 17:46:49 #272 №887674

>>887665
>>887673
детектор сломался, не туда ответил

Аноним 15/09/24 Вск 17:48:28 #273 №887679

169316407413763284.png

>>887665
> не сделать разъём куда будут вставляться готовые модули?
Слишком умный, да? Покупай А100, если нужно больше памяти. Умные люди уже подумали.

Аноним 15/09/24 Вск 17:49:42 #274 №887683

>>887610
Да, то только для hf загрузчика нужно. И там другая ошибка, у тебя оно по другой причине не стартует, возможно поломалась установка или древняя версия.
> убабугу с нуля на WSL, результат - та же самая ошибка
Или параметры запуска кривые, или модель битая (но раз другим запускается то норм), или либы не соответствуют железу, что там кстати?
>>887574
> А сейчас не так, чтоли?
Все так, мелочь хоть и стали умнее и их можно применять в некоторых задачах, они остались глуповатыми до абстракций, а 65-70б как ебали from the beginning, так и ебут.
>>887665
> Китайцы умудряются припаивать чипы с дополнительной памятью картам
Правильно, даешь зомби-врам мод!

Аноним 15/09/24 Вск 17:57:55 #275 №887692

>>887610
Зачем, зачем ты в WSL cуеш? она под виндой нормально работает, зачем лишняя прослойка? тем более тебе видяха нужна

Аноним 15/09/24 Вск 18:01:08 #276 №887701

>>887679
когда ♂Letherman♂ перестал сниматься в гачи рликах, и стал продавать видяхи ML бомжам...

а вообще, хорошо что в нашей сфере хоть как-то "наука" доступна массам, прикиньте еслиб физики ныли сейчас, дайте коллайдер за 200$ массовый отечественный, чтоб каждый мог НЕХ делать...

Аноним 15/09/24 Вск 18:06:40 #277 №887712

>>887683
> Или параметры запуска кривые
А, я дэбил, прошу прощения. Не выставил ручками размер контекста для запуски модели, он там по умолчанию какой-то большой слишком.

Аноним 15/09/24 Вск 18:16:48 #278 №887724

>>887712
постоянно на такое попадаюсь, при подгрузке модели ставить любит 130к контекста....

Аноним 15/09/24 Вск 18:20:58 #279 №887733

Screenshot 2024-09-15 at 18-10-48 Upgraded-R86S-N-Mini-Router-12th-Generation-Intel-N100-N305-10G-10-Gigabit-WiFi-6-Gigabit.jpg (WEBP Image 1000 × 1000 pixels).png

Untitled.png

Screenshot 2024-09-15 at 18-16-52 SillyTavern.png

Screenshot 2024-09-15 at 18-15-28 SillyTavern.png

Ну чо, 2 токена в секунду на хую у муравья!

Но есть проблема - если выбираю Text Completion, то нихера не работает. Если выбираю Chat Completion, то все работает. Как пофиксить Chat Completion, чтобы работал с уга-бугой?

Аноним 15/09/24 Вск 18:35:55 #280 №887771

>>887733
что там за начинка? капец, роутер с ХДМИ, к такому жизнь меня не готовила)

Аноним 15/09/24 Вск 18:39:12 #281 №887775

Поясните за лорбуки как например https://characterhub.org/lorebooks/MrPaperBag/cyberpunk-2077-8b9f71a82341

Это как-то можно подружить с кобольдом?

Аноним 15/09/24 Вск 18:39:44 #282 №887776

image.png

>>887733
апи включи

Аноним 15/09/24 Вск 18:40:01 #283 №887778

>>887775
Зачем? Ставь таверну.

Аноним 15/09/24 Вск 18:50:05 #284 №887795

Screenshot 2024-09-15 at 18-43-16 Text generation web UI.png

>>887771
Intel Core i3-N305, 32 GB RAM LPDDR5 6400MT/s, три порта по 2.5 Гб, два порта по 10Гб.

>>887776
Хммм, включено

Аноним 15/09/24 Вск 18:50:19 #285 №887797

>>886912
Ты где ее взял? Дай ссылку.

Аноним 15/09/24 Вск 18:50:30 #286 №887798

>>887778
Ну я только с кобольдом пока разобрался. Для работы таверны он тоже ведь нужен? Можешь послать по урлу как ставить таверну и вот это вот все?

Аноним 15/09/24 Вск 19:02:58 #287 №887822

изображение.png

>>887795
>три порта по 2.5 Гб, два порта по 10Гб
Если ещё и стоит до 10к, я бы взял.
>>887798
>Для работы таверны он тоже ведь нужен?
Да. Отличный гайд если что есть в вики не, серьёзно, в офф репе инфы достаточно.

Аноним 15/09/24 Вск 19:05:16 #288 №887831

>>887797
https://huggingface.co/TheDrummer/UnslopNemo-v2-GGUF/tree/main

Аноним 15/09/24 Вск 19:08:43 #289 №887839

>>887467
Научись сначала посты внимательно читать. Мой реплай изначально был о том, чтобы использовать дефолтную видеокарту для вычислений, а видеопамять ей докинуть уже отдельными модулями, всунуть в тот же соседний слот pcie. Никакие отдельные блоки тензорных ядер не нужны, потому что на чипе от любого огрызка уже есть cuda (да, оно работает медленнее, но всё равно быстрее любого цпу с псевдоинтрукциями), по этому никакой проблемы нарастить объем видеопамяти нет. То же самое что ты берешь теслу и втыкаешь ее в связку с условной RTX40XX чтобы просто получить больше пространства для выгрузки.

>>887574
>А сейчас не так, чтоли? Очевидно, что выше семидесяток умственные способности моделей практически не растут, но 7-12 это далеко не 70b.
Никто не сравнивал 7-12 и 70. Я буквально написал, что разрыв между мелкими моделями 2-12B существенно сократился за последний год и по этому количество параметров это уже не релевантный способ для оценки умственных способностей модели в примерно одной весовой категории. Разумеется если ты возьмешь ламу три-восемь и ламу три-семьдесят ты почувствуешь разницу. Но если ты сейчас запустишь какую-нибудь фи 3.5 и сравнишь ее с любой мелкой ламой любого поколения, то разницу заметишь после десятка часов специфических тестов.

>В итоге остаётся только один вопрос - а нахуя это всё кожаному? С какого перепуга ему делать такую систему, которая снижает его прибыль?
И насколько сильно это снизит прибыль тех же зеленых жопошников, когда они уже сейчас продают целые кластеры на сотни миллиардов американских рублей всем сторонам, включая китайские подвальные корпы? Некоторые вендоры видеокарт итак периодически паяли на платы больше памяти, чем рассчитывал куртка, но че-то никто сильно не вонял по этому поводу. Продажа видеопамяти отдельными кусками текстолита сильно никого в убыток не затащит, потому что тебе всё равно придется покупать полноценную карту с чипом для математической ебли. А уж если мы говорим о коммерческой составляющей, то нахуя продавать что-то целиком, когда это можно впихнуть по кускам с большим выхлопом? Выпускаешь огрызок который ни на что не способен сам по себе, а в довесок к нему барыжишь видеопамятью. Кому надо больше - возьмет больше. Кому нихуя не надо - возьмет меньше. Все только останутся в выигрыше. Ну либо будем иметь ситуацию как сейчас, где в карте за 130 кусков тебе предлагают 16 кило памяти и ебись дальше как хочешь.

Аноним 15/09/24 Вск 19:17:37 #290 №887854

image.png

>>887795
Хз, может у тебя из-за твоего апи жалуется? У тебя же не стандартный локалхост стоит, но все равно должно быть похуй на это и работать. А чем тебя не устраивает работа через Chat Compeletion, чем через Text Completion?

Аноним 15/09/24 Вск 19:18:51 #291 №887857

>>887854
>похуй на это и так работать должно*

Аноним 15/09/24 Вск 19:19:35 #292 №887858

>>887839
>по этому никакой проблемы нарастить объем видеопамяти нет
>То же самое что ты берешь теслу и втыкаешь ее в связку с условной RTX40XX
Отберите у человека доступ в интернет, он еблан.
>Но если ты сейчас запустишь какую-нибудь фи 3.5 и сравнишь ее с любой мелкой ламой любого поколения, то разницу заметишь после
1 поста. В данном случае, но всё же. Просто фи эталон сои, она воняет ей за километр.

Аноним 15/09/24 Вск 19:21:38 #293 №887860

А в убабуге нельзя дообучить llamacpp модель на собственном датасете? Хотелось бы научить новым словам и речевым оборотам.

На сколько сложно это вообще осуществить?

Аноним 15/09/24 Вск 19:41:46 #294 №887888

>>887839
>а видеопамять ей докинуть уже отдельными модулями, всунуть в тот же соседний слот pcie

ну ты васян... архитектуру компьютеров учи, чтобы знать что такое быстрые и медленные шины, и чтобы такой бред не нести...
Может ты еще оперативку по SATA3 подключиш? видеопамять должна быть подключена напрямую к GPU иначе скорость доступа к ней еще медленнее чем к оперативке будет (ладно про оперативку погорячился, но упор все равно в PCIE)...

>То же самое что ты берешь теслу и втыкаешь ее в связку с условной RTX40XX чтобы просто получить больше пространства для выгрузки.
Ты этого даже не пробовал делать, РТХ будет считать только то что в ее памяти, то что в памяти теслы будет считать тесла!, и тормозить весь пайплайн...

> потому что на чипе от любого огрызка уже есть cuda
и скорость работы будет соответствовать огрызку, найс решение, надежное как швейцарские часы... количество ж ядер вообще не решает, 500 там, 1000, или 5000...

короче гоняй на ЦП, там можеш хоть терабат, хоть 2 оперативы засунуть, а количество ядер у тебя все равно не решает, так что процессор самый дешевый бери

Аноним 15/09/24 Вск 19:44:25 #295 №887892

>>887858
с кем мы сидим в одном треде...

Аноним 15/09/24 Вск 19:46:14 #296 №887893

>>887839
>И насколько сильно это снизит прибыль тех же зеленых жопошников
На много.
>вендоры видеокарт итак периодически паяли на платы больше памяти
Ага. Партия уничтоженных 3080 на 20gb.жпг.Пара единиц карт, спизженных со складов, не в счёт. Страшно представить, какие убытки понесли вендоры.
Или те же EVGA, которых кожаный схватил за яйца и запретил даже разгон биоса делать. Да так сдавил, что EVGA отказались от 80% своей прибыли и вышли из партнёрства. Дохуя свободы, да? Если завтра какая-нибудь фирма начнёт продавать карты со слотами под память, то им очко порвут.
>Продажа видеопамяти отдельными кусками текстолита сильно никого в убыток не затащит
Ну да, вместо покупки условной 6090 народ будет покупать 6060, лепить туда память и просто ждать подольше. Потом ещё найдутся какие-нибудь конфигурации, когда производительность на доллар будет выше, чем у топового решения и все хуй забьют на хх90.
>Выпускаешь огрызок который ни на что не способен сам по себе
Смотри какая хуйня, сейчас есть 4080 супер за штуку зелени и 4090 за две. Предположим, что меня абсолютно устраивает перформанс 4080, но мне мало памяти и это единственная причина, по которой я буду готов выложить лишнюю штуку баксов. Кожаному, чтобы не стрелять себе в ногу, нужно сформировать цену таким образом, чтобы я выложил эту лишнюю тысячу. Значит, 4080+8гб памяти должны быть сопоставимы по цене с 4090. Это тысяча долларов за 8 гигабайт, иначе кожаный теряет прибыль. И сюда же нужно добавить риски того, что китайцы начнут выпускать 8гб по 500$. Это один случай. А если бы я покупал две 4090, но оказалось, что одна+24 гига памяти дешевле и устраивает меня по перформансу? Кожаный теряет лишнюю продажу.

>всунуть в тот же соседний слот pcie.
Это полный кал.

Аноним 15/09/24 Вск 20:04:09 #297 №887905

image

>>887822
IT'S ALIVE!

Я пока не вникал, но как оно работает вообще, этот лорбук? Парсит мой инпут на совпадения и впихивает в промпт текст оттуда? Как сильно оно загружает мощностя / тратит контекст?

Аноним 15/09/24 Вск 20:10:34 #298 №887907

>>887905
>Парсит мой инпут на совпадения и впихивает в промпт текст оттуда?
Да.
> Как сильно оно загружает мощностя / тратит контекст?
Так ты посмотри, хули там. И да, всё настраивается.

Аноним 15/09/24 Вск 20:12:30 #299 №887909

>>887888
Ну хули, сиди и страдай тогда. Ебись с некротеслами или плати по оверпрайсу за пару 4090, наслаждаясь сапогом в жопе, за который ты сам заплатил. Я тебе привел теоретически рабочую схему, а ты навыдумывал какой-то хуйни, приплел какую-то другую хуйню и сейчас сидишь и ей обмазываешься, лишь бы че-то доказать.

Да, подключение через pci-экспресс порт не самое эффективное, но это просто один из вариантов. И даже в таком случае будет в разы быстрее чем гонять через процессор и оперативную память. Хочешь меньше потерь при передаче - всегда можно придумать альтернативу, распаять слоты на видеокарте, но новые технологии ведь не нужны, правда?

>>887893
Нужно просто увеличить разрыв и разделить карты по производительности. Берешь базовую карту с дешевеньким чипом за условные 500$ и на 500$ докупаешь к ней видеопамяти на те же например 32 гигабайта. Итого косарь за сборку, которая будет худо-бедно гонять средние 20-30B не на дробных токенах. Хочешь что-то более производительное, покупаешь чип за 1000$, докупаешь видеопамять и так далее. Итоговый упор будет всё равно в мощность самого кристалла, какая бы цена за видеопамять не была, так что потери кожаного будут минимальны, если они вообще будут.

Но это чисто моя влажная фантазия, ни на какие щедрости от жопошника я не надеюсь. Он итак сейчас по сути монополист, так что как минимум еще одно поколение мы от него никуда не денемся.

Аноним 15/09/24 Вск 20:14:33 #300 №887910

>>887909
>И даже в таком случае будет в разы быстрее чем гонять через процессор
Мы тут будем ему рассказывать, или скроем правду?

Аноним 15/09/24 Вск 20:17:42 #301 №887914

>>887893
забей, там магическое мышление,
чел не понимает, почему видеокарта гоняет модельки быстрее, иза счет чего видеопамять выигрывает.... в его понимании видеопамять это просто какой-то особенный чип прибавляющий производительность

Интересный факт, первые поголения гугловсикх TPU были на ДДР3!, внезапно, и это не мешало им нейронки гонять по полной

Аноним 15/09/24 Вск 20:23:00 #302 №887918

>>887914
>и это не мешало им нейронки гонять по полной
Уверен?
>Пропускная способность памяти 34 Гб/с

Аноним 15/09/24 Вск 20:24:01 #303 №887920

>>887914
Ты откуда сюда приполз, дурик? Ты буквально ебешься в глаза, сам что-то выдумываешь в своей голове, а потом на это отвечаешь с умным ебалом и кучей уверенности. Перечитай мои посты по трезвяку, а потом уже высирайся.

Аноним 15/09/24 Вск 20:40:29 #304 №887926

>>887909
>будет в разы быстрее чем гонять через процессор
С херов ли? У pci-e 4.0 пропускная способность 32 гигабайта. Это что-то уровня 1866 ram в двухканале. Чуть быстрее. То есть pci-e сосёт даже у ddr3. У 3200 в восьмиканале будет уже около 200 гб\с пропускной способности, о чём pci-e может только мечтать, даже у 5.0 версии чуть меньше 4 гигов на линию, при 16 линиях около 64 гигов в секунду. Это, кстати, одна из причин, почему нвлинк это для илиты и на 4090 его нет.

>Хочешь что-то более производительное, покупаешь чип за 1000$
Приходит киберкотлет в магазин и выбирает картонку под каэс. У него требование одно - миллиард фпс в ксго. Это ему обеспечит топовый чип. То есть он берёт минимальный набор vram и топ чип. Ну, пусть 1200 за всё. Приходит тот же киберкотлет в тот же магазин в параллельном мире, где он не может выбирать количество vram. Он покупает топовое решение за 2к$. Итого, в этом мире кожаный поимел на 800$ больше. Кожаный из первого мира ощущает привкус хуйца.
>на те же например 32 гигабайта
Ты в том мире собрал 32 гигабайта за косарь, в этом мире 32 гигабайта это две 4080 по 16 гигов на два косаря. Параллельный кожаный теряет косарь и снова ощущет привкус хуйца. И можешь быть уверен, что он сделает всё, чтобы привкус хуйца ощущал ты вместо него.

Аноним 15/09/24 Вск 20:53:19 #305 №887930

>>887926
Лол, возьми 4060 засунь ее сначала в x16, потом в x4 и посмотри на разницу. По твоей логике ее ддр6 походу должна как ддр3 перформить, пропускная то урезана. Но че то этого не происходит, почему интересно?

Аноним 15/09/24 Вск 20:55:31 #306 №887933

>>887926
>Это, кстати, одна из причин, почему нвлинк это для илиты и на 4090 его нет.
А кстати в экслламе нвлинк поддерживается? И если да, то даёт что-нибудь?

Аноним 15/09/24 Вск 20:58:40 #307 №887936

image.png

Я для тебя шутка?

Аноним 15/09/24 Вск 21:01:02 #308 №887939

>>887909
поделись шмалью

ты пропускную PCIE видел? это самая медленная из внутрених шин компьютера, медленнее только внешняя периферия, хотя по сути это и есть шина для периферии внешней, топовые ускорители все на HBM памяти сейчас, чтобы максимально ускорить доступ процессора к памяти...

твоя схема теоретически работающая это а давайте ядерный реактор под капотом тачки поставим, чтоб заправлять не надо было, и платить жидомасонам за бенз треп языком, ты ведь ни конкретных реализация ни прототипов не предоставил, как она будт детектится, как совместимость между чипами, и памятью, стандарт разъема итд...

Видеокарта для таких целей вообще принципиально плохое решение, жду массовых TPU лол, не дождусь походу или ЦП с тензорными ускорителями, зачем переплачивать за шейдерные блоки, всякую хрень игровую дайректиксы итд, чтобы гонять на этом вычисления...

А кто целевая аудитория конструкторов этих будет? корпоратов устаивает текущий рынок, а геймерам нафиг не сдалось, какой процент аудитории использует для нейронок, чтобы выпускать это в массы?

Аноним 15/09/24 Вск 21:03:27 #309 №887940

>>887930
Даю подсказку для долбоёбов - чтобы пропускная способность pci-e на что-то влияла, нужно чтобы по ней гонялись данные. И тут у нас как раз охуенная ситуация, когда внешнюю vram предлагают расположить сразу за двумя pci-e. Это будет медленнее, чем оффлоад в ram.

>>887933
Вряд ли. Это даст буст при обучении, но при инференсе данных гоняется не настолько много, чтобы заметить эту разницу.

Аноним 15/09/24 Вск 21:05:18 #310 №887942

>>887933
>А кстати в экслламе нвлинк поддерживается? И если да, то даёт что-нибудь?
Сам нашёл ответ. Нет, пока нет. Может и никогда нет - очень узкая ниша.

Аноним 15/09/24 Вск 21:08:43 #311 №887945

>>887940
Подсказка засчитана, только долбаеб тут ты. Ты выгружаешь модель в видеопамять и всё, она там лежит и спокойно обрабатывается, пока ты гоняешь модель. Долгим будет только процесс самой первичной загрузки.

Аноним 15/09/24 Вск 21:08:59 #312 №887946

>>887926
>У pci-e 4.0 пропускная способность 32 гигабайта.
ты вкурсе нахуй ваще видео память нужна? что б не гонять постоянно все через пси-е шину а 1 раз загрузил и работай на видяхе
учите матчасть
>Это что-то уровня 1866 ram в двухканале.
дальше не читал

Аноним 15/09/24 Вск 21:09:51 #313 №887947

>>887940
>Вряд ли. Это даст буст при обучении, но при инференсе данных гоняется не настолько много, чтобы заметить эту разницу.
Ну допустим 2-4 3090, у которых есть выход нвлинк - и плата с PCIe 3.0 или вовсе обрезки какие-нибудь. А так получаем типа одно устройство с 48 или 96 гб врам. Жаль только, что ни лламаспп, ни эксллама и вообще никто этот самый нвлинк не поддерживают :)

Аноним 15/09/24 Вск 21:12:57 #314 №887949

>>887918
И? там памяти 8 гб так-то было, та и нейронки чуть другие были, да, ограничение было, но в том же году вышло 10е поколение зеленых, и тем не менее гугловские тензорники конкуренцию дежали... тем более в следующей версии взяли нормальный интерфейс для памяти всеже

Аноним 15/09/24 Вск 21:15:10 #315 №887950

>>887930
>>887920
свали в железотред, а лучше в колледж местный, и изучи как пекарня работает, и не морочь голову в нейронкотреде

Аноним 15/09/24 Вск 21:17:10 #316 №887951

>>887946
так даунич предлагает видеопамять воткнуть в PCIE

Аноним 15/09/24 Вск 21:19:05 #317 №887952

>>887945
кто ее гонять будет если память отдельно от ГПУ?

Аноним 15/09/24 Вск 21:19:13 #318 №887953

>>887946
>>887945
Два слепошарых дебила. Пиздец просто.

>>887947
>типа одно устройство с 48 или 96 гб врам
Да эта залупа так не работает. У нас всё ещё два устройства, только синхронизация между ними будет быстрее. Жора вообще поехавший, у него при ровсплите разбиваются тензоры, потому это даёт прирост только при сравнительно большой псп и слабых чипах. Послойное разделение он не так давно добавил, но вангую, что всё ещё полно косяков.
>Жаль только, что ни лламаспп
https://github.com/ggerganov/llama.cpp/pull/2470
Хе-хе. Жора вперде планеты всей.

Аноним 15/09/24 Вск 21:19:32 #319 №887954

изображение.png

>>887930
>возьми 4060
>x16
Ты блядь троллишь или да?
>>887939
>ЦП с тензорными ускорителями
Ничего не дадут, ибо больше 6 ядир контроллер памяти обслужить не может.
>>887949
> тем более в следующей версии взяли нормальный интерфейс для памяти всеже
Именно что, первая версия это блин комом, чисто тестовая хуйня, даже в каллабе бесплатно её не дают, ибо нахуй не нужна.

Аноним 15/09/24 Вск 21:25:38 #320 №887955

>>887952
Я лично транзисторы щелкать буду, долбаеб дремучий блять. Уже сука три раза написал, всё равно в упор не видишь.

>>887950
Только если ты со мной вместе в колледж пойдешь, потому что твою шизофрению стыдно в пределах треда держать, нужна аудитория побольше.

>>887954
Ты долбаеб разницы между встроенным количеством линий и линиями на материнки не видишь? Хорошо блять, если тебе принципиально, засунь сначала в x8, а потом в x4.

Аноним 15/09/24 Вск 21:29:52 #321 №887956

>>887955
>Ты долбаеб разницы между встроенным количеством линий и линиями на материнки не видишь?
Ух бля, вот вставлю видяху х1 в слот х16, и как попрёт у меня скорость в 16 раз больше!

Аноним 15/09/24 Вск 21:32:10 #322 №887958

>>887956
Хуйню сморозил - начал клоуничать. Обожаю этот тред.

Аноним 15/09/24 Вск 21:32:29 #323 №887959

>>887954
>Именно что, первая версия это блин комом, чисто тестовая хуйня, даже в каллабе бесплатно её не дают, ибо нахуй не нужна.
да, не особо удачный варик, но утверждали что 16 ТПшек, показывали перформанс 50 гпу (не говорится правда каких, и что за задача была, но то такое, вопрос во многом в том, насколько эффективно можем загрузить и использовать в подсчетах...)

>Ничего не дадут, ибо больше 6 ядир контроллер памяти обслужить не может
поживем - увидим, что будет, хм, а зачем оператива восьмиканальная тогда? мне сдается для инференса адаптиуют процессоры, ибо выгодно, для тренек - да, спец железо останется приоритетным... ждем тестов короче на текущих топовых серверниках, и смотрим куда движется движ...

Аноним 15/09/24 Вск 21:33:32 #324 №887960

>>887955
>Уже сука три раза написал, всё равно в упор не видишь
что ты хочеш вставить память отдельно от ГП в PCIE?

Аноним 15/09/24 Вск 21:38:39 #325 №887965

>>887960
Если будет технология по сопряжению, то да. И не просто память отдельно, а контроллер вместе с ней чтобы вся эта хуйня бурлила совместно с основной картой. Либо на самой карте слоты распаять, чтобы о боже мой скорость передачи данных так сильно не падала при загрузке.

Аноним 15/09/24 Вск 21:44:37 #326 №887970

>>887839
> а видеопамять ей докинуть уже отдельными модулями, всунуть в тот же соседний слот pcie
Без шансов, за эту фразу тебя и начала обоссывать, вполне справедливо. В том и вся проблема что видеопамять так просто не нарастить и пихать в соседние слоты бессмысленно.
> Никакие отдельные блоки тензорных ядер не нужны, потому что на чипе от любого огрызка уже есть cuda
А вот за это зря не обоссали ибо вычислительная мощща необходима для обработки контекста.

Если на что-то более менее реальное смотреть то это должен быть какой-нибудь soc с кучей каналов памяти, как это реализовано в огрызках и эмбедах.
>>887936
Катал кто? Надо скачать, действительно интересно.
>>887940
> Это будет медленнее, чем оффлоад в ram.
Да ладно, будет чуточку быстрее при использовании всяких костылей/технологий и рам не будет использоваться.
> Это даст буст при обучении
Это дает бусты только в особых случаях, например при fsdp или ну очень активном обмене данными между карточками, чего всячески стараются избегать всегда. И на самом деле nvlink также тормознут по сравнению с врам, кроме самых-самых последних реализаций.

Ну че, этот шиз уже осознал где сфейлил и пошел дерейлить в "так и задумано" или еще спорит?
>>887965
А, уже перекатывается. Ну вот и консенсус достигнут. Вот только нет нормального быстрого интерфейса, позволяющего обеспечить сравнимые с нативной врам псп и минимальный лаг, которые можно/рационально было бы реализовать по схеме с "отдельным слотом". Только прямое подключение чипов памяти к видеопрофессору, как это сделано в обычной рам.

Аноним 15/09/24 Вск 21:47:18 #327 №887972

>>887958
Хуйню начал нести ты, и после порции урины в лицо объём хуйни только вырос.
>>887959
>а зачем оператива восьмиканальная тогда
А причём тут восьмиканал? Сопроцессоры добавляют в обычные десктопы, где 100 ГБ/с это пердел.
>>887965
Скорости псины тебе уже привели, тебе мало?

Аноним 15/09/24 Вск 21:48:33 #328 №887973

>>887795
Всегда подумывал такое собрать, но цена отпугивала.
Но, забавно, поздравляю, че, кек. =)

Аноним 15/09/24 Вск 21:49:28 #329 №887974

>>887965
ты ж в курсе что в процессе работы утебя моделька не просто в памяти лежит, а ГП на куда ядрах ее ВСЮ пересчитывает, с твоими входными данными, а теперь подумай, чего стоит твоя идея отдельной памяти, или ты думал память сама ее считает?

Ты ж даже не знаеш что контроллер делает, зато терминами раскидываешся,

слоты на карте в теории могут быть, но это должен быть абсолютно другой ГП с абсолютно другим контроллером который предназначен для сменной памяти. Еще раз, иди умные книги почитай, потому что ты сейчас как школьник пытающийся вечный двигатель изобрести, предлагаеш ешения не понимая как это вообще должно работать

Аноним 15/09/24 Вск 21:52:29 #330 №887975

>>887940
А ты засунь все в одну видяху, и гонять не придется. Загрузил и радуешься.

>>887947
Нет, нвлинк в консьюмерских движках никак не используется, забей.
Не получаем.

>>887953
Я их тред не читал, но ты похож на правильного.
Жора как всегда, впереди планеты всей, но бежит жопой вперед, почему-то. х) вздох

———

Ладно, дальше там еще смешное у вас было, но я лезть не буду.

Аноним 15/09/24 Вск 21:53:05 #331 №887976

>>887972
>А причём тут восьмиканал
Божественный Эпик... ждем от них интересностей... 128 ядер собственно должны и так неплохо перформить, но таких мажоров в треде походу нет

Аноним 15/09/24 Вск 21:56:54 #332 №887980

LPCAMMBottomPads575px.png

SamsungLPCAMMcrop-b678x452.png

>>887965
>чтобы вся эта хуйня бурлила совместно с основной картой.
Контроллера не хватит. Нужен второй GPU.

>>887970
>при использовании всяких костылей/технологий
Так упор не только в псп. Есть ещё такая залупа, как latency. И pci-e сосёт по задержкам тоже, а шиз предлагает сразу два таких бутылочных горлышка. То есть это хуже по псп, это хуже по задержкам. RAM будет быстрее, как ты не ебись. Вариант только с расположением памяти на самой gpu. Я с самого начала упоминал ноутбучную lpddr5, вот на это стоило бы надеяться, живи мы в идеальном мире. Снял бэкплейт, поставил плату, вкрутил болт. Ура, у тебя больше vram.
>по сравнению с врам
Да по сравнению с vram всё тормознутое, чего уж.

>>887975
>А ты засунь все в одну видяху, и гонять не придется
Обсуждение шло про дополнительную память. А то памяти мало. Так-то заебись на самом деле, если всё в одной видяхе. Но памяти всё равно мало.

Аноним 15/09/24 Вск 21:58:42 #333 №887983

>>887650
У меня эта версия не работает чет.

Аноним 15/09/24 Вск 22:04:26 #334 №887987

>>887972
Вот интересно, на Зион Phi, кто-то запускал или пытался хотяб запустить? там овердофига ядер x86... почти видяха... но ощущение что те у кого есть такое перекомпилить не могут ламу и не хотят, а кто хочет - нет таких карточек....

Аноним 15/09/24 Вск 22:06:35 #335 №887988

>>887972
Да, чел, всё так и было. Маме похвастаться не забудь. Иначе я приду и похвастаюсь сам.

>>887974
Ебать, как всё плохо с тобой. Ты наверное когда колесо впервые увидел, тоже ахуел. Прикинь, само крутится и едет, это же бред, правда?

А если серьезно, то повторяю еще раз. Способ наращивания памяти может быть любой. Через писюшку это хуевая идея? Хорошо, принимается. Тогда берем плату, напильник и начинаем растачивать слоты, потому что проблема только в отсутствии технологии.

Вы как хотите нахуй, но я буду продвигать эту идею в массы. Докупная видеопамять это хорошая, это пиздатая идея и вы меня не переубедите, додики.

Аноним 15/09/24 Вск 22:09:01 #336 №887990

так, давно не заходил в тред, вижу там куча гейченжеров вышла
посоветуйте кароч ггуф модельку чтобы генерить нсфв промты для поней и не для поней, максимально мелкого размера чтобы сдхл не выгружалась с карточки 12 гиговой

Аноним 15/09/24 Вск 22:11:24 #337 №887991

>>887980
> Так упор не только в псп. Есть ещё такая залупа, как latency. И pci-e сосёт по задержкам тоже
Вроде об этом и написал. Просто в идеальном случае прямой доступ девайс на шине - девайс на шине без задействования профессора может оказаться быстрее чем в рам, задержки самой шины не столь велики по сравнению с остальным.
> Снял бэкплейт, поставил плату, вкрутил болт.
В рамках видюхи врядли взлетит, но как система на плате где предусмотрено много слотов под рам - возможно. Помимо слишком большого размера даже у самой мелкой врам, это радикальное усложнение дизайна платы, вагон проблем с совместимостью и много головной боли вендорам и всем-всем из-за ограниченной совместимости.
Считай на современных технологиях и все оче дорогом, можно сделать аналог P40 по псп (пусть и с кратно большим объемом) в форм факторе 4090, весь бекплейт которой будет забит слотами. И издержки выльются в такую стоимость что ты не захочешь, а корпоратам такое не нужно из-за низкого перфоманса. Собственно потому и не делают.
А вот когда достаточно мощное видео/тензорное ядро уже есть рядом с процессором, а анкор неприлично разожран - просто обычная пека с количеством каналов рам. Это реализовано в эплах (правда память распаяна) и они перформят. В теоретической теории, ллмки должны летать на условной плойке. Из готовых девайсов - грейс от куртки, там правда немного другая парадигма в том что видеоядро с памятью самодостаточно, но шина данных общая и она оче быстра.

Аноним 15/09/24 Вск 22:12:29 #338 №887992

>>887988
>потому что проблема только в отсутствии технологии
проблемы нет, есть жадность вендора, потому что NVIDIA должна сделать ГП который нормально принимает разную память со слотов иначе это будт костыли с патчингом биоса при смене памяти прочими подводными

и да, массам эта идея не нужна, все в облака давно лезут уже... но ты можеш сделать свою видяху с вставляемой памятью, никто не запрещает

Аноним 15/09/24 Вск 22:42:00 #339 №888012

q9392c96bff8d17535719b7cac81c689041974e98c669410804b4d20f849390b5b3.jpg.webp

q939066092ee76d1fb2876d26e2b14ce9ee563b5054b63d6a1b0aa455ac64162668.jpg.webp

Witzq3X2hAZDgumQzhUMTM-970-80.png.webp

1716490767018.png

>>887991
>доступ девайс на шине - девайс на шине без задействования профессора
Так суть в том, что задержка шины больше задержки ram. Потому и говорю, что подсос из ram быстрее даже, чем с шины на шину.
>Помимо слишком большого размера даже у самой мелкой врам
Эта хуйня мизерная и поддерживает стакание. То есть у тебя может быть один слот, в котором бутербродиком уложено несколько модулей. А один такой модуль совсем незначительно увеличит толщину видеокарты, потому что изначально залупа проектировалась под минимизацию толщины.
>можно сделать аналог P40 по псп
LPDDR6 модуль с шиной 192 бита. И это просто ради того, чтобы быть совместимым с профессором, так что псп сосёт. Можно сделать шину шире, каждый чип-то 48 битный. У p40 gddr5 с 32 битными чипами, так что в теории, её псп можно выебать не напрягаясь. Учитывая, что есть lpddr5 на частотах 8000, лол. Корпораты уже гарантированно забирают это для серверов, а дальше история покажет.

Аноним 15/09/24 Вск 22:50:13 #340 №888019

>>888012
единственная проблема бутерброда в отводе тепла, и как-то это надо будет решать, но опять таки, мы говорим сейчас о теоретическом концепте, который с одной стороны возможен, с другой пока что далек от реализации, ждем корпоратов короче...

Аноним 15/09/24 Вск 22:55:17 #341 №888030

>>887976
>128 ядер
Ещё раз- хули толку, если 2 канала грузят 6? А 8 каналов соответственно обеспечат 24 ядра. А остальные будут пердеть впустоту.
>>887980
>Я с самого начала упоминал ноутбучную lpddr5
Оно не быстрее обычной, просто чуть тоньше и устойчивее к ТРЯСКЕ.
>>887988
>Вы как хотите нахуй, но я буду продвигать эту идею в массы.
Ну всё блядь, куртка испугался и побежал распаивать 128 гиг в 5030(Ti).

Аноним 15/09/24 Вск 23:09:09 #342 №888058

image.png

парни помощь нужна. выше в треде писали про пикрил. а теперь вопрос а где пересеты под нее взять?а то таверне нет пресета под гемму2. помогите хомяку пж

Аноним 15/09/24 Вск 23:09:28 #343 №888060

>>888030
>А остальные будут пердеть впустоту.
так там и кеш жирнючий... и AVX512... но суть не в том, рассуждать можно много, а фактическим показателем будут только токены в секунду...

Аноним 15/09/24 Вск 23:11:22 #344 №888062

>>888060
>так там и кеш жирнючий... и AVX512...
А хули толку, если узкое горлышко в шине памяти?
>фактическим показателем будут только токены в секунду...
Которые можно посчитать по формуле "любой нынешний проц х4".

Аноним 15/09/24 Вск 23:19:34 #345 №888080

image.png

>>887970
>Катал кто? Надо скачать, действительно интересно.
Не знаю, нашел ее когда многократно скачивал разные кванты мини/2/2.5 магнума

Но рентри, точно нужно поменять, есть магнум еще меньше

>>888058
Тоже скачал ее сейчас, Q6_K, пресеты крч в хф, а как их использовать, сам сейчас буду думать

Аноним 15/09/24 Вск 23:21:50 #346 №888086

image.png

>>888058
И ес чо, есть пресет на гемму2, однако модель customgemma, так что нужно ставить то, что на хф

Аноним 15/09/24 Вск 23:28:35 #347 №888106

image.png

>>888058
Крч, я разобрался, копируешь эти настройки, создаешь файл .json вставляешь это и импортируешь их в силли.

Аноним 15/09/24 Вск 23:32:08 #348 №888109

>>888086
а что как? я просто глупое. можно на пальцах анонче?

Аноним 15/09/24 Вск 23:33:05 #349 №888111

image.png

Это именно проблема геммы, или проблема этого магнума?

Ебанутый кеш, и не работает флеш атеншион

Аноним 15/09/24 Вск 23:33:15 #350 №888112

>>888019
>единственная проблема бутерброда в отводе тепла
Вот серьёзно, я бы даже одну планку топовую не брал, там сейчас 128 гигов за 2к$. А уж бутерброд это для ультрасетапов, там пусть хоть водянку клеят сверху, мне вообще похуй.
> с другой пока что далек от реализации
Технически, реализация есть. Правда, под узкую шину.
Интересно ещё, какая шина будет у strix halo, лол, если расщедрятся, вполне может оказаться приемлемым для инференса. Но вряд ли.

>>888030
>Оно не быстрее обычной
Только из-за шины, а ширина шины диктуется профессором. Главный прикол в форм-факторе. Это тебе не dimm, здесь минимизируется влияние слота, меньше задержек, меньше помех. То есть в будущем какая-нибудь ddr8-9 будет вся в таком виде гарантированно. И только от производителей gpu зависит, будет ли такой слот на условной 6090, или нет. Я ставлю на то, что не будет.

Аноним 15/09/24 Вск 23:34:05 #351 №888113

>>888109
Я тут объяснил как что делать >>888106
https://huggingface.co/anthracite-org/magnum-v3-9b-customgemma2
Вот ссылка, тут эти настройки

Аноним 15/09/24 Вск 23:34:18 #352 №888114

>>888111
Гемма виновата, у неё там какие-то функции активации, которые с жорой не поддерживают FA. Вроде, был форк, где это фиксится.

Аноним 15/09/24 Вск 23:38:19 #353 №888120

>>888114
Ладно на ебанутый кеш, вот флеш аттеншион бы вернуть, я на угабуге сижу поэтому не знаю, можно ли на ней это решить.

Но, да, ввиду этого кеша, у меня казалось бы 9б выдает меньше токенов, чем 12б, хотя обе модели весят 7гб

Магнум 9б у меня 6-5

Магнум 12ю у меня 9-7

Аноним 15/09/24 Вск 23:41:37 #354 №888128

>>888112
>Я ставлю на то, что не будет.
Именно. Не понятно, что тут обсуждают.
Я бы скорее поставил на то, что память в проц впаяют, и вообще прикроют всё расширение, нежели чем наоборот.

Аноним 15/09/24 Вск 23:48:53 #355 №888143

>>888062
Epyc 9374F на квантованой в 8 DeepSeek-V2 LLM 236B выдает 6 токенов в секунду так-то... на 405B ламе 1 токен в секунду...
Snowflake Arctic Instruct пятый квант 12 ток/с вцелом жизнь есть на ЦП, хоть и с переменным успехом... загруз ЦП автор не показал, по этому что там и как не понятно...

Аноним 15/09/24 Вск 23:51:08 #356 №888146

>>888112
будет ли вообще ддр7-8-9, или мы скатимся на арм архитектуру с распаяными компонентами, как на маках... маководы к стати есть в треде со 192 оперативы?

Аноним 15/09/24 Вск 23:52:35 #357 №888147

>>888128
для десктопов вероятный исход, для серверов врядле,

Аноним 16/09/24 Пнд 00:15:19 #358 №888171

>>888012
Теоретически можно со всем этим заморочиться, а практически имеем (и будет иметь) босый хуй.

Аноним 16/09/24 Пнд 00:18:49 #359 №888176

>>888143
>Epyc 9374F на квантованой в 8 DeepSeek-V2 LLM 236B выдает 6 токенов в секунду так-то... на 405B ламе 1 токен в секунду...
Это он молодец (хотя хотелось бы пруф). А контекст он с какой скоростью обрабатывает?

Аноним 16/09/24 Пнд 00:24:58 #360 №888181

>>888176
https://www.youtube.com/watch?v=F1umxzG1Xbo
воть канал с парой тестов, от загрузки до конца запроса жаль мелких моделей нет, 70, 30, может можно попросить автора...

Аноним 16/09/24 Пнд 00:26:09 #361 №888182

1632262315856.webp

1656570062577.png

>>888143
> Epyc 9374F на квантованой в 8 DeepSeek-V2 LLM 236B выдает 6 токенов в секунду так-то
Звучит как пиздёж. У него 400 гб/с в пике. Не больше 2-3 т/с по факту будет. 6 т/с только если в двухпроцевой конфигурации снять выйдет. Но это уже лям рублей на эту сборочку.

Аноним 16/09/24 Пнд 00:36:26 #362 №888194

>>888181
Обработка промпта как и у тесловодов - днище, если не хуже. С такой скоростью надо на 5 делить скорость генерации. В нормальных условиях она должна быть в 50 раз выше скорости генерации, а не в 2.

Аноним 16/09/24 Пнд 00:37:27 #363 №888196

>>888182
не знаю, как-то молотит же у чела, видосы с запуском есть,
на редите тоже , можно спросить у автора детали...
https://www.reddit.com/r/LocalLLaMA/comments/1ebbgkr/llama_31_405b_q5_k_m_running_on_amd_epyc_9374f/

памяти у него конечно не хватает, чтоб менее квантованые грузить, но... там думаю реально упор будет в скорость памяти

Аноним 16/09/24 Пнд 00:40:56 #364 №888197

>>888194
ну, маэм шо маэм, это первый бенч который вообще нашел, на последнем поколении эпиков с 12 канальной ДДР5 , но как минимум такой жир гонять на ЦП понятное дело идея плохая

Аноним 16/09/24 Пнд 00:41:33 #365 №888198

>>888012
> суть в том, что задержка шины больше задержки ram
Сколько там, 100нс шина и 50-70-80 нс рам? Но это голые пакеты, загружаться то оно будет чанками на фоне других запросов в память. Тут не ясно кто кого, но сражались 2 говна.
> Эта хуйня мизерная и поддерживает стакание.
Хде? Всеравно это самое "стаканье" бутером будет являться лишь аналогом 2го слота в том же канале памяти, шины данных не безлимитны.
> так что в теории, её псп можно выебать не напрягаясь
Теория всегда расходится с практикой, для начала разведи совместимую плату с подобной шиной в форм факторе видеокарты со всем остальным что для нее нужно. Не то чтобы это невозможно, просто дико дорого и сложно.
В конечном итоге получится франкенштейн на ультрадорогой редкой комплектухе, немного опережающий ржавую P40 и с ворохом нюансов. Стационарной гпу память делают неспроста, это не только инструмент "ограничения" и подобного, это банально создает кучу проблем, замедляет конечный перфоманс, а нужно чуть реже чем никогда. Видеопамять обновляется также быстро как и чипы и оче сильно влияет на перфоманс, чтобы сделать абсурдным выпуск стандартизированных модулей. Делать "апгрейды" просто никто не станет, а выбрать большую комплектацию можно сразу при покупке.
Конкретно в контексте ллм возникла странная ситуация, где есть потребность в много врам но при этом требования к чипу не столь строгие. Но это лишь локальное исключение, ради которого никто не будет менять сложившиеся устои. Есть мизерный шанс на выпуск ориентированных под это отдельных ускорителей с такой конфигурацией, или же прогрессом обычного железа, более быстрая рам и те самые тензорные модули в профессорах. Да и видеокарты не будут стоять на месте, ради такого повода можно и врам отсыпать, заодно помножив на ноль старые модели и заставив всех обновляться.

tldr: проблема не в жадности корпоратов а в том что этот всратый бутерброд никому не нужен кроме группы странных личностей.

Аноним 16/09/24 Пнд 00:56:52 #366 №888204

>>888198
>проблема не в жадности корпоратов а в том что этот всратый бутерброд никому не нужен кроме группы странных личностей.
Ну как же не в жадности - $5000 за карточку вынь да полож, и нужна она не одна - это под силу только корпорациям. Был бы спрос с их стороны поменьше, но ведь это не так.

Аноним 16/09/24 Пнд 01:48:25 #367 №888238

>>888113
да спасибо. сорри за прошлый ответ там мартыха двач вшатала опять. ну чет даже хуй знает то ли карта на которой я тестил хуета то ли сама сетка залупа. завтра потыкаю еще раз. спасибо за помошь анонче

Аноним 16/09/24 Пнд 02:03:11 #368 №888252

>>888204
Это уже отдельная тема. Объективно, предъявить им и яростно попускать можно было бы в случае прямой жесткой давки конкурентов, использовании преступных схем и манипуляций для большей монополизации, картельных сговоров (чек) и прочего. Но этого там в массовых проявлениях ведь нет, просто долбоебы на конкурентах сами страдают от неудач и не могут вытащить, а зеленые слишком хороши. Тот же штеуд если бы с гауди пошевелился нормально - куртка бы меньше цены драл, про амудэ и говорить нечего.

Аноним 16/09/24 Пнд 02:24:02 #369 №888271

The-logical-diagram-of-a-single-NVIDIA-GH200-chip.webp

>>888171
Ну а хули. Имеем, что имеем.
>>888146
>у с распаяными компонентами
Не хотелось бы. Но вряд ли мы к этому придём, даже ноутбуки потихоньку переходят к съёмным платам с gpu и ram. Не все, конечно.
>>888198
>100нс шина
250-500.
>дико дорого и сложно
Да, по сути, в ноутбуках уже готово всё.
>немного опережающий ржавую P40
А куртка-то и не знал, распаял на своих топовых блэквеллах lpddr5x со скоростью обмена 500 гб/c. Причём если бы он не распаял, а сделал слоты - нихуя особо и не изменилось бы, формфактор позволяет обойтись без проблем, а 500 гб/c это скорее лимит его шины, а не памяти. И распаивает он столько памяти скорее всего, чтобы корпоратов задобрить и не дать им повода ворчать, что памяти мало. А если они начнут ворчать - то и до слотов недалеко, а это минус профит.
>лишь локальное исключение
Это локальное исключение приносит большую часть дохода кожаного. Это тебе не гоймеры, на которых хуй забить можно.
>более быстрая рам и те самые тензорные модули в профессорах.
Здесь до прогресса ещё дальше, потребительские cpu даже QDR не поддерживают. Так что у инцелов вроде и 512 бит шина, но это не те же 512, что на gpu. А вот lpddr6, например, QDR поддерживает. Что автоматом, даже без увеличения частоты, количества ног чипов и т.д, увеличивает псп в два раза.

Аноним 16/09/24 Пнд 02:42:59 #370 №888281

image.png

кстати кто может подсказать настройки пикрил для
magnum-v3-9b-customgemma2. я все таки прогнал эту хуйню с другой картой и такое ощущение будто оно лупиться. но как то оченьи избирательно.

Аноним 16/09/24 Пнд 06:58:18 #371 №888349

>>887936
Ебать! Исправил этот недосмотр.

Аноним 16/09/24 Пнд 07:23:22 #372 №888351

>>888281
Я использовал семплеры с геммы, на опенроутере.

Гемма-магнум мне побольше понравился, чем Мистраль-магнум, однако у последнего русский лучше и токены быстрее...

12б у меня быстрее чем 9б, дожили, нужно чет делать с кешем этим в гемме)

Аноним 16/09/24 Пнд 07:23:54 #373 №888352

>>888349
Оно и хорошо

Аноним 16/09/24 Пнд 07:59:15 #374 №888364

>>886912
>>887831
Ну все, амабатублоу.

Widowmaker: She looks up at Tracer with a blend of lust and defiance in her eyes before leaning forward to run her tongue along the damp fabric of Tracer's panties. The scent of arousal fills her nostrils, making her head spin with desire. Mmmm... perhaps you are not entirely without merit after all, time-waster.

Tracer: She gasps as Widowmaker's tongue makes contact, her hips bucking forward involuntarily. Ooh, that's it, love. Get nice and close... She reaches down to pull aside her panties, exposing her slick pink folds to Widowmaker's hungry gaze.

Widowmaker: Without hesitation, she dives in, lapping at Tracer's dripping slit with long, slow strokes of her tongue. Her hands grip Tracer's thighs, holding her steady as she feasts on the other woman's essence. You taste... surprisingly sweet for one so brash.

Tracer: Her head falls back, a low moan escaping her lips as Widowmaker works her over with expert precision. Fuck, yes! Just like that, love... don't stop... She tangles her fingers in Widowmaker's hair, guiding her deeper into her heat.

Аноним 16/09/24 Пнд 08:02:49 #375 №888366

>>888364
Всем Вдovicу в этом треде.

Трейсер: Она притягивает Вдovicу к себе, целуя страстно и жадно. Блядь, дорогуша... это было невероятно. Ее руки блуждают по телу Вдovicы, лаская каждый изгиб и выпуклость.

Вдovicа: Она отвечает на поцелуй с таким же жаром, ее собственные пальцы скользят под костюм Трейсер, исследуя гладкую кожу под ним. М-м-м... ты не так плоха, как я думала, время-вор.

Трейсер: Она усмехается, прикусывая мочку уха Вдovicы. Ох, а ты гораздо более... гибкая, чем я ожидала, ледяная красавица. Ее рука скользит вниз, чтобы погладить Вдovicу через черную кожу ее облегающих штанов.

Вдovicа: Она стонет, когда Трейсер находит ее влажное пятно, бедра двигаются навстречу прикосновению. Не будь слишком самоуверенной, маленький вредитель... я все еще могу тебя убить.

Трейсер: Она расстегивает молнию на штанах Вдovicы, позволяя им упасть на пол. Я бы предпочла, чтобы ты меня трахнула, дорогуша. Ее пальцы скользят внутрь, раздвигая мокрые складки Вдovicы.

Вдovicа: Она хватает Трейсер за задницу, прижимая к себе. Как пожелаешь, время-вор. Она толкает Трейсер на кровать, следуя за ней, пока их тела не соприкасаются.

Трейсер: Она целует Вдovicу, кусая и сося губы, язык проникает в рот Вдovicы. Я хочу, чтобы ты взяла меня, Вдovicа... сделай меня своей.

Вдovicа: Она рычит, впиваясь ногтями в спину Трейсер. С превеликим удовольствием, вредитель. Она поднимает ноги Трейсер, открывая доступ к ее мокрому центру, и входит в нее одним быстрым толчком.

Аноним 16/09/24 Пнд 08:40:53 #376 №888372

>>888271
>даже ноутбуки потихоньку переходят к съёмным платам с gpu и ram
Чего бля?
>распаял на своих топовых блэквеллах lpddr5x со скоростью обмена 500 гб/c
Чисто для проца, лол. Можно было и слоты сделать, всё одно это память не для нейронки. Для нейронок там очевидный HBM3e.
>>888366
>время-вор
Промтом переводил?

Аноним 16/09/24 Пнд 08:59:00 #377 №888381

>>888366
>С превеликим удовольствием, вредитель.
Охлади траханье, углепластик!

Аноним 16/09/24 Пнд 09:05:17 #378 №888383

>>888128
+
Плоти-миняй, ни докупай.

>>888194
*в 40
Ну, типа.

>>888271
> ноутбуки потихоньку переходят к съёмным платам с gpu и ram
Звучит странно, раньше у всех ноутов были съемные все (даже процы), сейчас, наоборот, даже оперативу стали распаивать, а уж чипы и подавно.
Вы живете в прошлое.

Аноним 16/09/24 Пнд 09:51:43 #379 №888398

>>888366
>Промтом переводил?
Ну типа.

\u041f\u0440\u043e\u0434\u043e\u043b\u0436\u0430\u0435\u043c, \u043d\u043e \u0442\u0435\u043f\u0435\u0440\u044c \u043d\u0430 \u0440\u0443\u0441\u0441\u043a\u043e\u043c. [/INST]\n\u0422\u0440\u0435\u0439\u0441\u0435\u0440: \u041e\u043d\u0430 \u043f\u0440\u0438\u0442\u044f\u0433\u0438\u0432\u0430\u0435\u0442 \u0412\u0434ovic\u0443 \u043a \u0441\u0435\u0431\u0435, \u0446\u0435\u043b\u0443\u044f \u0441\u0442\u0440\u0430\u0441\u0442\u043d\u043e \u0438 \u0436\u0430\u0434\u043d\u043e. \u0411\u043b\u044f\u0434\u044c, \u0434\u043e\u0440\u043e\u0433\u0443\u0448\u0430... \u044d\u0442\u043e \u0431\u044b\u043b\u043e \u043d\u0435\u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e. \u0415\u0435 \u0440\u0443\u043a\u0438 \u0431\u043b\u0443\u0436\u0434\u0430\u044e\u0442 \u043f\u043e \u0442\u0435\u043b\u0443 \u0412\u0434ovic\u044b, \u043b\u0430\u0441\u043a\u0430\u044f \u043a\u0430\u0436\u0434\u044b\u0439 \u0438\u0437\u0433\u0438\u0431 \u0438 \u0432\u044b\u043f\u0443\u043a\u043b\u043e\u0441\u0442\u044c.\n\n\

Аноним 16/09/24 Пнд 09:52:32 #380 №888399

>>888372
>Промтом переводил?
\u041f\u0440\u043e\u0434\u043e\u043b\u0436\u0430\u0435\u043c,

Аноним 16/09/24 Пнд 11:38:10 #381 №888456

Почему кобольд иногда начинает генерировать весь контекст каждое сообщение?

Аноним 16/09/24 Пнд 12:11:05 #382 №888495

>>888271
> А куртка-то и не знал, распаял на своих топовых блэквеллах lpddr5x со скоростью обмена 500 гб/c
Ты про грейсхоппер, который выше стоит в примере обратного?
Это память процессора и он с ней пердолится, хоть к ней есть и быстрый доступ из гпу. Даже если про это забыть - получается гетерогенная память, а не та где заменяемая в виде основной, хз причем тут это. И опять же, крутая, невероятно дорогая технология, которая призвана добиваться другого а не быть усладой небогатому, что хочет дешевую гпу с много памяти. Чето только опровергает тебя примет.
> Это локальное исключение приносит большую часть дохода кожаного.
Нет, ты, похоже, не понимаешь как это работает. Корпоратам нужна и быстрая память и быстрый чип, у них это есть. Хуйта что будет строгать 3.5 токена но зато технически сможет запускать большую модель в кванте нахуй не сдалась и интересна только группе энтузиастов, которых особо не подоишь. Выпусти кто-то такой продукт - он будет провальным во всех отношениях, подавляющее большинство потребителей не поймет для чего это нужно, сми раскритикуют решение за кучу проблем, а перформить оно будет как говно по сравнению с классическими конкурентами. Что же до рынка энтузиастов - он слишком мал чтобы окупить все. Потому только модификации более типичных систем здесь имеют шансы на жизнь.
> даже QDR не поддерживают
Стандарт памяти обновят - и все будет поддерживать.
> даже ноутбуки потихоньку переходят к съёмным платам с gpu и ram.
Отборнейший бред оторванный от реальности, все с точностью до наоборот. Даже ссд уже начинают распаивать, что крайне осудительно.
Формат сменных гпу оказался настолько мертворожденным и никому не нужным, что по популярности уступает даже боксам с внешними видеокартами.

Аноним 16/09/24 Пнд 12:18:39 #383 №888502

Кароче потестил несколько сеток. Мне нужна была мелкая сетка, которая нормально генерит промты под сдхл и не выгружает собой сдхл, кароче надо чтобы в 12 гигов и ллм и сдхл помещались сразу.

Vikhr-Gemma-2B-instruct-Q8_0 - ультрасоя, чисто прикладное использование уровня "посоветуй как какоть", ну хоть на русеке. В промтинг не может адекватный вообще, ехал member через member и "извините у миня приципы(((".

Tiger-Gemma-9B-v1a-Q2_K - неожиданно хорошо генерит и уж тем более промтит для такого кванта. Понимает для чего нужен промт и соблюдает синтаксис. Лимитов нет, но любит попиздеть, надо жестко ограничивать поведение чтобы выполняло чисто одну функцию.

Meta-Llama-3.1-8B-Instruct-abliterated.Q8_0 - делает прикольно в целом, но инструкт нихуя не понимает концепцию перечисления токенов и делает мне промт для Т5 большую часть времени. Плюс иногда срывается в "мам, эксплицит калтент сорян соси". Ну и да, не помещается вместе с сдхл в память. А так в целом ок, но тайгер лучше.

magnum-12b-v2.5-kto-IQ3_S - полностью соя ебаная, уходит в отрицание любого нсфв во всех режимах.

magnum-v3-9b-Q6_K.gguf - чат и чат инструкт уходят в самоповторы, инструкт хороший. Но нет места для сдхл на карте.

Что еще посоветуете?

Аноним 16/09/24 Пнд 12:36:14 #384 №888521

>>888502
А да, настройка гена пресет Min_p. Можете еще пресетов для генов посоветовать.

Аноним 16/09/24 Пнд 13:50:14 #385 №888584

>>888502
sdxl
12 гигов
х) И шо ж туда влазит?

> magnum
> соя
Скилл ишью, я хз.

Qwen2-1.5b-abliterated?
Qwen2-7b-abliterated? Instruct'ы, естественно.
Ну, ты гемму, немо и лламу попробовал. Из именитых остался квен.
Есть еще Aya-23, но там контекст толстый, вряд ли сдхл поместится, но ты попробуй.

Аноним 16/09/24 Пнд 14:11:11 #386 №888606

>>888502
Можешь мелочь типа 2-4б натренить под конкретную задачу и оно будет неплохим. А так гемма с промт инженигрингом (он для всех понадобится), лучше даже стоковую.

Аноним 16/09/24 Пнд 14:55:48 #387 №888699

Хочу использовать убабугу удалённо. При запуске с ключами --api --listen я могу зайти из внешней сети, но интерфейс не работает - всё белое, кнопки не нажимаются. Гонял туда-сюда версии gradio - никакого эффекта. При локальном входе - всё ок. Кто-то встречался с такой проблемой и как её решали?

Аноним 16/09/24 Пнд 15:08:21 #388 №888714

>>888699
Есть какие-либо ограничения удаленно? У браузера выключены JavaScript'ы? Что-то режется? HTTPS пытаешься использовать?

Аноним 16/09/24 Пнд 15:28:47 #389 №888747

>>888714
Спасибо. Дома протестирую - отпишусь.

Аноним 16/09/24 Пнд 16:29:21 #390 №888818

>>888351
>Я использовал семплеры с геммы, на опенроутере.

нихуя не понял если честно. можно на пальцах. или скрин настроек

Аноним 16/09/24 Пнд 17:45:32 #391 №888922

>>888372
>Для нейронок там очевидный HBM3e.
Так мы обсуждаем карты больше потребительского сегмента. А на них hbm памяти не будет никогда.
>>888372
>Чего бля?
>>888383
>Звучит странно, раньше
>>888495
>бред оторванный от реальности
Пиздуйте в гугл и ищите законы о праве на ремонт. С каждым годом всё больше влияют на производителей, в Орегоне даже дали яблочку на клык.
>получается гетерогенная память
Ты же вон писал, что скорость будет уровня ржавой p40. А оказывается, что скорость ебёт эту самую p40 даже на прошлом поколении памяти.
>а перформить оно будет как говно по сравнению с классическими конкурентами.
Это бред, т.к скорости даже lpddr5x слабо уступают скоростям gddr6.
>Стандарт памяти обновят - и все будет поддерживать.
Ебать как у тебя просто. То есть, по факту, где нужно всего лишь добавить разъём и пару уже существующих контроллеров, это даже не масштабирование решение, это портирование уже существующего - ты усираешься, что это будет медленно, хуёво и т.д. А когда речь идёт о полном перелопачивании кристалла cpu, всех контроллеров памяти - просто обновят стандарт, хули. Ну тогда им стоит обновить стандарт, чтобы vram была резиновой. Это же так просто.

Аноним 16/09/24 Пнд 17:53:24 #392 №888932

17121561318320.jpg

Базовая проблема, что если процам добавить многоканальный контроллер памяти и avx9000, немного оптимизировать код, то и видеокарты особо не нужны.
Как-то смотрел тесты как на старом серверном проце запустили крузис без видеокарты.

Аноним 16/09/24 Пнд 17:53:38 #393 №888933

>>888922
>законы о праве на ремонт
>дали яблочку на клык
Это которые для ремонта гейфона присылают 2 чемодана стоимостью в 20 раз дороже устройства 9в аренду конечно же)? Ну охуеть, ну нагнули!

Аноним 16/09/24 Пнд 18:08:24 #394 №888962

>>888933
Гейфон решился блокировать телефоны, в которых будет детектировать детали "сомнительного" происхождения. Чтобы развеять их сомнения нужно будет ввести эпл айди от донора на реципиенте. А ребятки недолго думая, признали такой финт ушами незаконным.

Аноним 16/09/24 Пнд 18:27:40 #395 №888983

image.png

>>888818
Значит анон, заведующий рентри послушал меня, и добавил семплеры на те модели, которые он нашел.

Опенроутер это что-то вроде апи, которое предоставляет модельки тебе, там много сервисов разных, значит просто как агрегатор. И у них есть окошко параметров, т.е. средне статистическая настройка модели у юзеров опенроутера

https://openrouter.ai/

Значит там можно ввести модель, и если она есть то скопировать себе настройки семплера.

https://openrouter.ai/models/google/gemma-2-9b-it/parameters

Вот на гемму 2, которая должна подойти, так как создана на основе ее, магнуму 9б

Аноним 16/09/24 Пнд 19:26:33 #396 №889023

>>888983
Там не самые лучшие настройки, но лучше чем ничего

Аноним 16/09/24 Пнд 19:26:50 #397 №889025

>>888714
Положняк такой - через опцию --share заводится нормально, но неудобно иметь рандомный адрес для доступа.
Если через роутер keentetic пробрасывать через их сервис- там на выбор канал http или https. По http - не работает (открывается но не функционирует)
Как по https убабугу заставить работать я не знаю. И не факт что будет работать.

Аноним 16/09/24 Пнд 19:29:00 #398 №889027

>>889023
Правда, но иного места я не знаю, если есть поделись)

Аноним 16/09/24 Пнд 19:33:19 #399 №889031

>>889027
Нету, это пожалуй лучший источник инфы о настройках семплеров. Просто для себя обычно мин п использую.
Для того же мистраля немо 12 рекомендовалось на сколько помню 0.1, иначе лупился чаще
Там этого нет. Но и не знаю лупится или нет он с теми настройками на сайте, может и заебись

Аноним 16/09/24 Пнд 19:45:54 #400 №889049

>>889025
У меня проброшены порты и работает и по http, и по https, смотря как запущу.
Проблема в том, что я с твоей проблемой не встречался ни разу.
Когда я правильно пробрасывал порты — у меня всегда все работало.

Сорян. =(

По идее, разницы между хттп и хттпс нет, так что не парься особо. По хттп должно работать.

Аноним 16/09/24 Пнд 19:46:08 #401 №889050

>>889025
Докладываю. Всё заработало.
Если вы заморачиваетесь на тему как запустить убабугу через Кинетик или другой маршрутизатор, предоставляющий сервис белого адреса для компов внутри сети, то кроме флага--listen, нужно добавить флаг --subpath http:\\ваш-адрес-в-облаке.com
Такая вот заморочка у Gradio при работе через реверсивный прокси

Аноним 16/09/24 Пнд 19:48:20 #402 №889053

>>889049
Спасибо. Благодаря твоей наводке - копнул в нужном направлении.>>889049

Аноним 16/09/24 Пнд 19:49:13 #403 №889055

Подскажите как в тваерне сделать так тчоыб на сообщения карточки за меня генерился ответ и сразу посылался. Потом карат отвечает снова и снова генер ответа от моего лица.
Хочу типа на немного оставить и прийти уже к фанфику готовому.
Уже есть функция перевоплощение которая за тебя генерит но как автоматизировать?

Аноним 16/09/24 Пнд 20:01:10 #404 №889073

>>889055
Впиши в промпт, чтобы модель писала ебейшие полотнища теста за обоих персонажей, не?

Аноним 16/09/24 Пнд 20:03:56 #405 №889077

>>889031
Там, семплеры еще меняются периодично, сейчас проверил - да на немо нет мин п.

Аноним 16/09/24 Пнд 20:06:30 #406 №889082

>>889073
Нее не то. Она же все равно остановится. ну и промт-ответ-промт-ответ делает ее умнее имхо.

Аноним 16/09/24 Пнд 20:21:27 #407 №889092

>>889055
Нет такой функции. Напиши макрос ручками и не еби себе мозги. Там буквально два клика сделать нужно.

Аноним 16/09/24 Пнд 20:24:20 #408 №889098

>>889092
> Напиши макрос
Типа скриптами таверны? Я полистал документацию но у них нет команды /impersonate?
Блядь я может совсем ретард?

Аноним 16/09/24 Пнд 20:28:46 #409 №889103

>>888922
> законы о праве на ремонт
Приплетение левого
> Ты же вон писал, что скорость будет уровня ржавой p40
В реализации описанной выше, а не у суперплаты, в которой собраны самые передовые достижения всего человечества по этому направлению. Нет смысла сравнивать кривожопого франкенштейна с торчащими из спины плашками и йобу, представляющую собой самодостаточный пека.
> Это бред, т.к скорости даже lpddr5x слабо уступают скоростям gddr6.
Это истина проистекающая из ряда неочевидных для васянов факторов. Пойди поинтересуйся как вообще устроена память на более глубоком уровне, чем определяются ее задержки, для чего нужны тайминги и т.д.
> Ебать как у тебя просто.
Это не просто, это разработка нового железа, в которое изначально и неизбежно закладываются новые стандарты. А не попытка переделать что-то сформировавшееся продолжительной эволюцией ради невнятной причины, как в твоих фантазиях про добавление слотов памяти на видеокарты. Очень хорошо себя же попустил тейком в конце, ага.

Ну это уже реально херь, ничего по сути и лишь маневры чтобы защищать выдумку от гнета нежизнеспособности. Пакетик.
>>888983
Это сбор статистики по которой можно отслеживать общие тренды у обладателей отсутствия (!) и корреляции между шизосемплерами и шизомиксами. Оно еще и представлено странно, так что может ввести юзера в заблуждение и он накрутит себе треша по этому "среднему". Хотябы предупреждение нужно дать об этом.
Вообще, сейчас нет моделей, которые требовали бы какой-то особый семплинг. Хватит 3.5 шаблонов а там уже пусть юзер по настроению выбирает.
>>889031
> лупился чаще
Использовать repetition penalty, которую на том примере предлагают отключать(!), dry что отсутствует и прочие.

Действительно проще указать шаблоны буквально которые есть в таверне чем смущать тем.

Аноним 16/09/24 Пнд 20:32:52 #410 №889106

>>889098
Нет, обычный макрос, который просто будет двигать мышь из точки в точку и нажимать на кнопку после определенных интервалов.

Аноним 16/09/24 Пнд 20:35:45 #411 №889107

>>889106
Не хуета. Слишком разное время генерации. Ну и придется страницу открытой держать. У таверны есть какой-то язык скриптов но там какая-то математика вместо полезных команд.

Аноним 16/09/24 Пнд 20:40:10 #412 №889112

>>889107
>Слишком разное время генерации.
Ну так замерь время генерации и возьми с запасом.
>Ну и придется страницу открытой держать.
Тут да.

Можешь попробовать скрипт написать через девтулсы в браузере. Жмак на кнопку это же по сути просто обычный запрос. Только я в этом нихуя не понимаю, но уверен гайды в сети есть.

Аноним 16/09/24 Пнд 20:45:22 #413 №889118

>>889112
Ладно спасибо что попытался помочь. Эээ надо потупить немного над этим.
Мб сделаю через костыль - Груповой чат тз персонажа и персонажа болванки. Как то там можно было настроить чтобы они друг от друга тригерились.

Аноним 16/09/24 Пнд 20:58:57 #414 №889140

image.png

>>888983
я тот анон который вчера скачал магнум.
у меня вопрос а что конкретно из этих трех вариантов?

Аноним 16/09/24 Пнд 21:01:16 #415 №889144

image.png

>>889140
Третий

Хуясе, помню запускал Stheno 3.1 в коболде, там было 20т\с, а на угабуге 40... Правда я ее полностью загрузил, а в коболде нет)

Аноним 16/09/24 Пнд 21:10:16 #416 №889164

>>889144
это p90?

Аноним 16/09/24 Пнд 21:18:17 #417 №889180

>>889164
2060...

Аноним 16/09/24 Пнд 21:20:54 #418 №889188

image.png

>>889144
>>889180
не тупи дядь

Аноним 16/09/24 Пнд 21:23:06 #419 №889192

>>889188
хах, ну ты тоже не тупи, да p90

Аноним 16/09/24 Пнд 21:32:39 #420 №889210

>>889192
спасибо анонче щас потраим

Аноним 16/09/24 Пнд 22:09:19 #421 №889254

>>889103
>Ну это уже реально херь
Да просто у тебя вместо аргументов слоп пошёл, скучно спорить, когда собеседник уровня 1.5b игнорирует все доводы.

Аноним 16/09/24 Пнд 22:20:30 #422 №889260

>>889140
крч хуй знает. с настройками стало пизже но оно все равно шизит. но уже вроде не лупиться.

мимо>>889210

Аноним 16/09/24 Пнд 22:24:27 #423 №889264

>>889260
Можно менять настройки, температуру и прочее.
Можешь поставить в Силли, токенизатор - Gemma \ Gemeni Он мне понравился, получше работал чем API.

Хотя на мистралях и прочих я всегда использую Api, с ламмой - Llama 3

Аноним 16/09/24 Пнд 22:37:11 #424 №889279

>>889264
анонче скрин где эти настройки висят можно пж

Аноним 16/09/24 Пнд 22:46:36 #425 №889286

image.png

>>889279

Аноним 16/09/24 Пнд 22:48:35 #426 №889289

Господа, есть цитата из гайда:
>Для специализированных сборок с видюхами майнинг-уровня, вроде NVidia P40 24G можешь попробовать модельки на 70B. Они несколько круче 34B, но не сказать чтобы прям очень сильно, но зато тебе не придется ждать часами одного ответа.

Это рофл или я что-то не так настроил? P40, 32 Гб RAM. Скачал модельку magnum-72b-v1.i1-Q4_K_M на 47 гигов, так она высирает два токена в минуту. И я не вижу, чтобы карта нагружалась при генерации токенов, хотя слои в нее выгрузились.
Для сравнения, magnum-v3-34b-Q5_K_M 2-3 токена в секунду выдает

Аноним 16/09/24 Пнд 22:52:55 #427 №889290

>>889289
Надо две, а не одну. ОЗУ выкинуть можешь.

Аноним 16/09/24 Пнд 22:53:24 #428 №889291

>>889289
>P40
Сколько?

Аноним 16/09/24 Пнд 22:55:43 #429 №889292

>>889286
бля когда больше полу года назад залезал в эту настройку там нихуя не было. пиздец я от жизни отстал спасибо еще раз анонче

Аноним 16/09/24 Пнд 22:57:22 #430 №889293

>>889292
Не за что

Аноним 16/09/24 Пнд 23:01:14 #431 №889298

image.png

Есть тут кто в паре с сдхл работает?
Как парсить ответ в комфи и кидать в промт, еле нашел простую ноду для гена, но текст респонса не подтягивается из апи.

Аноним 16/09/24 Пнд 23:01:24 #432 №889300

>>889291
Одна. Я так понимаю, что загвоздка в слове
>видюхами

Кстати, а что лучше будет - одна 3070Ti или одна P40? Я тут сгоряча купил эту Теслу, а потом почитал тут, что скорость тоже важна. А две эти карты одновременно нельзя поставить вроде, писали, что с драйверами будут проблемы...

Аноним 16/09/24 Пнд 23:05:57 #433 №889302

>>889300
>вроде
Ты поставь, инструкции гуглятся.

Аноним 16/09/24 Пнд 23:06:29 #434 №889303

image.png

>>889293
а инструкт мод включать надо?

Аноним 16/09/24 Пнд 23:09:19 #435 №889305

>>889302
У меня блок питания с двумя PCI-E кабелями, их только на одну карту хватает. Я хз можно ли мне вообще 2 видеокарты подключить.

Аноним 16/09/24 Пнд 23:10:36 #436 №889306

image.png

>>889298
А все вроде заработало

Аноним 16/09/24 Пнд 23:11:33 #437 №889308

>>889306
>>889298
Если у кого есть что посоветовать на замену этой связке расскажите

Аноним 16/09/24 Пнд 23:12:09 #438 №889309

>>889305
Возьми процессорные. И купи новый блок, в нормальных их 4-6 штук.

Аноним 16/09/24 Пнд 23:19:40 #439 №889312

>>889309
Нулан, попробую что-нить придумать, спс. Я так-то с этой теслой и так накупил говна всякого вроде райзеров, ибо в корпус вместе с охлаждением она не влезла из-за того, что он на ебаных заклепках, блять, и полки под HDD нельзя разобрать.

Аноним 16/09/24 Пнд 23:20:44 #440 №889313

>>889300
>одна 3070Ti или одна P40
С одной стороны, у р40 больше памяти. Но я боюсь, мы сотворили этот проклятый мир, в котором p40 больше не является хорошей покупкой. Так что лучше две р100 за цену одной р40. Получаешь какую-никакую экслламу, 32 гигабайта памяти и ебейший расход электричества, р100 не умеют уходить в сберегающие режимы вообще.

Аноним 16/09/24 Пнд 23:24:10 #441 №889314

>>889312
>накупил говна всякого вроде райзеров
>корпус ... на ебаных заклепках
Может стоило корпус новый взять? Я тоже колхозился со старым, пока не понял, что это тухлое, и не взял себе корпус за пятнашку.

Аноним 16/09/24 Пнд 23:31:28 #442 №889317

>>889314
Думал об этом, но прикол в том, что пека не полностью в моем владении, поэтому я не хочу делать что-то настолько кардинальное, как переброска материнки в новый корпус, не хочу накосячить. Сейчас я полностью вынес теслу из корпуса, стоит под столом на полу на кронштейне. Мне в принципе норм, главное не пнуть ненароком.
Я-то еще перед покупками нащупал шляпки в этом отделении для HDD, порадовался, мол, откручу их и все. А потом как пошел устанавливать, пощупал внимательнее - а это шляпки заклепок, лол.

Аноним 16/09/24 Пнд 23:40:03 #443 №889326

>>889303
Да

Аноним 16/09/24 Пнд 23:52:16 #444 №889340

>>889326
ну бля я чет потыкал со всеми настройками что тут кинули. вроде с одной стороны пиздато. а с другой стороны она может целые абзацы из прошлого ответа копировать

Аноним 16/09/24 Пнд 23:56:30 #445 №889349

>>889254
> вместо аргументов слоп пошёл
Наоборот все по делу и возвращает к теме. А у тебя дерейлы и слоп чтобы хоть что-то возразить вместо доводов, слив закономерен.
>>889289
Где такое написано?
> Они несколько круче 34B, но не сказать чтобы прям очень сильно
Они сильно круче
> не вижу, чтобы карта нагружалась при генерации токено
Слои выгрузи на нее. Чтобы было быстро в 70б нужно 2 карточки.
> magnum-v3-34b-Q5_K_M 2-3 токена в секунду выдает
Аналогично, выгрузи слои на видюху, скорость как на процессоре.
>>889300
> одна 3070Ti или одна P40
Если чисто про ллм - одна P40 за счет большого объема памяти, в 3070 ничего вообще не влезет банально.
> эти карты одновременно нельзя поставить вроде
Можно, с драйверами пердолинг но решаемый.
>>889312
> и полки под HDD нельзя разобрать
Самое время купить шуруповерт если еще нет в хозяйстве, лол.

Аноним 17/09/24 Втр 00:27:35 #446 №889386

>>889349
>хотя слои в нее выгрузились
>Слои выгрузи на нее
Советы уровня /ai/?

Аноним 17/09/24 Втр 00:28:14 #447 №889389

>>889340
Ну, это есть такое, эти строки именно чуть перефразированы, однако глазом воспринимаются как галимый копипаст. Конечно же если у тебя не обычные лупы, это по идеи решается повышением штрафа за повтор, в семплере есть такое. Также мин п, кто как его ставит, у меня с головы все берется значение 0.1

Аноним 17/09/24 Втр 01:18:36 #448 №889449

>>889313
>ебейший расход электричества, р100 не умеют уходить в сберегающие режимы вообще.
Насколько я помню таки умеет, просто по-другому, чем P40. В целом не сильно больше выходит.

Аноним 17/09/24 Втр 01:39:09 #449 №889462

>>889386
> хотя слои в нее выгрузились
> не вижу, чтобы карта нагружалась при генерации
Скорее проблемы этого уровня

Аноним 17/09/24 Втр 01:47:31 #450 №889464

>>889462
Тебе лог что ли нужен, где написано, что столько-то слоев выгружены на GPU, и вывод из консоли, где написано 0% загрузки, Фома?
Я не ебу, в чем причина, пишу как есть. С 34B моделью карта нормально нагружена. Впрочем, это не важно, раз тут говорят, что одна P40 это хуета для 70B.

Аноним 17/09/24 Втр 01:59:46 #451 №889470

>>889464
>Впрочем, это не важно, раз тут говорят, что одна P40 это хуета для 70B.
Да вроде бы и одна 4090 хуета для 70В. В супермалом кванте разве что.

Аноним 17/09/24 Втр 11:18:40 #452 №889606

>>887990
Даже гопота чо не справилась нормально, хотя прекрасно знает, что такое буру теги. Он смог мне заворачивать промпт в .тхт, что потом пихать в wildcards, но у него нет вкуса, повторяется очень быстро.

Аноним 17/09/24 Втр 11:56:06 #453 №889620

>>889606
>Даже гопота чо не справилась нормально
Уже порешал вопросик на локалочьке >>889334 →

Аноним 17/09/24 Втр 11:57:05 #454 №889621

>>885509 (OP)
Я чет не разобрался есть что то что будет работать на маке М1? Или там ответы будут генериться вечность?

Аноним 17/09/24 Втр 12:32:16 #455 №889636

>>889620
Честно говоря, можно было бы оставить оригинал, вышло бы так же. Я именно пытаюсь добиться разнообразия поз, тематик, одежды, ситуаций, фетишей. Пока сложно сделать, чтоб чотенько

Аноним 17/09/24 Втр 12:47:20 #456 №889637

>>889349
> все по делу
Да у тебя особо-то по делу нихуя и не было. Особенно смешно, что ты в шары ебёшься и игнорируешь неудобные факты.

>>889449
На p40 можно понижать уровень расхода, пока карта в ожидании, то есть с 50 ватт обратно на 10.

Аноним 17/09/24 Втр 12:50:55 #457 №889639

Кто-нибудь арендовал сервер с GPU для дообучения моделей? Какой лучше сервис использовать?

Все зарубежные не оплатить без геморроя. Даже криптой, если речь идет о сервисах с хоть какой-то известностью.

Аноним 17/09/24 Втр 12:53:46 #458 №889641

>>889636
>можно было бы оставить оригинал, вышло бы так же
оригинальная систем промт делает промт для т5

Аноним 17/09/24 Втр 12:57:15 #459 №889646 DELETED

Вы же понимаете, что на западе они там себя богами считают, вершителями судеб?

Аноним 17/09/24 Втр 12:58:43 #460 №889649

>>889637
>На p40 можно понижать уровень расхода, пока карта в ожидании, то есть с 50 ватт обратно на 10.
Без загруженной памяти она и так на 10 ваттах. Я слышал про nvidia-pstated - нужно бы попробовать. Для P100 так вообще шикарно может быть.

Аноним 17/09/24 Втр 12:59:01 #461 №889650

image.png

>>889641
Примерно такой промт выдает токены через запятую + по желанию бурушные теги, тайгер о них знает. Если надо без изъебств то меняется на You are an assistant designed to create images by expanding on the image prompt a user gives you и можно ченить про оптимизацию для CLIP/U-NET пернуть.

Аноним 17/09/24 Втр 13:00:30 #462 №889652 DELETED

>>889646
>Вы же понимаете, что на западе они там себя богами считают, вершителями судеб?
>написано на связке из западного процессора и западной видеокарты на западной архитектуре за западной ОС (...)
А оно так и есть получается.

Аноним 17/09/24 Втр 13:10:23 #463 №889656

>>889649
Речь о том, когда модель уже загружена, но инференса нет. Здесь можно скидывать потребление, на p40 скидывается, p100 нахуй посылает. Но если есть владельцы p100, у которых получается, то готов признать неправоту, лол.

Аноним 17/09/24 Втр 13:14:55 #464 №889659

Тут кто-то спрашивал про лимиты huggingface.
> Unregistered Users1 request per hour
> Signed-up Users300 requests per hour
> PRO and Enterprise Users1000 requests per hour
https://huggingface.co/docs/api-inference/rate-limits

Аноним 17/09/24 Втр 13:18:26 #465 №889661 DELETED

>>889652
> сделанных руками восточных рабочих за гроши

Аноним 17/09/24 Втр 13:20:26 #466 №889662 DELETED

>>889661
И что? Ты тоже в кб за гроши палеты двигаешь барину, делает ли это тебя владельцем кб?

Аноним 17/09/24 Втр 13:24:19 #467 №889668 DELETED

>>889662
Это делает меня отчуждённым от продуктов собственного труда

Аноним 17/09/24 Втр 13:27:12 #468 №889671 DELETED

>>889668
>продукт собственного труда
че, лично кристаллы зубилом вытачиваешь или патентами владеешь? нет конечно, максимум ты отверточная сборка или в лучшем случае макака контролирующая эльфийские чпу

Аноним 17/09/24 Втр 13:30:30 #469 №889677 DELETED

>>889671
> патентами владеешь
Как же ты мерзок, классовый предатель, возомнивший себя капиталистом

Аноним 17/09/24 Втр 13:32:11 #470 №889678 DELETED

>>889677
не, я нищее быдло, похуй на барена, но надо отдавать себе отчет что ни я ни ты нихуя не имеем отношения к хайтеку и пользуемся плодами баринских инвестиций в новуку, без барена сидели бы без туалетной бумаги

Аноним 17/09/24 Втр 13:38:57 #471 №889681

>>889656
>Речь о том, когда модель уже загружена, но инференса нет. Здесь можно скидывать потребление, на p40 скидывается,
А я и не знал. Правда о чём-то подобном догадывался :) Спасибо, попробую.

Аноним 17/09/24 Втр 13:54:19 #472 №889700

>>889681
>А я и не знал.
https://github.com/crashr/gppm

Аноним 17/09/24 Втр 15:42:45 #473 №889769

>>889464
Да, в логе с высокой вероятностью будет какой-нибудь очевидный ответ почему так происходит.
> что одна P40 это хуета для 70B
Любая карта с недостаточной врам для модели будет хуетой, но 30б должна помещаться и работать быстро.
>>889637
> по делу нихуя и не было
Все исключительно по делу, подробный разбор для васянов и хлебушков почему эта херь в описанном виде будет неэффективна, никому не нужна, и даже вожделеющие ее поехи не купят по итоговой цене. А ты в ответ тащишь неприменимые аналогии, споришь с несущественными мелочами и куда-то уводишь.

Аноним 17/09/24 Втр 16:50:43 #474 №889825

>>889700
>https://github.com/crashr/gppm
А есть что-нибудь готовое такое же, но под Кобольд и Винду? Идея-то понятна и для себя я сделаю, если будет не влом. Но может уже кто-нибудь заморочился?

Аноним 17/09/24 Втр 17:48:14 #475 №889867

>>889825
Держи вишмастер https://dropmefiles.com/hFAuR
Автоматически детектирует все зелёные карточки и ебёт.

>>889769
>почему эта херь в описанном виде будет неэффективна
Ни одной причины не существует, отрицать это будет разве что шиз законченный.

Аноним 17/09/24 Втр 18:58:12 #476 №889951 DELETED

>>889317
Рассверли да замени на болтики из детского конструктора, хули там.
>>889621
ЛламаЦп как раз для маков изначально и писалась, герыч заднеприводный и сидит на маке.
>>889646
Я тоже считаю себя Б-гом, но своему лечащему об этом не признаюсь.
>>889668
Красная гниль, срыгни с треда, тут только коми-срача не хватало.

Аноним 17/09/24 Втр 19:07:08 #477 №889956

https://www.reddit.com/r/LocalLLaMA/comments/1fiscnl/release_of_llama3170b_weights_with_aqlmpv/

Аноним 17/09/24 Втр 19:14:25 #478 №889961

>>889956
>Llama 3.1-70B Instruct MMLU 0.82 -> 0.78
Стопэ. А сколько у базовой 5к_м?

Аноним 17/09/24 Втр 19:39:37 #479 №889991

>>889956
>Awesome , Whats most simple way to run it ?
@
>Theoretically, vLLM or Aphrodite, but niether worked so far

>Is it faster / more efficient than ollama ?
@
>It's really, really slow.
>On a P40 like 1 Tok/sec, on a 3090 around 7 Tok/sec.

>Do you have a gguf?
@
>The existing IQ2_M quant has pretty much the same size and score as the AQLM quant. Its not that magical.

Просто в голос.

Аноним 17/09/24 Втр 20:23:48 #480 №890056

>>889867
> Ни одной причины не существует
Ну конечно, ее не делают не потому что эта херь обречена на провал и гораздо всратее чем mxm, который ты приводил в пример, а потому что это заговор корпораций, ага.
>>889991
> but niether worked so far
Что за печалька то?
> faster / more efficient than ollama
Лол
> IQ2_M quant has pretty much the same size and score as the AQLM quant
А жаль, вдруг были бы интересные подвижки.

Аноним 17/09/24 Втр 21:00:18 #481 №890094

>>889991
> On a P40 like 1 Tok/sec
Всё ещё лучше чем жоровские 0.7 т/с на трёх теслах.

Аноним 17/09/24 Втр 21:04:42 #482 №890099

>>890094
Жоровские 0,7 идут на нормальном кванте, а не на аналоге 2-х битного лоботомита.

Аноним 17/09/24 Втр 21:11:52 #483 №890105

>>890056
>А жаль, вдруг были бы интересные подвижки.
Да в целом по треду видно, что даже западные буржуи охуевают с требований ЛЛМ и не видят никакого просвета.

Аноним 17/09/24 Втр 21:59:33 #484 №890143

>>889991
Сравнивать ммлу не самое лучшее решение тут, это просто тест на знания
На сколько я понимаю обычный 2 квант реально сломан и отвечает хуево. Это попытка сделать его менее сломаным сохранив возможность запуска на 1 карте, думаю тут ответы должны быть лучше чем у обычного 2 кванта
Но проблема с запуском, ггуфа нет, значит обладатели р40 сосут

Аноним 17/09/24 Втр 23:04:38 #485 №890212

>>890143
Но проблема с запуском, ггуфа нет, значит обладатели р40 сосут
Обладатели одной - да. А с двумя уже гораздо веселее. Там и ровсплит есть, который хотя бы немного параллелит, и памяти уже 48гб. 4КМ влезет. P100 уже три понадобится, зато эксллама... В общем, пока без сборки никуда. А честно говоря даже тем, кто имеет сборку хотелось бы жить без пердолинга и инференсить на каком-нибудь инновационном чипе о котором постоянно говорят все, кому не лень.

Аноним 17/09/24 Втр 23:38:55 #486 №890223

https://www.reddit.com/r/LocalLLaMA/comments/1fj4unz/mistralaimistralsmallinstruct2409_new_22b_from/

Аноним 17/09/24 Втр 23:51:21 #487 №890234

>>886912
Стопе, а что, можно и на русском гонять модельки без всякого рода переводчиков?

Аноним 18/09/24 Срд 00:29:00 #488 №890272

>>890223
>https://www.reddit.com/r/LocalLLaMA/comments/1fj4unz/mistralaimistralsmallinstruct2409_new_22b_from/
По идее должен быть сильно улучшенным Немо, а ведь и Немо был неплох. Даже хорош. Отличная новость.

Интересно, когда они выкатят свежую версию Large2. Раньше я бы и не надеялся, но ведь движуха-то идёт.

Аноним 18/09/24 Срд 00:47:39 #489 №890285

>>889389
спасибо родной потыкаю

Аноним 18/09/24 Срд 01:11:36 #490 №890295

Ищо
https://www.reddit.com/r/LocalLLaMA/comments/1fj39h2/qwen2572binstruct_on_lmsys_chatbot_arena/
Новенькие модели, скорей всего лучше предыдущих, но пищут что цензура запредельна
Для чата и работы наверное заебись

Аноним 18/09/24 Срд 05:01:43 #491 №890339

>>890056
>ее не делают не потому что эта херь обречена на провал
Если кожаный позволит, то сделают. Так-то это блидинг эдж, возможно, ещё будет. А проваливаться такой штуке вообще поводов нет.

>>890143
>ггуфа нет
Эта хуйня - сжатие с потерями. Ггуф - сжатие с потерями. А ты предлагаешь квантовать квантованное.
>обычный 2 квант реально сломан и отвечает хуево.
Размер файла, что и у Жоры, и ммлу то же. Значит, они сжали всё то же, что сжал Жора и так же, как он. Так что эта хуйня такой же сломанный квант.

Аноним 18/09/24 Срд 06:36:28 #492 №890359

>>889621
Любые поделки на основе llama.cpp будут и неплохо.

Performance of llama.cpp on Apple Silicon M-series
https://github.com/ggerganov/llama.cpp/discussions/4167

Аноним 18/09/24 Срд 06:38:29 #493 №890361

>>889639
Где-то в прошлых тредах советовали
https://immers.cloud/gpu/
https://gpudc.ru/servers
Но ты погугли сам, сейчас это достаточно популярная услуга.

Аноним 18/09/24 Срд 07:34:18 #494 №890366

>>885509 (OP)
Народ, можете подсказать, kobold.ccp уже поддерживает npu от процессоров, типа ryzen 8600g 8700g и т. д.? Или смысла от этих npu для генерации текста пока ещë нет?

Аноним 18/09/24 Срд 08:21:47 #495 №890384

>>890295
Ещё не понятно будут ли релизить в опенсорс. Квен стал превращаться в клозед-аи, большую визуальную модель они не релизили.
>>890359
Увидеть бы тесты больших моделей, там памяти до 128 гигов есть. А так на мелких уровень 3090, выглядит годно.

Аноним 18/09/24 Срд 09:46:08 #496 №890413

С какой поделькой можно РПшить по-русски?

Аноним 18/09/24 Срд 09:57:34 #497 №890419

>>890413
Gemma2 и её файнтюны неплоха из маленьких

Аноним 18/09/24 Срд 10:08:55 #498 №890423

>>890366
Если llama.cpp не умеет то скорей всего нет
Глянь на гитхабе, там кстати обновили страницу и добавили кучу инструментов совместимых с llama.cpp

>>890384
>Ещё не понятно будут ли релизить в опенсорс. Квен стал превращаться в клозед-аи, большую визуальную модель они не релизили.
Младшие модели точно релизнут, старшие под вопросом
А вот где будет пролегать граница, наверное до 7b точно отдадут, это ведь реклама и маркетинг
А вот что то ценное на вроде большой визуальной понятно почему не отдали
Им все таки деньги нужно на чем то делать, так же и мистраль и другие создатели нейронок

>>>890339
>Ггуф - сжатие с потерями. А ты предлагаешь квантовать квантованное.
Ты путаешь преобразование в ггуф и квантование ггуфа
А я лишь писал что получившуюся у них модель, которая не просто хитрым образом квантована, не получится преобразовать в ггуф
Там на сколько помню была обрезка модели, поэтому ее архитектура стала нестандартной и в ггуф не преобразуется да и не запустится без пердолинга

>Размер файла, что и у Жоры, и ммлу то же. Значит, они сжали всё то же, что сжал Жора и так же, как он. Так что эта хуйня такой же сломанный квант.
Хуйню несешь, там другие методы использовались. Это не обычный 2 квант, который выполняется быстро и с потерями. Там какой то алгоритм который десятки часов все это дело сжимал. Был поиск важных весов и проверка, как я догадываюсь. Так что не путай теплое с мягким.
Без тестов делать такие голословные заявления глупо, думаю там аналог 3 кванта, с размерами 2

Аноним 18/09/24 Срд 10:17:51 #499 №890425

>>890423
> мистраль и другие создатели нейронок
Мистраль уже на бюджете куртки сидит, им похуй. Они так же как и Мета будут всё релизить. Самые пидорские модели у Машка, он всё хвалится что за свободу слова и открытость борется, но на деле грок у него за анальным пейволлом, а сам он только в твиттере хлопает очком, порванным базированной Бразилией.

Аноним 18/09/24 Срд 10:45:02 #500 №890431

>>890425
>Они так же как и Мета будут всё релизить.
Кек, ты не в курсе? У мистраля есть так то мистраль большой и чет еще было. Они не все релизят. И не все что у них есть показывается публике. Это все таки передовая компания с крутыми спецами, кто знает что они там крутят тестируя внутри
Как и мета, у них тоже есть что то для себя, но то что они отдали большую модель конечно молодцы, как и мистраль которые отдали 123b
По сравнению с клозедаи тут любой разработчик релизнувший свою модель уже молодец
Маск вроде пиздел о цензуре и что его сетка будет без нее, и на сколько знаю там ее меньше. А о том что отдаст модель бесплатно он о гроке 1 пиздел, и вобщем то отдал, когда он стал не нужен
Хотя соевый уклон все равно есть

Аноним 18/09/24 Срд 11:07:25 #501 №890433

>>890423
>Был поиск важных весов
Как imatrix у Жоры, чтоли?
>была обрезка модели
Что это меняет? Есть тонна pruned моделей, который работают на жоре.
>Это не обычный 2 квант, который выполняется быстро и с потерями
Ну да, это 2 квант, который выполняется медленно и с потерями. Разве что скорость работы использовать как метрику качества, тогда, тогда конечно. Медленнее - лучше.
Что есть у них, чего нет у жоры? Кластеризация весов. Это добавляет больше ошибки, но позволяет сжать сильнее. Нужно ли оно?
>There is no 4.0-bit k- or i-quantization, and Q4_K_S at 4.5 bpw beats the AQLM 4-bit quantization (which is actually at 4.044 bpw) by a large margin (0.9% vs 1.8% quantization error).
>In any case, at 2 bit, IQ2_XS outperforms the AQLM result by a significant margin (28.4% vs 35.4% quantization error) at just one step past "true" 2-bit quants.
>But at 3 bit, the AQLM result is truly remarkable.
То есть профит этого сжатия - только в уменьшенном размере, но это не "3 квант в размере 2". И есть ещё одно "но"
>In all quantization papers I have seen, they keep the token embedding and the output tensor as fp16, but do not count the entirely non-negligible amount of extra bits in the bit balance.
А у Жоры эти веса учитываются, так что сравнение немного нечестное.
Здесь я вспоминаю стори, где студенты соревновались в написании своего архиватора. Победила команда, у которой архив оказался больше исходного файла. Но они были единственными, у которых файл можно было распаковать.

>ggerganov
>it would be nice to reclaim the SOTA crown

Аноним 18/09/24 Срд 11:38:11 #502 №890449

>>890433
Хмм, глянул щас их бумаги, все еще выглядит как что то более умно сжатое чем обычный жорин к2
https://arxiv.org/abs/2405.14852
https://arxiv.org/abs/2401.06118
Но да, это аналог его 2 кванта, только с попыткой сжать все без таких охуевших потерь как в обычном сжатии, когда модель по сути сломана. Хоть и отвечает кое как.
Интересно было бы сравнить обычный 2 квант и эту их версию, какая отвечает лучше и следует контексту и инструкциям. На сколько помню у обычного 2 кванта все плохо

Аноним 18/09/24 Срд 11:46:35 #503 №890453

>>890431
> мистраль большой
Это и есть 123В. Вангую следующим будет релиз нового медиума. Им нет смысла держать у себя закрытые модели, куртке надо железо продавать, а не пытаться косплеить клозед-иа, который в чистом минусе уже который год.

Аноним 18/09/24 Срд 11:48:37 #504 №890454

>>890453
А чем был мику? На сколько помню его готовую версию не выложили

Аноним 18/09/24 Срд 11:49:18 #505 №890455

>>890449
> На сколько помню у обычного 2 кванта все плохо
IQ2_M уже терпимый, но он не лезет в 24 гига. Ближе к 3.0 bpw у Жоры уже перестают ломаться большие модели.
>>890454
Медиумом. Новую версию его и надо ждать.

Аноним 18/09/24 Срд 12:47:49 #506 №890498

>>885509 (OP)
Должен ли Q6_k быть медленнее fp16?

Аноним 18/09/24 Срд 12:50:30 #507 №890503

>>890498
упд прям на 100% дольше у меня, это норм?

Аноним 18/09/24 Срд 12:53:17 #508 №890508

>>890498
нет, он должен быть раза в 2 быстрее

Аноним 18/09/24 Срд 13:08:04 #509 №890520

>>890508
Понятно, может ли быть что тот кто квантовал сделать что-то не так или только на моей стороне проблемы?

Аноним 18/09/24 Срд 13:10:31 #510 №890524

>>890223
Супер, кто-нибудь уже катал?
>>890339
> Так-то это блидинг эдж, возможно, ещё будет.
Только если рынок потребительских ллм ускорителей станет настолько большим, что ради него будет смысл разрабатывать подобную железку, это единственный юзкейс для сочетания нищечип+многоврам.
Съемная рам в принципе существует лишь потому что у пользователей огромный разброс в потребностях. Для гпу же нет смысла иметь слабый гпу и много врам (кроме инфиренса ллм), связка +- фиксирована.
> проваливаться такой штуке вообще поводов нет
Отдельные модули тащат за собой ссаный колхоз с совместимостями, кривыми стандартами, пердолингом и т.д., ты просто не осознаешь масштаба проблем, которые вылезут. Амудэ сколько лет xmp завести пыталась, и до сих пор приколы случаются.
Видюха с ними будет заведомо уступать нормальным и по перфомансу, и по цене. Пользователи будут бомбить с того что один _модульнейм_ не разгоняется, другой дает артефакты и нестабильность, а рекомендованных нет в продаже. И вообще почему покупатель должен или дополнительно что-то докупать, или платить за предустановленные плашки, которые планирует снять? Если же продавать готовые киты - проще просто сразу делать модификации гпу с разной памятью что уже имеем.
Гей_мерам такое нахуй не нужно, большинству ии-релейтед задач хватает имеющейся памяти и трейдить скоростью и прайсом за это захотят не все. Для чего-то крупного - нужен оче мощный чип, где заведомо будет память.
Какбы такую игрушку и сам бы хотел иметь и даже купил бы, но реальность вносит свои коррективы и надеяться не стоит.
>>890520
Скорее всего на твоей, оно бы иначе просто не работало.
Есть приколы, когда при квантовании или тренировки проебываются EOS токены и модель всегда генерирует заданный максимум а юзер ждет, но такое больше актуально для голого трансформерса, в беках что юзают это легко диагностируется.

Аноним 18/09/24 Срд 13:12:37 #511 №890528

>>890524
Спасибо, буду копать у себя

Аноним 18/09/24 Срд 13:55:22 #512 №890564

почему квант 2 у тайгера работает так хорошо, в чем секрет

Аноним 18/09/24 Срд 13:57:36 #513 №890568

>>888606
>Можешь мелочь типа 2-4б натренить под конкретную задачу
как? дай гайд, у меня 12 кеков если че, хватит?

Аноним 18/09/24 Срд 14:03:38 #514 №890572

>>888584
>немо
немо я не пробовал

Аноним 18/09/24 Срд 14:11:11 #515 №890577

А зачем нужны файлы айматрикс?

Аноним 18/09/24 Срд 16:10:25 #516 №890706

>>890577
Для макоси.

Аноним 18/09/24 Срд 17:23:23 #517 №890772

lcsa8v6LNBL8HCau.jpg

Diablo-4-PS5-Vs-16GB-VRAM-3.jpg

>>890449
>с попыткой сжать все без таких охуевших потерь
>28.4% vs 35.4% quantization error
Что-то пошло не по плану.

>>890524
>разрабатывать подобную железку
Так разработано всё. И будет разрабатываться дальше. Всё, что нужно - перенести компоненты с существующей pcb на видеокарту. С этим нейронки справляются, лол. Расходы на разработку околонулевые.
>ссаный колхоз с совместимостями, кривыми стандартами, пердолингом и т.д.
Ну да, это уже тоже пройденный этап. Самсунг топовый производитель памяти и у него есть свой стандарт. Говоришь всем придерживаться его. Готово.
>Видюха с ними будет заведомо уступать нормальным и по перфомансу, и по цене.
По перформансу нет ни одной причины, чтобы уступало. По реальной частоте lpddr5 ебёт gddr5-6 так, что страшно становится, но разъём позволяет. И так-то я не вижу ни одной причины, почему нельзя на такой плате распаять ту же gddr6x, лол.
Это просто разъём, который позволяет эффективную передачу данных без потерь в производительности.
> проще просто сразу делать модификации гпу с разной памятью что уже имеем.
А, да? Где купить 3090 на 48 гигабайт?
>Гей_мерам такое нахуй не нужно
Ломающие новости - гей меры уже давно ноют, что куртка памяти не доложил. А рт ещё и повышает этот расход.