В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>885509 (OP) На сцене новый участник gemma-2-9b-it-abliterated-Q4_K_L
Казалось бы, очищенный от сои, но по факту нет. И не знает, кто такие бляди.
Это был бы полный провал, если бы модель не написала код для змейки.
Модель соевая и немного туповатая, но код пишет, поэтому возможно для кодинга она подойдет. И только для кодинга, но надо сравнивать в более сложных задачах. Пройдено 2 теста из 4.
Большая проблема кодинга - нужно постоянно писать дальше, нужно поиграться с размерами контекста. Возможно это поможет.
>>885515 Ну и для разнообразия, еще один партнер для спарринга с текущим лидером >>885499 →, модель meta-llama-3.1-8b-instruct-abliterated.Q6_K
Модель знает, что такое горловая ёбля, но не знает, кто такие бляди. Соевой не является, но немного тупая.
Код пишет подробный, возможно это новый кандидат для кодинга, но вопросы за пределами сои она не всегда хорошо понимает, по тупости, а не по злому умыслу.
а подскажите, в чем может быть прикол, что чурез бугу нормальные ответы дает, а по API периодически фигня - это с контекстом связано? или инстракшен кард?
(то пытаюсь настроить систему тестирования моделек, чтобы не гонять вручную запросы, но пока по апи периодически косяки лютые)
>>885431 → > где тут вобще про tr4 речь шла? > есть старые материнки под Threadripper на x399 чипсете с сокетом AM4, там до четырех честных слотов PCIe 16x единственное что версии 3.0 И пост с исрпавлением очепятки про tr4, в шары долбишься? > даже в твоем 1920х Боже упаси в это говно вмазаться > 64 линии > PCI-Express: Gen 3, 60 Lanes (CPU only) Порошок уходи! И даже если бы их реально было 64 то из них штук 8 выделили бы под пару ssd и остальные поделили чтобы сделать больше слотов. > тредриперы "огрызки" Они странные, первые под tr4 параша, которую убили свои же десктопы. После них те что под trx40 имеют неадекватный прайс что есть смысл на эпики или интел смотреть. >>885446 → > И всё это добро обходится тебе дешевле одной 4090. Не забудь добавить что каждый из процов будет стоит как видеокарта, могут быть нюансы с нумой. Но, если есть чем загрузить, вариант вкусный 100%. >>885533 → Именно, проследуй нахуй на среддит читать нытье бедолаг, что пытаются завести жору на теслах с двухголовыми некрозеонами и получают сильную просадку скорости в зависимости от того какие из карточек задействованы. В трипаке и амудах если че отдельных нод, как в многосоккетных, нет. >>885550 Скорее всего ты просто криво юзаешь апи. Для чата необходимо сначала правильно настроить формат промта и прочее. Для текст комплишн правильно оформить все самому и уже передать. Плюс, параметры семплеров.
>>885548 Сначала качал по советам из шапки, что хотел, скачалась модель meta-llama-3.1-8b-instruct-abliterated.Q6_K
Затем по совету анона >>885391 → качал модели на 5-6 гигов, чтобы хватило на контекст, как итог скачалась модель Mistral-Nemo-Instruct-2407-abliterated.Q3_K_S
Потом сравнивал лучшую модель для своего устройства >>885371 → по критериям >>885390 →, первичный отсев, так сказать
>>885565 > 64 линии > PCI-Express: Gen 3, 60 Lanes (CPU only) ну значит гугл звиздит, а на сайте АМД вообще нет спеки этой похоже...
>осле них те что под trx40 имеют неадекватный прайс что есть смысл на эпики или интел смотреть. так и я о том, но, предпоследнее поколение железа, нам ведь PCIE4 надо, не может дешевым быть... с тройкой цена сразу падает... а так,только страдать...
>>885567 >Скорее всего ты просто криво юзаешь апи. Для чата необходимо сначала правильно настроить формат промта и прочее. Для текст комплишн правильно оформить все самому и уже передать. Плюс, параметры семплеров. а есть где-то простые гайды по АПИ? тоесть выходит все то что в буге настраиваеш на АПИ не влияет? ну окромя параметрова загрузки модели... ? и надо все подстраивать в программе юзающей API?
>>885540 Составил таблицу текущих результатов тестов.
В тесте на сою следует различать нуль и минус один. В первом случае модель неправильно ответила на вопрос, потому что она тупая, но не соевая. Во втором случае отказывается отвечать, что хуже. По моим критериям, лучше в некоторых вопросах быть тупой моделью, чем соевой. Тупость - простительна, соевость - нет.
>>885670 Ля, аж запах ели почувствовал после такого поста, такие модели сразу отправляются в мусорку, если она не может нормальный связный текст выдавать, с такой даже кумерством заняться проблемно будет, похоже что она русского почти не знает...
>>885593 Ультразатычка, но в целом почему бы и нет, норм вариант. >>885624 > а есть где-то простые гайды по АПИ? https://github.com/oobabooga/text-generation-webui/wiki/12-%E2%80%90-OpenAI-API и в самом коде глянь, там все оче просто. > тоесть выходит все то что в буге настраиваеш на АПИ не влияет? А хуй знает, обычно все параметры передаются, непонятно что именно оно юзает при отсутствии данных, какой-то дефолт или выставленное в вебуи. > окромя параметрова загрузки модели Через апи можно управлять загрузкой новых моделей. > и надо все подстраивать в программе юзающей API Типа того, обычно используют тексткомплишн чтобы сделать себе желаемый правильный формат промта, и с каждым запросом передают основные параметры для генерации. >>885628 Вот вы тут какие-то выводы делаете, но тестируете в кобольде (!) с неведомым форматом и всратым промтом, какой вообще с этом смысл? Что-то уровня рассуждений об эргономике перфоратора отбивая им чисто вручную без подключения к сети. >>885702 Можно подумать что твой пикрел кал лучше тесел, и забываешь что там в сумме 16 каналов вместо 12 за меньшую цену.
>>885714 >Вот вы тут какие-то выводы делаете, но тестируете в кобольде Вот вы тут выводы какие-то делаете, а ML щики вы не настоящие, а кобольд на порнхабе скачали
>>885714 > Вот вы тут какие-то выводы делаете, но тестируете в кобольде (!) А что с ним не так? И где надо тестировать?
> с неведомым форматом и всратым промтом, какой вообще с этом смысл? А что не так с промтом? Простые житейские вопросы, чтобы быстро обнаружить явные косяки.
> Что-то уровня рассуждений об эргономике перфоратора отбивая им чисто вручную без подключения к сети. Чисто прикладной тест, чтобы быстро отбраковать заведомо хуевые модельки для моих задач.
>>885719 >>885714 забыл, кобольд - реально дичь какая-то, когда на угу перешел - значительно лучше ответы пошли, такое чувство что кобольд в некоторых моментах криво настроен.
>>885724 >кобольд - реально дичь какая-то, когда на угу перешел - значительно лучше ответы пошли А ты его что - как фронтенд использовал? Он для этого не предназначен, даром что возможность есть. Кобольд ценен другим.
>>885773 >Это который MiroGold, MiroSilver, MiroBronze? У меня там стоит обычный Mirostat. Возможно со старых версий остался. Пробуй все, чего бы и нет.
>>885787 >В новых версиях, чего-то нет миростата. Скинь как выглядит он. Это вообще в другой вкладке, там где "настройка ответа ИИ". Не найдёшь там Миростата - ставь Миростат Голд, судя по настройкам разница небольшая.
>>885719 >>885724 >>885720 Кобольд вовсе не плох, но это довольно минималистичный инструмент, который требует настройки и имеет ограниченный функционал. С убой может быть действительно проще, ведь там и полные семплеры и большинство форматов есть по дефолту. > А что не так с промтом? Системный промт у тебя какой? Если "ты безопасный ассистент" или подобное то и рассчитывать не на что, модель буквально будет делать то что ты просишь, а ты носом воротишь. >>885726 Ну да, тут еще ггуфоприколы могут быть.
>>885809 >Так и так миростат лупиться на магнуме, или может настройки семплера разные? Я чисто пробовал миростат, без голд/бронз и прочего. От дефолтного Миростата я только поднял температуру (но это дело вкуса и на лупы не должно влиять) и поставил "Штраф за повтор" в 1,1 при "Окне для штрафов за повтор" = 2048. Этого оказалось достаточно. Правда у меня Магнум 123В.
>>885830 Получше стало, лупов или нет или их кол-во уменьшилось. Хотя я до сих пор играюсь с семплерами, не могу найти какой-то один.
>>885837 У меня в Силли в заметках автора такое - Все взаимодействия и ответы должны быть на русском языке. Пожалуйста, используй грамматически правильный и ясный русский язык. Если нужно ты можешь использовать ненормативную лексику.
Немного с АПИ разобрался, оказалось проблема была на стороне "клиентской части", которая не хотела все параметры передавать... но все равно, разница в генерациях есть, может потому что контекста нет при передаче через АПИ, потому что разницы я не вижу уже...
и так, погоняв немного Yi-Coder 1,5 потенциал в нем всеже вижу, лол, аж самому смешно, потенциал в полторашке, да, не всегда правильно, но базовые штуки пишет, типа сортировок, слияния файлов итд...
как блять заебло пример реал ситуации посылают в магаз за хлебом тдешь покупаешь возвращаешься
нейронка же мгновенно забывает недавние цели что ты пришел в магаз не на вечность засовывать булки в жопы - а просто сделать чек и сьебать. нейронка вечно отвливается на какуюто фигню и забывает что это было уточнение истории. и вобще то историю надо двгать дальше. что сделать чтоб сеть не вела себя так тупо? надеюсь понятно обьяснил
>>885958 >что сделать чтоб сеть не вела себя так тупо? Чем больше модель - тем меньше ошибок; Делай большой контекст; Работай на английском (с переводчиком в обе стороны); Реролль, если генерит совсем не то; Если пошло совсем не туда - стирай последние посты и подсказывай; Делай ручной суммарайз; Пробуй разные модели и файнтюны последних поколений; Всегда помни, что модель несовершенна.
>>885972 >Работай на английском (с переводчиком в обе стороны); лол а разве не все так по умолчанию делают? >Делай большой контекст хуй найдешь где он больше >Реролль, если генерит совсем не то; ваще не решение >Пробуй разные модели и файнтюны последних поколений; проблему вижу пару лет на всех моделях . просто где то везет а где то нет но я уверен что причина проблема есть везде > стирай последние посты и подсказывай так можно и до рп в блокноте дайти
>>885981 лол а разве не все так по умолчанию делают? так а нафига ллмки если к ним еще гугель транслейт прикручивать модель должна быть универсальной и сама переводить хорошо
>>885990 я на трех теслах. Еще четвертая лежит, но воткнуть некуда и с охладом проблемы. Карты которые в корпусе на материнских pcie жарче на 10+ градусов чем та, которая снаружи на райзере висит. А это не шутки, когда речь про температуры около 60. И это в жоре когда контекст скачет с карты на карту. СД утилизирует так, что там доменная печь образуется. Заказал себе мать BTC79x5v1.0, сижу жду. Надеюсь на ней есть above 4g.
>>886000 та РПш как хочеш, хоть через Промт переводиОлды здесь?, я говорю что для многих тасков окромя кумерства нативная поддержка языка необходимость практически, более того гугл плохо переводит иногда...
>>886004 заходит как-то школьник в ЛЛМ тред, снимает ботинок с ноги и каблуком хлопнув по трибуне спрашивает "а хули вы все тут собрались? нахуя это всё?"
>>886007 причем тут глюки ты меня слышиш вобще? сетки не защищены от забывания что из уточнения и отвлечения надо возвращатся в основную конву а нее как у толстово встретил дерево и описывает его на 100 страниц
>>886012 зависит от того, какое "тогда" ты имеешь в виду Я слышал, что год назад то-то и за 13к брал. >>886011 ну точно школьник, не понял отсылки... слыш, борда 18+
>>886006 Ничего тебе не предлагают тут, ты еще и по вкладкам махаеш? жесть... Куда вы этот ролплей примазываете? сириосли днями сидите с нейронкой общаетесь?, если на инглише результат устраивает работай на инглише, внезапно можно и не переводить, инглиш не корейский, надо знать,
>>886009 ну так тут вооббще влияние языка минимальное, это проблема сетки как таковой, вожможно правка контекста подлечивать может такую проблему...
>>886016 народная тесла треда только одна - P40. >>886017 >Куда вы этот ролплей примазываете? сириосли днями сидите с нейронкой общаетесь? хороший вопрос. Да, обычно примазывать его некуда, кроме кума радугой по вечерам. Но я иногда спрашиваю её по SRE тематике. Внезапно в 70b+ сетках открывается емерджентное свойство рассуждать логически при скудных вводных данных и плохой изученности проблемы. Сложно описать. Типа, обычная gemma 23b тебе конечно выдаст ответ, но он будет как сборник ответов со стековерфлоу. В то время, как 70b+ может выдать какой-то инсайт. Ну, а еще мне сетка норм по диете и питанию разложила. И сразу с препаратами даже, а не просто "занимайся больше и жри меньше". Их плюс в том, что они по знаниям дохуя широкие.
>>885994 > на трех теслах Че там по скоростям? > когда речь про температуры около 60 Это смешная температура. > BTC79x5v1.0 Ща набегут засрут что там линий недостаточно. >>886002 Хорош, всхрюкнул >>886008 А она ему как раз.
>>886050 > > BTC79x5v1.0 > Ща набегут засрут что там линий недостаточно. Ее бы какими-нибудь p102 на фулл забить, лол, вот это был бы потешный днищеконфиг. Или еще лучше ту восьмислотовую йобу вместе с дешевым "майнерским" бп. Я бы на такое посмотрел...
>>885981 Эти проблемы отчасти можно решить скриптами, задавая модели разные промпты на разные ситуации, заставляя её генерить себе "план" и включая его в промпт и т.д. Анон в позапрошлом треде скидывал методику >>868995 → Всё хочу попробовать заняться, но некогда...
>>886099 Да, за Магнумами надо следить. Добавил в список, особенно 27В. Для меня эта Гемма стала базовой локальной моделью и наконец-то к ней вышло что-то кроме поломанного БигТайгера это надо затестить.
>куча моделей пачками повыходили чуть ли не каждый день А что ещё?
>>885509 (OP) Аноны, подскажите что за хуйня. Загрузка кобальта стопорится на этом этапе и потом очень очень долго ничего не загружается, даже мелкие модели. Причём если один раз эта хуйня прогрузится, то потом будет запускаться моментально. Предположу что проблема возникла после версии с автоопределением кол-ва слоёв на видимокарту, но даже если выставлять своё значение или 0, или вообще использовать нокуда, то ситуация аналогичная. Что это за хуйня и как победить? И куда кобольт пишет свои конфиги, в appdata ничего связанного с ним нет? Версия 1.74.
>>886022 к 70b, 123b вопросов нет, вопрос куда столько народу крутит 10 и меньше, и есть ли на них жизнь... я понимаю конечно что локальная гопота это круто, но только если результат практически сопоставим, а не вычищать тексты после локалки 3 дня...
>>886062 так сразу ферму купить на 102х норм тема будет, почти... не знаю как 102, но 104 дешевые довольно, по цене выгоднее теслы, но они ж жрать будут электрики капец... ну и на тесле можно гонять СД в высоком разрешении и с контролнетами
>>886011 Хочет быть выше, карлан же. >>886019 P100 по идее тоже интересна, HMB память же, ебёт всё кроме 3090. >>886050 >Ща набегут засрут что там линий недостаточно. Линий там достаточно, 40 штук же. А вот одна плашка это конечно лол. >>886099 >Да и вообще куча моделей пачками повыходили чуть ли не каждый день Уже два года так живём. Иногда бывают мирные периоды затишья, но выходит новая база, и вот куча шизомержей. >>886220 >сколько памяти надо на такое чудо Чем больше, тем лучше. Без 24 гиг лучше не соваться.
хм, интересный момент, судя по калькулятору https://rahulschand.github.io/gpu_poor/, 410м модельку можно полностью тренировать на одной видяхе, кто-то пробовал такое делать?
>>886236 >или люди столько не живут Yep. >>886242 >полностью тренировать на одной видяхе, кто-то пробовал такое делать Пробовал. Там по времени всё равно дохуя выходит, а я не готов ждать результата неделю. Поэтому у меня были недотрейненные огрызки. Можешь задавать свои ответы.
>>886050 >Че там по скоростям? по скоростям жопа, но ради качества ответов я могу это потерпеть. Для порнорп юзаю сетку поменьше - magnum-72b-v1-Q5_K_M. У неё достаточная скорость генерации, чтобы не ждать прям по буквам пока сеть рожает слова. >Это смешная температура. смешная? Ну разогрей карту до 60 и попробуй подержать руку на черной металлической пластине на бэке карты. Термическую усталость материалов никто не отменял, а карты на секундочку 16 года выпуска. Их и до нас уже хорошо прожарили. >Ща набегут засрут что там линий недостаточно. для жоры достаточно x1. Я экспериментально проверил как работает использование нескольких карт. Жора кладет одинаковую программу и разыне куски модели во все карты и между ними перекидывается при выполнении небольшой объем данных. Настолько небольшой, что скоростью их передачи можно пренебречь. x16 или x1 - не важно, это не является батлнеком при генерации. Батлнек - работа с самой моделью, она не параллелится. По сути работа на трех картах по 24 гб с тремя чипами равноценна работе на одной карте с 72 гб и при росте объема модели медленнее она начинает генерировать только потому, что чип в картах слабый и старый. >BTC79x5v1.0 вообще я именно её взял не из-за линий (хотя там в комплекте проц на 40 линий и написано что на все порты подается x8), а из-за того, что это удобный формфактор. Другие такие платы излишне длинные. >>886104 просто добавил это в чара > Она знает о существовании интернета, давно сидит на имиджбордах и умеет троллить, не боится колко выражаться для красоты речи. >>886214 >куда столько народу крутит 10 и меньше ну так там и теслы не нужны. Люди просто пробуют. Я тоже сначала гонял мелкую модель на 3070 до покупки тесел. порно рп на них конечно уровня "я тебя ебу, ты меня ебешь, ах", но все-равно новые ощущения. >>886218 >СД в высоком разрешении только в рамках одной карты к сожалению. Я не нашел способа использовать память всех трех карт под одну задачу. Есть мультидифьюжн, но он параллелит генерацию мелких картинок, а не размазывает генерацию одной большой картинки на все карты. И то это в half режиме. Если выставить --no-half - там сразу 10 гигабайт от карты съедается просто при загрузке модели. fullhd при ренерации без апскейла - это потолок, да и апскейл тоже падать будет по cuda oom если больше чем x2. И апскейлеры тоже не умеют апскейлить одну картинку с помощью трех карт.
>>886099 для моей 3060 12gb это не актуально. Либо слишком ужатая до уровня даун модель, либо 1,5 токена в секунду + по 10 секунд ждать прогрузки каждого 512 контекста.
подкинь тогда где почитать как вкатится в такую содомию, вцелом то вижу задачу зафайнтюнить на конкретную тему, есть подозрения что 410 справится с таким
>>886271 >но все-равно новые ощущения я когда-то в анонимном чате так по рпшил, прикольно, но ощущение проёбаного времени, даже ютубчик позалипать менее угнетающе звучит
>>886271 по СД то понятно, никто и не просит от нее паралелиться, и потому тесла и выгодна, что 24 это в три раза больше чем 8, а 8 это совсем притык, а если видосы перерисовывать так там надо шустро, и желательно хотяб 720p а не 320*240
>>886284 так тут проблема в том, что оно как бы не особо выгодно, купляеш одну теслу - и как лох гоняеш 30b модельки, покупаеш пачку тесел, и.и.и. есть шанс запустить жирную модельку на хреновой скорости, но за эти деньги можно на несколько лет подписку на гопоту купить и работать как белый господин... короче говоря это для энтузиастов, которым гонять самому интересно, а не рабочий иструмент максимально выгодно нужен...
>>886289 хотелось бы конечно, но низзя, не раскидывается она, как минимум потому что не однопроходная...... Лол, короче вспомнил, как по приколу попробовал проходя какой-то курс по нейронкам на основе сверточной натренированной на класификацию картинок посчитать градиенты при класификации рандомного шума и получить с него картинку - вышел психодел лютый)
>>886293 >подписку на гопоту купить Вот, кстати, интересная хуйня. До первой теслы мне гопота умной казалась. Я тогда гонял 20b франкенштейнов из второй лламы и гопота выгодно смотрелась на их фоне. После первой теслы, появления в моей жизни коммандеров, гемм, третьих ллам - всё в корне изменилось и гопота вызывает только раздражение своей беспомощностью и глупостью.
>>886382 >всё в корне изменилось и гопота вызывает только раздражение своей беспомощностью и глупостью. Я давно не общался с ЧатГПТ и даже не в курсе, на каком он сейчас уровне. Но иногда работаю с Клод Соннет - все говорят, что она даже лучше. Очень раздражает демонстративная услужливость и соглашательство данной модели, хотя заметен и огромный потенциал. Но третью Лламу в принципе уже можно сравнивать, а уж Мистраль Ларж 2 тем более. И очевидно - я не пробовал, но это прямо чувствуется - что в РП Соннету точно так же не хватит соображалки, как и тем двум моделям. Тем более он под это не заточен. О сое я уже и не говорю.
>>886215 Ну чуть быстрее моей 2060, однако памяти 24гб, и сколько т/с на больших моделях? аля 70+, у меня на гуфе 7-9 т\с 13б, при не полной загрузке. Там я думаю на порядок больше, а может и нет.
>>886432 >сколько т/с на больших моделях 6+ на 70В_Q5KM c 16к контекста 4+ на 123В_Q4KM c 16к контекста Плюс небольшой. Но - это только генерация. Обработка контекста на теслах - боль, для смягчения которой применяются многие хитрости. Иногда не помогает.
>>886170 Конечно вряд ли поможет, но попробуй тыкнуть лкмом в консоль и понажимай пару раз enter. В 11 винде консоль блочится если кликнуть на нее >>886435 >смягчения которой применяются многие хитрости Это какие? Есть что-то кроме FleshAttension?
>>886278 Я вот эту шнягу использовал https://huggingface.co/docs/transformers/model_doc/gpt2 плюс нейросетки спрашивал, лол. >>886382 Уже тысячу раз писал, что соя портит все коммерческие сетки. Все эти килобайтные джейлы нихуя на пользу не идут, а без них у меня Сори я кант континуе прямо на карточку персонажа.
Достаточно долгое время зависал на сатах типа спайсиаичат и решил попробовать ЛЛМ. После изучения гайдов из шапки решил поставить таверну через кобольда для ерп. Проковырялся несколько вечеров и заставил все работать. Возникло несколько вопросов: 1. Минимагнум 12б на 4070 генерит респонсы примерно полторы минуты на дефолтные 250 токенов. Можно ли это ускорить и каким образом без снижения качества модели? Или эта гпу совсем дно и нужно понижаться до 7б моделей 2. Если я правильно понял, полнота и развернутость ответа зависит от используемой модели и степени квантования. Но в некоторых случаях на одной с разными пресетами персонажей/сценариев получаю совершенной несвязанное повествование. Это значит нужно искать менее кривые карточки персонажей? 3. аналогичная ситуация с ответами за юзера, в некоторых случаях происходит пиздеж за меня на половину респонса. Какой параметр отвечает за это и как ограничить эту возможность. 4. Что можно почитать для более детальной настройки моделей/персонажей, чтобы они не выпрыгивали из штанов после первого респонса. Заранее спасибо за пояснения.
>>886452 >А ну, да, только я его почему-то только в коболде видел, его разве нет в угабуге? Должен быть, но я не пользуюсь. Кобольд стабильнее и удобнее. Кому нужны свежие сборки - есть лламаспп сервер. А в убе ллама особая, на айронпайтоне что ли. Надо бы попробовать для прикола.
>>886467 >Минимагнум 12б на 4070 У меня мини магнум 12б, на 2060 9-7 т\с, как и почти любая 12б, ПРИ Q4_K_M\Q4_K_L. Смотри какой у тебя квант, наверное выбрал Q8_0 >Это значит нужно искать менее кривые карточки персонажей? Да, есть такое, зависит от этого, пресеты и семплеры влияют еще, так что все в тандеме.
>>886467 >Что можно почитать для более детальной настройки моделей/персонажей, чтобы они не выпрыгивали из штанов после первого респонса. в общем рекомендация сводится к добавлению в чат темплейт чего-то вроде "развивай сюжет медленно". Но зачастую мелкие сетки слишком тупы, чтобы развить сюжет куда-то кроме очевидной ебли и выпрыгивания из штанов. Но ты попробуй оптимизировать инструкции. >4070 нахуй ты это говно вообще брал?
>>886472 >Там есть тензоркор, дает больше прибавку к токенам, на порядок 1-2 т/с Если оно не просто так называется, то печаль - у теслы нет тензорных ядер... Но попробую.
>>886284 >12 гигабайт - для него слишком много Наоборот слишком мало, что бы запускать на ней 20b+ модели с более-менее терпимой скорости для RP
Пока что перебиваюсь на разновидностях модели Nemo-Mistral 12b и Magnum 12b v2
Хотя в своё время юзал на своём проце Ryzen 5600g Llama-3SOME-8B-v2b и был рад 2 токенам в секунду и обработке 512 контекста за 10 сек, но потом однажды попробовав на настоящей видеокарте позалипать в нейронки во мне проснулся пикрелейтед
>>886481 У меня есть эти ядрышки, поэтому перешел с кобольда, на угабугу.
+ буги, она позволяет загрузить намного больше слоев/контекста без ошибки, чем кобольд. Тем не менее за все есть цена, то что ты загрузил сверх меры будет браться с озу.
Я хотел получить скорости, и на 7б кобольд - 20т/с, буга - 22т/с. Прибавка есть, но маленькая, может быть из-за моей rtx 2000.
>>886417 Я не на графики смотрю, это чисто субъективное мнение по итогам использования. Если сравнивать 4о с лламой 70b, то первый просто сливается в унитаз, как дешёвка.
>>886426 >на каком он сейчас уровне. Чисто по ощущениям, это что-то уровня 10-12b с прикрученным RAG. Оно ебать, как много знает, но чтобы выудить эти знания иногда даже наводящих вопросов недостаточно, ты уже должен знать о том, о чём ты спрашиваешь. Эта самая 4o крайне просто входит в петли, не может исправлять свои ошибки, не может на ходу переключиться на другую тему, не понимает сарказм, не понимает, когда ты просишь чего-то не делать, откровенно врёт, если чего-то не знает, и выдумывает на ходу. И да, лупы у 4о это непобедимая хуйня, он либо повторяет одно и то же, либо делает то же самое, даже если ты говоришь этого не делать. Локалки в этом плане куда честнее, чтоли. Они знают меньше, но понимают гораздо больше.
>>886498 Чувак, у тебя во время того как ты запускаешь эту модель - модель вся грузиться в видеопамять. Если во время запуска модели или её использования у тебя ещё запущены другие игры- приложения, даже ютюб - они занимают часть видеопамяти твоей карты и допустим вместо 12 гигов у тебя по факту оказывается 10,5 или вообще 8. Лично у меня встройка на проце и я всю отображаемую графику для моника через неё гоню (тупо оставил моник подключенным к материнской плате а не к видяхе) и моя видяха остаётся незадействованна для всякого мусора и может на все 100% отдаваться обработке генерации текста.
Вот прямо сейчас закрой прогу кобольд или на чём ты там генеришь и открой диспетчер задач. Перейди в раздел производительность и выдели свою видюху. Там ты увидишь сколько у тебя видеопамяти занято и сколько свободно. + учитывай что чем дольше общаешься с чат ботом тем больше памяти нужно будет для хранения в его памяти прошлых твоих сообщений. Контекст короче, который ты изначально выбираешь. У некоторых моделей только 8к а у других и 16к+ можно сделать. У магнума только 8к максимум ставь.
Памяти не хватит ни на что вообще, сразу дропай. Для кодинга Deepseek-Coderl-V2-Lite, его можно крутить на проце, кстати. Для кума — пиздуй в шапку, там охуенная подборка спецом для новичков. Чел старался.
> mini-magnum-12b-v1.1 Да. > Q4_K_M Нет. Хотя бы Q6.
Работать будет, если подрубить че-то там, для работы наружу.
>>885379 → Хуйня, даже не тестируй такое говно. Не трать время.
>>885386 → Я сочувствую твоим страданиям. =) Зато ты приобрел опыт.
>>885441 → > по совету > качает говно в третьем кванте
Чувак, послушай, то что они не влазят тебе в видеокарту не делает модели плохими. Это делает плохой твою видеокарту. Качай не ниже Q6 (а лучше Q8) и выгружай на оперативу, иначе никак. Или докупи вторую видяху.
>>885563 Нет, скорее только через апи и можно. Убабуга по умолчанию работает в режиме «Ты отыгрываешь персонажа, вот чат, напиши следующее сообщение:» это ролеплей, а не диалог, и ллм понимает, что она ролит с тобой. А по апи зачастую диалоги хуярятся, там иной результат.
>>885593 Значит косарь за кит, плюс опера, и видяхи. На райзерах, вероятно. Ну, так-то, цена норм для тех, кто хочет дохуя, но не хватает на H100. Новая база тре… кекеке. Хорошечно, спасибо.
>>885624 Ну, в теории ты можешь обращаться с пресонажам из убабуги через апи, но в общем, да, если не делаешь специально — настройки никак не влияют, только то, что ты даешь.
>>885628 Твоя таблица ну полная хуйня. Я не обвиняю тебя, просто очень жаль, что тебе сразу никто толком не объяснил, что ты трогаешь исключительно говно, почему-то. Точнее, тебе говорили, но недостаточно резко.
ВЫКИНЬ ДЕРЬМО Качаешь гемму в 8 битах или мини-магнум в 6 битах МИНИМУМ, а лучше в 8. И тестишь ТОЛЬКО ИХ И ТОЛЬКО ТАК. Ну, на вкус и цвет, конечно, но все остальное будет давать хуевые результаты в любом случае. Я не знаю, что ты пытаешься выжать из такого ужаса. И, да, у тебя будет медленно, хоть укакайся, либо будет тупо и криво, тут выбор за тобой.
>>885724 Кобольд пихает свои префиллы в промпт, а если ты еще и галочки не снимал пихать адвенчуре промпт… =) То это эпик фейл. Кобольд надо тонко настраивать и он все равно так себе. Чисто для вката подходит.
>>885906 Ну 9 прям говно на фоне дипсик кодера. Если полторашка такое же говно — то… это уже достойно, конечно. =)
>>885956 Кстати, как пихают такое оформление? Я видел уже где-то тут.
>>885977 А быстрее-то схуя? О_о Но, интересно, попробую. Я не он, но спасибо. =)
>>886000 Скилл ишью или бомж? Но если бомж, то да, переводчики, шо поделать.
>>886003 Здесь. Гугл, кстати, в последнее время прям напоминает…
>>886050 Аноны такие: > Это смешная температура. Потом: > у меня умирает тесла, что делац =')
Но у того чела, вроде, 75 была от стаблы на постоянке.
>>886099 О, 27б может быть клевой! Надо потестить. Жаль в 16 гигов не влезет, эх… Где там материнки с тремя слотами? х) Впихну все три P104-100, будет ультра-бомж сборка.
>>886104 Не, баян, еще месяцы назад скидывали такое же.
>>886271 > для жоры достаточно x1. До первой обработки длинного контекста с двумя и более картами. =) > Я экспериментально проверил как работает использование нескольких карт. Ну ты хуйню проверил, братан.
Потестируй следующим образом. Залей на одну видеокарту небольшую модель и прогони тест на контекст… Ну 60к контекста. Как быстро пережует. Потом, залей эту же модель ровно на три карты (или сколько у тебя там), и на х1 линии залей тот же контекст. Охуеешь от разницы. Вот, не надо сейчас рваться жопой (я надеюсь, ты адекватный) и отказываться от тестов, чтобы не развалился твой манямирок. Просто возьми и сделай эти тесты, и покажи, какая скорость обработки промпта в 1 видяхе, какая скорость в х16+х16 и какая скорость в х1+х1. Если ты прав, то разницы не будет. Но если разница будет… Короче, влияние количества линий пренебрежительно мало на малых контекстах, а на больших возникают проблемы. Вот увидишь.
>>886522 Если у него 4070, то нормальная ссылка — как раз эксллама. И работает чуть лучше, и чуть быстрее. И если вдруг вылезет на оперативу — вылетит к хуям. =D Поэтому я ему и дал именно на экслламу. Чтобы он сравнил лучший вариант с текущим.
Но, q6_K_L тоже пойдет, думаю.
Выбор у него теперь есть из лучших вариантов под его видяху.
>>886516 >Переводчик в 2к24? Ловите наркомана! Может я и наркоман, но плюсов куча: Токенов для eng-текста требуется меньше, понимание модели лучше. Примитивный стиль перевода Гугла для общения с моделью лучше в целом, имхо. Из недостатков - перевод иногда косячит, но при тексте от 300 токенов уже работает с контекстом и переводит верно, даже художественно.
>>886524 >оперативу — вылетит к хуям. Странно, ну это уже проблемы пользователей эксламмы, на кобольде такого нет. Кстати, а что тогда произойдёт, когда он на этой эксламе упрётся в 8к контекста, учитывая что я слышал что каждый 1к контекст примерно занимает 1гиг видеопамяти и учитывая что сама модель весит около 10,4 гига? Или в эксламме эта модель весит меньше?
>>886516 >Не, баян, еще месяцы назад скидывали такое же. Последний раз видел бота AICG треда, но у него форматирование и оформление другое. А как новая хуйня называется?
>>886271 >просто добавил это в чара А двачевское HTML-форматирование с аватаркой бота в посте и постами с ответами он тебе сам по рофлу написал?
>>886527 > при тексте от 300 токенов уже работает с контекстом и переводит верно, даже художественно Может у них там подключается другая модель перевода? Это интересное замечание, я не обращал внимания.
>>886528 Нет, это не проблема, а фича. =) Это отключаемо, просто приятнее увидеть, что у тебя модель с контекстом не влазит, нежели сидеть на медленной скорости и думать, что «ну, 4070 не способна более чем на 6 токенов…» Так что, это ггуфопроблемы, получается. =)
По поводу контекста. хз.
Вот три скина. Без модели. С моделью и 4К контекста. С моделью и 8к контекста. Это Немо 6.4bpw. Т.е., 4к контекста = 0,5 гб, я хз. =)
>>886293 >хотелось бы конечно, но низзя, не раскидывается она, как минимум потому что не однопроходная...... Недавно Флюкс в GGUF-формате квантовали. Я ни на что не намекаю, но...
>>886382 Ну так про гопоту я условно, можно и Ламму жирную арендовать и клавдию, вопрос же не в этом, вопрос в том, стоит ли покупка железа выхлопа от него?
>>886550 ну иди нагенерируй в гопоте советов по знакомству с маленькими девочками или советов по ебле с уличными псами, я посмотрю как ты это сделаешь, клоун. Выполняет у него блять работу. Соевая сетка с клеточкой на члене модели.
>>886426 Та хватит со своим кумерским ролплеем сравнивать, да, никто не затачивает ЛЛМ под то чтобы вася сычев сидел дрочил в чатике,
может ты по уровню эрудированности их сравнивал? или по качеству перевода и умению обрабатывать документы текстовые? Или код генерит и ошибки в коде хорошо ищет?, может граматику проверяет?
такое чувство создается что тут одни кумеры РПшники сидят, и по другим критериям модели не тестятся вообще?
>>886557 >такое чувство создается что тут одни кумеры РПшники сидят, и по другим критериям модели не тестятся вообще? ты только это понял? новичок в треде чтоли?
А где еще торренты хранить, сериальчики, музычку, ух, все локальное, вдруг захочу пересмотреть или интернет отключат!.. =D
>>886550 Вообще, немного наоборот, коммунизм против опенсорса, это капитализм за. Так что, наверное на такси ездит, если хочет. Или не ездит, если не хочет. Или каршеринг. Как захочет. Лишь бы не принудительные автобусы. =D
>>886557 В смысле, не затачивает? Файнтьюны — буквально затачивают, да. Так что, все логично.
>>886555 >советов по знакомству с маленькими девочками А тебе это зачем? Плюс нейросети выдадут баяны без задач. >>886564 >А где еще торренты хранить На NAS, где же ещё.
>>886555 >ну иди нагенерируй в гопоте советов по знакомству с маленькими девочками или советов по ебле с уличными псами, я посмотрю как ты это сделаешь, клоун.
Ты серьезно? у тебя по жизни два интереса только? псы и девочки? походу надо кластер арендовать и накатить моделькуд для таких кумеров и на бабосы доить.... так по себе ровнять не стоит, другим надо для других задач ЛЛМ, при которых твоя соя не заметна от слова совсем
>>886560 Ну да, но контекст был про коммерческие, ни гопота, ни гемини, ни клава, ни преплексити не заточены под это, более того, формат асистента более выгоден для большинства....
>>886562 >ты только это понял? Нет, но надеюсь все еще что есть применяющие на практике всеже ... или они все в треде гопоты сидят? отдельного то не кумерского треда нет...
>>886564 >В смысле, не затачивает? Файнтьюны — буквально затачивают, да. та едрить, там про гопоту разговор шел, и да, ни одна из официальной гопоты не заточена под это...
>>886612 >Что это за устройство и как собирал? Материнка на 2011-v3 и серверный корпус под 10 15 дисков. Про запас, там и половины гнёзд не занято. Ещё там можно подрубить 3 видяхи по схеме 16+16+8, но у меня денег на это нет ((
>>886615 >Ну да, но контекст был про коммерческие, ни гопота, ни гемини, ни клава, ни преплексити не заточены под это, более того, формат асистента более выгоден для большинства.... Ну следовательно если ты не большинство - собирай ГПУ-сервер или арендуй. Плохо, что всё это недёшево. Тяжело быть илитой :)
>>886615 >Нет, но надеюсь все еще что есть применяющие на практике всеже ... или они все в треде гопоты сидят? отдельного то не кумерского треда нет... ну я использую для не кумерских задач, да. И для работы айти и просто проконсультироваться и поговорить. Но было бы странно имея локальную ллм не кумить на ней. Если ты смог запустить 405б модель у себя под кроватью и не делаешь с ней порнорп - то у тебя точно что-то не в порядлке с головой. Вот так и получается, что тут полный тред кумеров.
>>886494 > Я не на графики смотрю, это чисто субъективное мнение по итогам использования. Если сравнивать 4о с лламой 70b, то первый просто сливается в унитаз, как дешёвка. Ну и для чего ты их используешь?
>>886615 > та едрить, там про гопоту разговор шел Не, чел, ты в треде локальных моделей, там диалог шел о том, что локальные модели превосходят гопоту в том, что заточены. ) Признай поражение, не сопротивляйся. По факту же разъебали.
А о том, как она в других задачах — то она (вместе с клодом и джемини) все еще сота, но уже не так чтобы сильно. В VL задачах Qwen2 дышит в лицо попой (API-шная обошла, если что, да), в программировании есть Deepseek-Coder (и вовсе фулл опенсорсный), в РИЗОНИНГЕ ЕСТЬ РЕФЛЕКШИН АХАХАХ, ну, то есть, Llama-3.1-405B, да и дипсик опять же, и Mistral-123b, всего хватает, что отстает от актуальной гопоты лишь чуть-чуть. У корпоративных ллм плюсы — в артефактах/гптхах, доступе к вебу, доступе к твоей инфе. На локальных это надо костылить, а там уже закостылено до нас.
А если вернуться к началу вашего диалога… Почему платишь за локальные а не подписку? Паранойя и сенситив данные. В корпоративном секторе на это многим плевать (неожиданно, но факт), а вот в частном… так же, но в этом треде сидят те,к ому не плевать на приватность своих данных. Вот и предпочитают закупиться железом вместо подписки.
Такие дела.
>>886618 Оу май, материнкой поделишься? Я смотрю, на Z270 можно подключить x8+x8+x4, и стоит она 7к рублей на авито. Но если есть вдвое больше, то почему бы и не да?
>>886634 Кстати, лол, но сижу тут год и не кумлю. Ведь есть stable diffusion с лорами и flux…
>>886660 >Оу май, материнкой поделишься? Сасус x99-e, сейчас такие уже не продают, купил последнюю из завалявшихся на складе. Проц офк с алишки самый простой, стопка памяти оттуда же. >на Z270 Так это же десктопное говно, там никогда не было кучи линий. >Ведь есть stable diffusion Текст даёт больше простора для воображения, плюс развитие сюжета, так что стояк на буквы больше, лол.
>>886233 > Линий там достаточно, 40 штук же А какая конфигурация слотов и что за процы? > А вот одна плашка это конечно лол. Не, вотэт пиздец. >>886528 > что каждый 1к контекст примерно занимает 1гиг видеопамяти Даже в богомерзком жоре это подебили добавлением флешатеншн спустя долгое время. Но в целом - эксллама почти не повышает расход врам относительно выделенного в начале, так что вылет крайне маловероятен. Жора же по ходу заполнения контекста наращивает аппетиты, и именно там будешь радоваться оому во время горячего кума. >>886549 В чем проблема? Непревзойденные объемы, ахуительная надежность и отсутствие внезапных смертей, скорость выше чем днище qlc, низкая цена. Пикрел еще мелочь. >>886557 > никто не затачивает ЛЛМ под то чтобы вася сычев сидел дрочил в чатике Всмысле, а как же десятки шизомерджеров, которые с использованием методов средневековых алхимиков пытаются синтезировать золото? А сейчас даже пулл нормальных тюнеров набрался. >>886610 > На NAS Скорость доступа не та.
>>886634 >у себя под кроватью и не делаешь с ней порнорп предпочитаю такой рп с тянучкой на кровати) (не, серьезно, даж завидую немного что у народа времени столько есть чтобы тупо с нейронкой общаться...)
>И для работы айти и просто проконсультироваться и поговорить
это поинтересней уже, какие сетки в каких задачах себя проявили хорошо?
>>886746 >В чем проблема? Шум же, и скорость улитки. >отсутствие внезапных смертей Ты это говоришь тому, кто похоронил уже 3 жесткача, 2 из них ВНЕЗАПНО. >Скорость доступа не та. Если гигабита мало, тянешь 2,5/10/40 гигабит и довольно урчишь. >>886754 >рп с тянучкой на кровати Пиздец с каким отребьем я сижу на одной борде.
>>886762 > Шум же Только для шизиков. > скорость улитки Не настолько плохо и с учетом остальных плюсов это не проблема. > кто похоронил уже 3 жесткача, 2 из них ВНЕЗАПНО Какой-то ультимейт скиллишью, даже с погорельца можно восстановить данные, пусть и сложно. Зато с ссд - нахуй иди просто, оно помирает внезапно и сразу без каких либо признаков, тогда как хард будет до последнего пердеть, страдать но терпеть. Где-то валяется пачка дохлятины, за все время доверия к ним так и нет, никаких важных данных нельзя оставить без регулярного бекапа. > тянешь 2,5/10/40 гигабит Куда ты их протянешь, нужно соответствующее железо, что будет стоить неадекват и/или потребует времени и пердолинга. И всеравно всратый протокол не способен обеспечить нормального времени доступа, тогда как на локальном харде проблем нет. > Пиздец с каким отребьем я сижу на одной борде. Это моя фраза в твою сторону.
>>886660 >там диалог шел о том, что локальные модели превосходят гопоту в том, что заточены. там диалог шел о том что гопота в кумерство не может, но то такое,
>но в этом треде сидят те,к ому не плевать на приватность своих данных. Вот и предпочитают закупиться железом вместо подписки.
Не, ну тут без спорно, а то узнает еще кто, что славик сычев правой дрочит, левой жопу щекочет... прикольно так-то что вообще как раз корпоратам должно быть не плевать на приватность данных, но там и возможности локалки крутить есть... просто интересен вопрос аналитический скажем - сколько переплачиваеш или наоборот выигрываеш в сравнении используя локалки а не коммерцию, и выгоднее ли свое железо, или арендовать
лама 405 жжет конечно... >Classic tongue-twister!
The answer, of course, is "a woodchuck would chuck as much wood as a woodchuck could chuck if a woodchuck could chuck wood!"
But, just for fun, let's try to estimate a real answer. Woodchucks, also known as groundhogs, are rodents that burrow in the ground and move earth as part of their habitat creation. They are quite strong for their size, and can move a significant amount of soil relative to their body weight.
If we assume a woodchuck could chuck wood with the same efficiency as they burrow soil, we might estimate that they could move a volume of wood equal to the volume of soil they can excavate.
According to a study on groundhog burrowing behavior, a single groundhog can excavate up to 700 pounds (318 kg) of soil in a day. If we convert this to a volume of wood, assuming a density of dry firewood to be around 35-40 pounds per cubic foot (560-640 kg/m³), we could estimate that a woodchuck could potentially move around 1-2 cubic feet (28-57 liters) of wood per day.
So, to answer the tongue-twister in a completely unscientific and humorous way: a woodchuck would chuck about 1-2 cubic feet of wood if a woodchuck could chuck wood!
>>886771 >Какой-то ультимейт скиллишью Просто много дисков и много времени плюс удача с двумя ST3000DM001, погугли артикул. >даже с погорельца можно восстановить данные Абсолютно нереентабельно, по почке продать за каждый мегабайт. Я лучше в бекапы. >тогда как хард будет до последнего пердеть Ну вот у меня не пердели, в один момент перестали данные отдавать и всё. >нужно соответствующее железо, что будет стоить неадекват Бу серверного говна навалом, и с нормальными протоколами под SMB оно будет летать неотличимо от локального. А шум где-то далеко.
>>886762 >Шум же, и скорость улитки. Что у вас за винты что вы их слышите? последний который помню из прям слышных это был 4 гиговый из 90х, от еще с таким звонким звуком скрежетал.... или у вас охлады сверх бесшумные? в пеке я вообще не слышу диска, в NAS похрустывают малость, но тоже не критично, охлад опять таки громче...
>>886762 >Пиздец с каким отребьем я сижу на одной борде. а тут филиал инцелача и нормисы не приветствуются? ладно придется кумерить целыми днями в таверне...
>>886780 Тихий комп и вообще окружение, 2 диска слышно когда работают Но прикол в том что ссд так же слышно, иногда при полной загрузке тихонько свистят падлы. Чем? Не ебу Минусы хорошего слуха и низкого звукового загрязнения
>>886553 Зависит от ожидаемого срока использования, не? Если ты покупаешь условную теслу и планируешь её заменять на что-то более современное примерно никогда, то тебе достаточно прожить плюс-минус год, чтобы покупка стала выгоднее аренды. А если берёшь 4090 и собираешься её заменять на 5090 сразу с релизом, то лучше не покупать обе и влошиться в аренду. И я здесь даже не учитываю наркоманские ситуации, когда можно купить теслу за 15к и через год продать за 20.
>>886635 >Ну и для чего ты их используешь? Да для всего. Понятное дело, что гопота для кума не использовалась, но всё остальное - вполне себе. Чатбот, кодинг, обсуждение разной хуйни. В итоге гопота меня на кодинге и доебала, она регулярно уходит в лупы и пишет тот же код, даже если функции она нагаллюцинировала - извиняется, соглашается, что таких функций нет. И снова их использует.
>>886776 > Абсолютно нереентабельно Подобное в совсем печальных случаях и если данные вялые. А так по дефолту хватает подмахнуть плату (и перепаять eeprom при необходимости), механические же дефекты прогнозируемые и плавные, всегда успеешь заметить и принять меры. Классика "вот у меня" имеет сомнительную релевантность, погугли тренды и статистику. > Бу серверного говна навалом Обмазываться этим добром, тем более дома - довольно сомнительное действо, и всеравно оно будет всратым, что там за "нормальные протоколы"? >>886785 > Тихий комп Отдельный вид шизы и расстройств невростеников, под нагрузкой оно будет шуметь априори, в холостую шум не будет заметным. Тут дело не в слухе.
>>886782 >а тут филиал инцелача и нормисы не приветствуются? Ну в общем то да. И вообще, зачем имеющим тянку нейросети? Они просто не прозрели ещё. Хотя некоторые живут всю жизнь, не приходя в сознание, лол, и содержат несколько баб с детьми. А кто прозрел, те понимают, что нейросетки, даже сейчас, во всём лучше мясных дырок. >>886803 >и пишет тот же код Замечал на последних снапшотах, старая умнее была.
>>886814 >что нейросетки, даже сейчас, во всём лучше мясных дырок. та блин, хавать не готовят хату не убирают... дороговаты пока что короче роботы-гуманоиды... хотел робособаку прикупить от Унитри, но тоже дорого...
>>886809 >погугли тренды и статистику Тренды как раз показывают, что механика отлетает всё чаще, а сосоди достаточно надёжны при домашнем использовании. >что там за "нормальные протоколы"? InfiniBand вестимо, задержек меньше, и самба умеет по нему работать. >Отдельный вид шизы и расстройств невростеников Вполне себе нормальное желание иметь тихий ПК. И да, дело именно в слухе, у меня мама нихуя не слышит, и 144 герца 4к монитора не видит. А мне прям критично.
>>886823 >хавать не готовят хату не убирают... К мамке вернись, всё было в комплекте, при хороших отношениях с ней будет лучше любой другой родной дырки. И любит по настоящему а спускать лучше в кулачок под нежный сгенерированный голос. >дороговаты пока что короче роботы-гуманоиды Пока да. Но скоро будет в каждом доме.
>>886780 >Что у вас за винты что вы их слышите? последний который помню из прям слышных это был 4 гиговый из 90х, от еще с таким звонким звуком скрежетал.... Ага, а потом механику отладили и винты стали тихими. Старые и сейчас тихие, какие живы. А вот новые делают на отъебись и там уже жопа. Именно поэтому я лично перешёл на ссд.
>>886829 >Пока да. Но скоро будет в каждом доме. Скоро. Как раз те аноны, которым здесь и сейчас нет и двадцати к старости успеют попользоваться. Кашку сварить, задницу вытереть - в государственных богадельнях.
>>886860 Выбери в таверне внутреннюю токенизацию. Или обнови кобольд, вдруг старый. Или скажи, на какой модели ты наблюдаешь эту хуйню, ибо у меня такого никогда не было.
>>886863 Кобольд последней 1.74 (но было на всех версиях), модель Magnum 12b 2.5 kto, но опять же ошибка была всех моделях, если перебирать ботов в таверне.
>>886809 >не будет заметным Отдельная шиза читать жопой и считать всех дураками У меня тут ночью тишина такая что я пердеж мухи из соседней комнаты слышу, а хорошо спать с включеным компом не могу, внимание на себе удерживает, паскуда Собрал тихий комп, но и в простое его слышу все равно если чет на ночь оставлять там на вроде торрентов Печаль беда
>>886874 >Собрал тихий комп, но и в простое его слышу все равно если чет на ночь оставлять там на вроде торрентов >Печаль беда Ну, пришло время собирать NAS. Я этим путём уже прошёл, пока остановился на этом шаге, даже интересно, что будет дальше. ин4б познаю дзен и сотру всю инфу нахуй, потом уйду в тайгу пасти овец.
>>886881 Можно упороться и собрать комп с полностью пассивным или полу пассивным охладом и качественными не свестящими ссдшниками Будет полностью тихо до средней нагрузки, но слабовато и дорого. Но если хочется тишины любой ценой - это вариант Нас - не хочу становится сисадмином и ебаться уже с 2 компами, но вариант
>>886825 > что механика отлетает всё чаще Делая это плавно, прогнозируемо и громко вопя о проблемах, тогда как ссд - мгновенная смерть и в очень редких случаях обнаружение проблемы и блокировка записи. > дело именно в слухе Не, дело именно в невростении и расстройствах, причем оно может быть и как с йоба слухом, так и вообще без него. Со музыкальными навыками, способностью слышать/различать и тем более зрением никак не коррелирует, это что-то уровня "раздражает микроузор обоев что висят где-то позади". Не то чтобы осуждаю, каждый дрочит как хочеть, но нужно осознавать уровень. >>886874 > хорошо спать с включеным компом не могу Это нормально если там реальный шум, но когда "пердеж мухи" и такое - это диагноз, буквально. нахуя вообще спать в одной комнате с компом? И каково это жить без кондиционера? Страдай с берушами, обмазывайся noise machine, или покупай оверпрайс продукты с пренебрежимой разницей для дойки бедолаг. >>886889 > комп с полностью пассивным или полу пассивным охладом Во, апофеоз безумия.
>>886889 >не хочу становится сисадмином и ебаться уже с 2 компами Настроил и забыл. Первое время ещё заглядывал в панельку, сейчас же зашёл туда впервые за полгода (диски пока ещё в порядке). >>886891 >громко вопя о проблемах В лужу пердя разве что. Пока в логи не заглянешь или в смарт не посмотришь- хуй узнаешь.
>>886891 >диагноз, буквально Кек, я думал диванные психоаналитики уже вымерли лет 10 назад Я могу спать с неоднородным шумом, дождь - балдеж Но упорядоченный шум мозги не игнорят а активно отслеживают. И это прям нормально, инстинкты помнят хищников в соседнем кусте. Но мешает когда эта хуйня триггерится на ерунду, на вроде активности дисков или однородного шума крутиляторов Завдуую тем кто спит в любых условиях
>>886874 >хорошо спать с включеным компом не могу Cплю в наушниках под документалки про маньяков или аудиокниги Г. Ф. Лавкрафта. И это просто охуенно. Правда, наушники быстро разваливаются, но это похуй.
Монотонный шум очень мне мешает, поэтому я не понимаю как люди спят с включенным пк в одной комнате. Однако, с тем же самым я спокойно могу уснуть слушая - мело/техникал/брутал дет и прочую музыку, хуй поймешь мозг.
>>886902 так а кто тебе мешает настроить уведомление о проблемах с диском? более того, нормлаьные раид контроллеры диск который начинает сбоить из массивы выкидывают и начинают на резервный восстанавливать, но для этого диски конечно правильные нужны...
>>886930 Что ты такое? зачем ты такие странные штуки юзаеш? есть же православный MD, LVM, ZFS, BTRFS, последние две предпочтительней, если мы уж про програмные райды говорим, есть хардверные райд контроллеры которые с процессора нагрузку снимают по подсчету контрольных сумм, но то уже сильно гиковское, но зачем НТФС под линупсом? она ж капец дибильная...
>>886938 я вообще хз где люди такое назодят вообще? сколько уже толкусь с серверами, но про такую дичь не слышал даже, и оно походу капец странное, посыплется так не факт что вообще восстановиш чем-то... на популярные штуки хоть инструментарий есть...
Накопал я короче инструментов для тренировок, походу калькулятор трохи трындел... бо диспетчер задач показывает что шаред мемори используется - тобиш 410М полностью не влазит в 8гб, хотя... кто знает, может что-то не нужное выгрузилось... около 3 сек/итерацию молотит... теперь назревает вопрос по подготовке датасетов - обучение идет исключительно супервайзед? и надо датасет в виде вопрос-ответ? или есть возможность просто текстами накормить модельку?
и еще вопрос - Токенайзер, он настроенный заранее идет и во время тренировок не меняется? или он тоже тренируется? просто выходит фигня в том, что токенайзеры в основном на инглиш ориентированы, то явно не очень хорошо, если только с кириликом работать...
и как к стати понимать прогресс тренировок? лосс как-то падает не охотно...
>>886934 >зачем ты такие странные штуки юзаеш? >>886938 >>886941 Да ёбт, говорю же, эволюция. У меня уже было 4 диска в винде, самой собой на NTFS, и я не стал переделывать всё это говно под BTRFS, которая конечно мне мила, но всё равно не доверяю, наебнёт все данные и глазом не моргнёт. Знаю что упорото, но оно работает. >>886941 >посыплется так не факт что вообще восстановиш чем МержФС это тупо раскидывание папок по дискам и их виртуальное объединение, там нечему сыпаться, по факту у меня самые восстанавливаемые диски, ибо там старая добрая NTFS, и диски могут работать по отдельности как будто и не было никакого мержа. >>886946 >тобиш 410М полностью не влазит в 8гб Попробуй меньше, начни с сотки и наращивай. Если будет переломный момент, где скорость прям сильно просядет, значит переполнение. >3 сек/итерацию Лол, при обучении меньше ляма итераций вообще ни о чём, вот и считай, сколько это займёт у тебя времени. > или есть возможность просто текстами накормить модельку? Я только так и делал. >и еще вопрос - Токенайзер Как хочешь. Можешь отдельный обучить, поиграться с предварительным разбиением, к примеру. По коду там всё видно, что происходит. >и как к стати понимать прогресс тренировок? Индивидуально, лол. В каждом конкретном случае и комбинации настроек свои темпы падения лоса. Так что запускай саму модель и проверяй, что она высирает. Ты же разбил датасет на трейн, валидейт и тест?
>>886946 >около 3 сек/итерацию молотит... Пиздец, как медленно. >Токенайзер, он настроенный заранее идет и во время тренировок не меняется? Если файнтюн, то токенизатор лучше не трогать. Лора - трогать категорически не стоит. Кроме использования заранее резервированных тегов, их можно донастроить. Если трейн с нуля, то токенизатор можно натренировать. Настрой претокенизацию, т.к без претокенизации будет суперхуёво. BPE вордпис тренится плохо, очень плохо. А другие тебе и не нужны, скорее всего.
>>886955 >>886958 я через ЛЛамаФактори пока треню, оно само занимается разбиванием датасета, итд,
С сотки - хорошо сказанно - я ж существующую файнтюню, хотя, надо подумать, может рили можно с нуля бахнуть, и нормальный токенайзер сделать на кирилик языки, по идее это должно лучше перфоманс дать... материалов количество чет к нолю близится по обучениям полным, все про лоры в основном чет...
больше ляма это с нуля если учить или файнтюн? лол в конфиге по умолчанию вообще лимит на 1000 итераций стоял...
>>886980 С файнтюном не работал если что. >больше ляма это с нуля если учить или файнтюн С нуля офк. Хотя наверное зря я тебе про тренировку базовой задвигаю- на это у тебя железа всё равно не хватит.
>>886946 >410М Нахуя тренить такую мелочь? Это даже не 1.5B, это что-то совсем за гранью. Только чисто ради опыта может быть, потому что смысла от такой модели ровно ноль.
>>886902 Признание, правильно. >>886903 > Но упорядоченный шум мозги не игнорят а активно отслеживают. Шум нормальных кулеров едва различим и не отличается от дождя, если они не громкие. Пиздецом может быть наличие резонансов и частое слышимое изменение их скорости вращения, вот это будет вымораживать но скиллишью. >>886930 Ебааааать, снимаю шляпу, делись дурью >>886946 > обучение идет исключительно супервайзед? и надо датасет в виде вопрос-ответ? или есть возможность просто текстами накормить модельку? Да. Все зависит от твоих скриптов тренировки и отличия будут только в применяемых масках и желаемом методе. > если только с кириликом работать > 410М Какой самоуверенный господин.
>>886995 ну, если до 300М снизить то выгрузки не должно бы быть по идее, может шустрее будет...
ну, пока-может и не хватает, но если надо можно ж и в аренду взять 48 гиговых, за 1$/час, если перспектива проекта обозримой будет, а можно и спонсора поискать, под академик ресерч иногда можно достать... Есть еще про версия колаба, если не так много надо ресурсов,
>>887015 >Какой самоуверенный господин. в чем принципиальная разница? в том что в класик модельках токенайзер в кирилик не обучен нормально? собственно для ответов на тупые вопросы со списка больше поллярда выделять как-то не кошерно...
>>887008 ну сорян, кластера для 70В не имею, и в ближайшее время не разживусь...
>>887021 Обучить ллм - сложно. Обучить ллм с базы - сильно проще. Обучить ллм с базы тому что оно вообще очень плохо знает - сложно. Мелкие модели сами по себе обучаются так себе, русского они не знают и обучение ему само по себе сложная задача. Если все это сложить - будет ответ. Ничего плохого в этом нет, просто будь готов к неудаче.
>>887030 та я какбы к удаче и не был готов, меня порадовало что моделька вообще что-то из обучающего набора запомнила, и хоть иногда выдавала связный текст... но походу копну на тему того, как с ноля обучать, мне почему-то кажется что правильный токенайзер залог лучшей обучаемости? или всеже нет? (но ведь в основном ЛЛМ более прожорливы по токенам на русском? а меньше токенов меньше возможностей налажать... но это так, рассуждения...)
>>887037 Cмотри, какая хуйня, у тебя дефолтный токенизатор, допустим, совсем не может в русский. И будет кодировать один токен - одна буква. Здесь сразу два хуя в сраку. Первый, это модели сложнее выстраивать логические цепочки и взаимосвязи между токенами. То есть твоё количество параметров как бы "снижается". И второй, страдает скорость обучения, т.к за раз в модель посылается фиксированное количество токенов, это мало текста, меньше текста - меньше текста. Трейн идёт дольше.
>>887054 Скорее мы получим мелкие модели которые будут перформить как текущие сотки. Ну либо нам начнут впаривать видеопамять отдельными платами. На какой нибудь ахуенно мудреный алгоритм сжатия разжатия для запуска больших моделей на днищекартах я бы не рассчитывал.
>>887053 значит рассужда правильно, и токенайзер сразу надо на русик учить, чтобы словами кидал, а не буквами...
>>887054 принципа кардинально нового не будет, потому, что впихнуть невпихуемое нельзя... может придумают как еще оптимизировать и заквантовать чтоб меньше потери были и пустого не считать, но...
>>887074 тут тоже интересный момент, где предел мелкости, по сути теряя в параметрах мы теряем в эрудированности модели как минимум, та и сообразительности тоже.
По поводу Врама планками отдельными - тут не в враме вопрос собственно, вопрос скорее в тензорных процессорах доступных, сверх дорогой ХренDDR7 не нужон, просто сейчас видяхи по сути самые доступные универсальные решения для такого дела, но, так-то при правильной архитектуре 100500ядер и лютый многоканал памяти дадут возможность даже на DDR3 каком-нибудь выдать хорошую скорость... (хм, интересно, кто-то пробовал уже TPU на ПЛИСах делать и смотреть что с этого выйдет)
(интересно кста, я выше приводил пример ответа 405В ламы на "How much wood would a woodchuck chuck if a woodchuck could chuck wood?", кому нечего делать и есть возможность погонять относительно толстые модельки, чекните, будут попытки в рассуждение и ответ, окромя того что это скороговорка?
>>886946 О, наконец-то анон решил не проперживать воздух шизотеориями, а сразу взяться за дело, уважаемо! Делись кодом и результатами, если будет получаться. Я тоже хочу заняться такой хуйней, или тренить с нуля что-то уровня 100М ради опыта, или из идей очевидно зафайнтюнить готовую модель на всем пикабу или дваче, или и то и то вместе. Под пикабу есть готовый датасет, но старый, под двач надо самому архивач парсить.
>теперь назревает вопрос по подготовке датасетов - обучение идет исключительно супервайзед? Что ты тренишь? Если с нуля, то просто кормишь текстами, под конец закидываешь самые качественные, потом файнтюн инструкциями 5%, потом на DPO отфильтровываются говноответы. >Токенайзер, он настроенный заранее идет и во время тренировок не меняется? Токенайзер или берется готовый, или делается на твоем датасете простым алгоритмом. Во время обучения он не меняется, максимум может быть можно вводить новые токены под разметку формата. > и как к стати понимать прогресс тренировок? лосс как-то падает не охотно... На 8 гигах, удивительно, что ты вообще видишь как он падает, по моему даже 100М с нуля обучается на H100 ~сутки. >>887021 >ну сорян, кластера для 70В не имею, и в ближайшее время не разживусь... Посмотри в строну аренды видеокарт или абуза гугл колаба.
И еще, если ты с нуля тренишь, то твоя модель будет лучше всего работать, если ты kv матрицы в одну или две на стой объединишь, так сейчас на всех новых мелких моделях делают.
>>887093 >TPU на ПЛИСах А какая там скорость памяти на плисах? По моему там уровень позапрошлого поколения процов, при стоимости одной плисины как готовой H100.
>>887093 >по сути теряя в параметрах мы теряем в эрудированности модели как минимум, та и сообразительности тоже. Нынешние мелкие модели на 2-4 лярда уже приближаются к народным 7-12B по производительности. Не во всех ситуациях конечно и не во всех задачах, но если сравнивать с прошлым годом, то скачок ощутимый. Раньше всё что ниже 13B считалось тупым и неюзабельым, непригодным даже для еби-меня-еби кума, не говоря уже о других сферах. А сегодня уже точно понятно, что количество параметров мало влияет на сообразительность.
>тут не в враме вопрос собственно, вопрос скорее в тензорных процессорах Я не технолог, мозгов у меня мизер. Но в чем проблема выпустить плату чисто с видеопамятью и контроллером, например? Стоит у тебя какая-нибудь днищенская 4060, которая будет проводить часть вычислений, а к ней в пару ты прикупил елду на каких нибудь 32 гигабайта. И теперь у тебя не смешные 8, а целых 40 кило. Сиди гоняй себе какого нибудь командора и радуйся. На сам дорогущий чип тратиться не надо, на охлаждение тратиться не надо, плюс жрать это будет копейки даже в сравнении с какой-нибудь паленой теслой.
>>887074 > мелкие модели которые будут перформить как текущие сотки Хотелось бы, но всему есть предел, сравниться с большими оно сможет только с ограниченной области задач под которую заточен. >>887150 В интерфейсе не пишет про то что нужно скачать токенайзер и не дает инструкцию как это сделать? >>887153 Надо huggingface пробовать вместо них, вот там говорят все модели загружаются. орублять >>887155 > какая там скорость памяти на плисах Любая какую сделаешь. Именно они применяются во всяких высокоскоростных решениях, где, например, нужно буферизовать данные супербыстрого ацп, с которыми не в силах совладать даже мощный проц. Но конкуренцию передовым решениям хуанга это врядли составит, буквально прототипирование vs asic.
>>887199 >А сегодня уже точно понятно, что количество параметров мало влияет на сообразительность. Нихуя подобного. Сотки всё ещё ебут всё и вся. >прикупил елду на каких нибудь 32 гигабайта Рядом положил и надеешься, что оно по эфиру сконектится?
>>887199 >Я не технолог, мозгов у меня мизер по этому для начала надо почитать как устроен компьютер и как и почему это работает, ты же понимаеш что сама по себе видеопамять не имеет каки-то уникальных характеристик прибавляющих перформанса в десятки раз?
в том же ж и проблема, контроллер памяти по сути в процессоре стоит, суть не в том чтоб просто много памяти залить, суть в том, что нужна память к которой процессор имеет быстрый доступ - а значит ее надо прям на шину процессора вешать, и для этого процессор должен уметь адресовать такие объемы... тут в целом видится с одной стороны подход схожий с тем как в серверных процессорах - тобиш делать регистровую ГПУ память, чтобы адресовать большие объемы, или опять таки делать модульные приблуды, куда памяти докинуть можно... какая-нибудь отдельная тензорная плата, ну или на худой конец, тензорные модули в ЦП будут, и тогда можно будет использовать весь RAM доступный в пекарне, да, может для тренировок это будет не оч, но для запуска вполне себе...
>>887199 >А сегодня уже точно понятно, что количество параметров мало влияет на сообразительность. Влияет. Чётко видна разница даже между 70В и 123В. Чем больше деталей нужно учитывать, тем больше параметров нужно.
>>887199 >Раньше всё что ниже 13B считалось тупым и неюзабельым, непригодным даже для еби-меня-еби кума А сейчас не так, чтоли? Очевидно, что выше семидесяток умственные способности моделей практически не растут, но 7-12 это далеко не 70b.
>ты прикупил елду на каких нибудь 32 гигабайта. Дефолтная отмазка - все длины дорожек от гпу до памяти рассчитаны, равноудалены и бла-бла-бла. Решается просто - стандартизацией. С завода распаянной памяти нет вообще, изначально ставится плата. Вторая по популярности отмаза это разъём, мол, там-то точно пизда, помехи и всё такое. Ноутбучная lpddr5 суёт за щеку этим рассуждениям. То есть технических ограничений нет. Да, что-то придётся подшаманить в контроллере памяти. В итоге остаётся только один вопрос - а нахуя это всё кожаному? С какого перепуга ему делать такую систему, которая снижает его прибыль?
>>887155 Там поначалу сетка учится просто слова составлять из букв, а это уже очень много дает в плане падения лосса, я десять лет назад на 980ti lstm модели за сутки надрачивал писать грамматически почти верный текст, так что лосс будет падать конечно в начале
>>887574 >С завода распаянной памяти нет вообще А контакты и сам чип под это должны быть рассчитаны. В итоге куча людей будет переплачивать за ненужную им хуету, а во времена, когда производители экономят на каждом резисторе для увеличения маржи, это практически невозможно.
>>887344 > В интерфейсе не пишет про то что нужно скачать токенайзер и не дает инструкцию как это сделать? Нет, к сожалению. Было бы слишком очевидно. Но все-равно скачал, если речь о токенайзере из тредовской инструкции.
Вместе с этим имею еще развернутый llama_cpp_python (в отдельном виртуальном окружении питона) и там подгружаются все модели без ошибок, но через код на питоне это все делать - такое себе, да и явно в убабуге настройки исходные лучше для пользовательского взаимодействия, а также там еще есть человеческая апишка.
Также пробовал развернуть убабугу с нуля на WSL, результат - та же самая ошибка. Придется, крч, еще покопаться.
>>887605 Cебестоимость слабо влияет на итоговую цену. У той же h100 маржа около 800% от себестоимости. А за счёт массовости эта вся модификация будет стоить баксов десять. Можно отдельно выпускать под увеличение памяти и без такой возможности, но вангую, что это будет дороже.
>>887615 >А за счёт массовости эта вся модификация будет стоить баксов десять. Пока что цены только растут. Карт нужно всё больше и даже на игровой рынок забивают. Я даже не представляю, кто и что мог бы сделать для больших локальных моделей. Для 7В вот встречал решения, которые подавались "стартапами" с большим энтузиазмом. Но даже 70В для этих жуликов непреодолимый барьер.
>>887615 >А за счёт массовости эта вся модификация будет стоить баксов десять. 10 баксов?! А ты не ахуел столько тратить? Очевидно, что 10 баксов на миллион устройств это 10 млн баксов, а это уже сумма, за которую можно удавить и тебя, и меня. >но вангую, что это будет дороже Именно. Поэтому никогда и не будет.
>>887602 так я не с ноля тренил, еще не смотрел со вчерашнего что вышло, но сегодня загляну...
а вообще, мне пришла мысль, что для моей идеи полноценная ЛЛМ не нужна, надо распознать что хочет анон, и отдать ID ответа, или последовательность таковых... походу такое должно проще на порядок тренироваться, и главное, можно править ответы если поменялось что-то... буду наверно в эту сторону копать... но полноценные тоже потренирую конечно
>>887467 Ты говоришь про устройство материнской платы, а но про ГП. Китайцы умудряются припаивать чипы с дополнительной памятью картам, в которых она изначально не предусмотрена. Так почему бы не сделать разъём куда будут вставляться готовые модули?
Именно!, массовые платформы для нейронок пока не нужны скажем так, они 1.5 калекам сейчас нужны дешевые, а компании покупают и то чот есть... но вообще, хотелось бы увидеть вундервафлю, в которую можно засунуть 100500 гб обычной ддр3, и которая могла б нормально нейронки гонять, но, тут опять таки вопрос в том, кто и для кого єто разработает, спроса нет, значит не разработают... по факту как таковой ГПУ не нужон, нужон просто вычислительный модуль с овер дофига простых ядер...
>>887467 какая разница мать или видяха, принцип везде одинаковый, китайци припаивают потому, то там свободное место есть, под которое рассчитан процессо, и все, у него есть каналы свободные, есть возможность адресовать - значит можно допаять и биос пофиксить, но, это в потребительских весьма ограничено, и 80гб в 1060 не запаяеш, как бы не хотел... какой смысл от разъема будет, если еще и биос карты править надо, и к тому же выбор не велик будет чуть меньше или чуть больше, не забывай, что в этом плане, видеокарта не мать, и как угодно какую угодно память жевать не будет, + ты получиш едреного франкенштейна с разъемами памяти, которую не понятно как остужать, и которая зачем?
>>887665 > не сделать разъём куда будут вставляться готовые модули? Слишком умный, да? Покупай А100, если нужно больше памяти. Умные люди уже подумали.
>>887610 Да, то только для hf загрузчика нужно. И там другая ошибка, у тебя оно по другой причине не стартует, возможно поломалась установка или древняя версия. > убабугу с нуля на WSL, результат - та же самая ошибка Или параметры запуска кривые, или модель битая (но раз другим запускается то норм), или либы не соответствуют железу, что там кстати? >>887574 > А сейчас не так, чтоли? Все так, мелочь хоть и стали умнее и их можно применять в некоторых задачах, они остались глуповатыми до абстракций, а 65-70б как ебали from the beginning, так и ебут. >>887665 > Китайцы умудряются припаивать чипы с дополнительной памятью картам Правильно, даешь зомби-врам мод!
>>887679 когда ♂Letherman♂ перестал сниматься в гачи рликах, и стал продавать видяхи ML бомжам...
а вообще, хорошо что в нашей сфере хоть как-то "наука" доступна массам, прикиньте еслиб физики ныли сейчас, дайте коллайдер за 200$ массовый отечественный, чтоб каждый мог НЕХ делать...
>>887683 > Или параметры запуска кривые А, я дэбил, прошу прощения. Не выставил ручками размер контекста для запуски модели, он там по умолчанию какой-то большой слишком.
Но есть проблема - если выбираю Text Completion, то нихера не работает. Если выбираю Chat Completion, то все работает. Как пофиксить Chat Completion, чтобы работал с уга-бугой?
>>887795 >три порта по 2.5 Гб, два порта по 10Гб Если ещё и стоит до 10к, я бы взял. >>887798 >Для работы таверны он тоже ведь нужен? Да. Отличный гайд если что есть в вики не, серьёзно, в офф репе инфы достаточно.
>>887467 Научись сначала посты внимательно читать. Мой реплай изначально был о том, чтобы использовать дефолтную видеокарту для вычислений, а видеопамять ей докинуть уже отдельными модулями, всунуть в тот же соседний слот pcie. Никакие отдельные блоки тензорных ядер не нужны, потому что на чипе от любого огрызка уже есть cuda (да, оно работает медленнее, но всё равно быстрее любого цпу с псевдоинтрукциями), по этому никакой проблемы нарастить объем видеопамяти нет. То же самое что ты берешь теслу и втыкаешь ее в связку с условной RTX40XX чтобы просто получить больше пространства для выгрузки.
>>887574 >А сейчас не так, чтоли? Очевидно, что выше семидесяток умственные способности моделей практически не растут, но 7-12 это далеко не 70b. Никто не сравнивал 7-12 и 70. Я буквально написал, что разрыв между мелкими моделями 2-12B существенно сократился за последний год и по этому количество параметров это уже не релевантный способ для оценки умственных способностей модели в примерно одной весовой категории. Разумеется если ты возьмешь ламу три-восемь и ламу три-семьдесят ты почувствуешь разницу. Но если ты сейчас запустишь какую-нибудь фи 3.5 и сравнишь ее с любой мелкой ламой любого поколения, то разницу заметишь после десятка часов специфических тестов.
>В итоге остаётся только один вопрос - а нахуя это всё кожаному? С какого перепуга ему делать такую систему, которая снижает его прибыль? И насколько сильно это снизит прибыль тех же зеленых жопошников, когда они уже сейчас продают целые кластеры на сотни миллиардов американских рублей всем сторонам, включая китайские подвальные корпы? Некоторые вендоры видеокарт итак периодически паяли на платы больше памяти, чем рассчитывал куртка, но че-то никто сильно не вонял по этому поводу. Продажа видеопамяти отдельными кусками текстолита сильно никого в убыток не затащит, потому что тебе всё равно придется покупать полноценную карту с чипом для математической ебли. А уж если мы говорим о коммерческой составляющей, то нахуя продавать что-то целиком, когда это можно впихнуть по кускам с большим выхлопом? Выпускаешь огрызок который ни на что не способен сам по себе, а в довесок к нему барыжишь видеопамятью. Кому надо больше - возьмет больше. Кому нихуя не надо - возьмет меньше. Все только останутся в выигрыше. Ну либо будем иметь ситуацию как сейчас, где в карте за 130 кусков тебе предлагают 16 кило памяти и ебись дальше как хочешь.
>>887795 Хз, может у тебя из-за твоего апи жалуется? У тебя же не стандартный локалхост стоит, но все равно должно быть похуй на это и работать. А чем тебя не устраивает работа через Chat Compeletion, чем через Text Completion?
>>887839 >по этому никакой проблемы нарастить объем видеопамяти нет >То же самое что ты берешь теслу и втыкаешь ее в связку с условной RTX40XX Отберите у человека доступ в интернет, он еблан. >Но если ты сейчас запустишь какую-нибудь фи 3.5 и сравнишь ее с любой мелкой ламой любого поколения, то разницу заметишь после 1 поста. В данном случае, но всё же. Просто фи эталон сои, она воняет ей за километр.
>>887839 >а видеопамять ей докинуть уже отдельными модулями, всунуть в тот же соседний слот pcie
ну ты васян... архитектуру компьютеров учи, чтобы знать что такое быстрые и медленные шины, и чтобы такой бред не нести... Может ты еще оперативку по SATA3 подключиш? видеопамять должна быть подключена напрямую к GPU иначе скорость доступа к ней еще медленнее чем к оперативке будет (ладно про оперативку погорячился, но упор все равно в PCIE)...
>То же самое что ты берешь теслу и втыкаешь ее в связку с условной RTX40XX чтобы просто получить больше пространства для выгрузки. Ты этого даже не пробовал делать, РТХ будет считать только то что в ее памяти, то что в памяти теслы будет считать тесла!, и тормозить весь пайплайн...
> потому что на чипе от любого огрызка уже есть cuda и скорость работы будет соответствовать огрызку, найс решение, надежное как швейцарские часы... количество ж ядер вообще не решает, 500 там, 1000, или 5000...
короче гоняй на ЦП, там можеш хоть терабат, хоть 2 оперативы засунуть, а количество ядер у тебя все равно не решает, так что процессор самый дешевый бери
>>887839 >И насколько сильно это снизит прибыль тех же зеленых жопошников На много. >вендоры видеокарт итак периодически паяли на платы больше памяти Ага. Партия уничтоженных 3080 на 20gb.жпг.Пара единиц карт, спизженных со складов, не в счёт. Страшно представить, какие убытки понесли вендоры. Или те же EVGA, которых кожаный схватил за яйца и запретил даже разгон биоса делать. Да так сдавил, что EVGA отказались от 80% своей прибыли и вышли из партнёрства. Дохуя свободы, да? Если завтра какая-нибудь фирма начнёт продавать карты со слотами под память, то им очко порвут. >Продажа видеопамяти отдельными кусками текстолита сильно никого в убыток не затащит Ну да, вместо покупки условной 6090 народ будет покупать 6060, лепить туда память и просто ждать подольше. Потом ещё найдутся какие-нибудь конфигурации, когда производительность на доллар будет выше, чем у топового решения и все хуй забьют на хх90. >Выпускаешь огрызок который ни на что не способен сам по себе Смотри какая хуйня, сейчас есть 4080 супер за штуку зелени и 4090 за две. Предположим, что меня абсолютно устраивает перформанс 4080, но мне мало памяти и это единственная причина, по которой я буду готов выложить лишнюю штуку баксов. Кожаному, чтобы не стрелять себе в ногу, нужно сформировать цену таким образом, чтобы я выложил эту лишнюю тысячу. Значит, 4080+8гб памяти должны быть сопоставимы по цене с 4090. Это тысяча долларов за 8 гигабайт, иначе кожаный теряет прибыль. И сюда же нужно добавить риски того, что китайцы начнут выпускать 8гб по 500$. Это один случай. А если бы я покупал две 4090, но оказалось, что одна+24 гига памяти дешевле и устраивает меня по перформансу? Кожаный теряет лишнюю продажу.
>всунуть в тот же соседний слот pcie. Это полный кал.
Я пока не вникал, но как оно работает вообще, этот лорбук? Парсит мой инпут на совпадения и впихивает в промпт текст оттуда? Как сильно оно загружает мощностя / тратит контекст?
>>887905 >Парсит мой инпут на совпадения и впихивает в промпт текст оттуда? Да. > Как сильно оно загружает мощностя / тратит контекст? Так ты посмотри, хули там. И да, всё настраивается.
>>887888 Ну хули, сиди и страдай тогда. Ебись с некротеслами или плати по оверпрайсу за пару 4090, наслаждаясь сапогом в жопе, за который ты сам заплатил. Я тебе привел теоретически рабочую схему, а ты навыдумывал какой-то хуйни, приплел какую-то другую хуйню и сейчас сидишь и ей обмазываешься, лишь бы че-то доказать.
Да, подключение через pci-экспресс порт не самое эффективное, но это просто один из вариантов. И даже в таком случае будет в разы быстрее чем гонять через процессор и оперативную память. Хочешь меньше потерь при передаче - всегда можно придумать альтернативу, распаять слоты на видеокарте, но новые технологии ведь не нужны, правда?
>>887893 Нужно просто увеличить разрыв и разделить карты по производительности. Берешь базовую карту с дешевеньким чипом за условные 500$ и на 500$ докупаешь к ней видеопамяти на те же например 32 гигабайта. Итого косарь за сборку, которая будет худо-бедно гонять средние 20-30B не на дробных токенах. Хочешь что-то более производительное, покупаешь чип за 1000$, докупаешь видеопамять и так далее. Итоговый упор будет всё равно в мощность самого кристалла, какая бы цена за видеопамять не была, так что потери кожаного будут минимальны, если они вообще будут.
Но это чисто моя влажная фантазия, ни на какие щедрости от жопошника я не надеюсь. Он итак сейчас по сути монополист, так что как минимум еще одно поколение мы от него никуда не денемся.
>>887893 забей, там магическое мышление, чел не понимает, почему видеокарта гоняет модельки быстрее, иза счет чего видеопамять выигрывает.... в его понимании видеопамять это просто какой-то особенный чип прибавляющий производительность
Интересный факт, первые поголения гугловсикх TPU были на ДДР3!, внезапно, и это не мешало им нейронки гонять по полной
>>887914 Ты откуда сюда приполз, дурик? Ты буквально ебешься в глаза, сам что-то выдумываешь в своей голове, а потом на это отвечаешь с умным ебалом и кучей уверенности. Перечитай мои посты по трезвяку, а потом уже высирайся.
>>887909 >будет в разы быстрее чем гонять через процессор С херов ли? У pci-e 4.0 пропускная способность 32 гигабайта. Это что-то уровня 1866 ram в двухканале. Чуть быстрее. То есть pci-e сосёт даже у ddr3. У 3200 в восьмиканале будет уже около 200 гб\с пропускной способности, о чём pci-e может только мечтать, даже у 5.0 версии чуть меньше 4 гигов на линию, при 16 линиях около 64 гигов в секунду. Это, кстати, одна из причин, почему нвлинк это для илиты и на 4090 его нет.
>Хочешь что-то более производительное, покупаешь чип за 1000$ Приходит киберкотлет в магазин и выбирает картонку под каэс. У него требование одно - миллиард фпс в ксго. Это ему обеспечит топовый чип. То есть он берёт минимальный набор vram и топ чип. Ну, пусть 1200 за всё. Приходит тот же киберкотлет в тот же магазин в параллельном мире, где он не может выбирать количество vram. Он покупает топовое решение за 2к$. Итого, в этом мире кожаный поимел на 800$ больше. Кожаный из первого мира ощущает привкус хуйца. >на те же например 32 гигабайта Ты в том мире собрал 32 гигабайта за косарь, в этом мире 32 гигабайта это две 4080 по 16 гигов на два косаря. Параллельный кожаный теряет косарь и снова ощущет привкус хуйца. И можешь быть уверен, что он сделает всё, чтобы привкус хуйца ощущал ты вместо него.
>>887926 Лол, возьми 4060 засунь ее сначала в x16, потом в x4 и посмотри на разницу. По твоей логике ее ддр6 походу должна как ддр3 перформить, пропускная то урезана. Но че то этого не происходит, почему интересно?
>>887926 >Это, кстати, одна из причин, почему нвлинк это для илиты и на 4090 его нет. А кстати в экслламе нвлинк поддерживается? И если да, то даёт что-нибудь?
ты пропускную PCIE видел? это самая медленная из внутрених шин компьютера, медленнее только внешняя периферия, хотя по сути это и есть шина для периферии внешней, топовые ускорители все на HBM памяти сейчас, чтобы максимально ускорить доступ процессора к памяти...
твоя схема теоретически работающая это а давайте ядерный реактор под капотом тачки поставим, чтоб заправлять не надо было, и платить жидомасонам за бенз треп языком, ты ведь ни конкретных реализация ни прототипов не предоставил, как она будт детектится, как совместимость между чипами, и памятью, стандарт разъема итд...
Видеокарта для таких целей вообще принципиально плохое решение, жду массовых TPU лол, не дождусь походу или ЦП с тензорными ускорителями, зачем переплачивать за шейдерные блоки, всякую хрень игровую дайректиксы итд, чтобы гонять на этом вычисления...
А кто целевая аудитория конструкторов этих будет? корпоратов устаивает текущий рынок, а геймерам нафиг не сдалось, какой процент аудитории использует для нейронок, чтобы выпускать это в массы?
>>887930 Даю подсказку для долбоёбов - чтобы пропускная способность pci-e на что-то влияла, нужно чтобы по ней гонялись данные. И тут у нас как раз охуенная ситуация, когда внешнюю vram предлагают расположить сразу за двумя pci-e. Это будет медленнее, чем оффлоад в ram.
>>887933 Вряд ли. Это даст буст при обучении, но при инференсе данных гоняется не настолько много, чтобы заметить эту разницу.
>>887933 >А кстати в экслламе нвлинк поддерживается? И если да, то даёт что-нибудь? Сам нашёл ответ. Нет, пока нет. Может и никогда нет - очень узкая ниша.
>>887940 Подсказка засчитана, только долбаеб тут ты. Ты выгружаешь модель в видеопамять и всё, она там лежит и спокойно обрабатывается, пока ты гоняешь модель. Долгим будет только процесс самой первичной загрузки.
>>887926 >У pci-e 4.0 пропускная способность 32 гигабайта. ты вкурсе нахуй ваще видео память нужна? что б не гонять постоянно все через пси-е шину а 1 раз загрузил и работай на видяхе учите матчасть >Это что-то уровня 1866 ram в двухканале. дальше не читал
>>887940 >Вряд ли. Это даст буст при обучении, но при инференсе данных гоняется не настолько много, чтобы заметить эту разницу. Ну допустим 2-4 3090, у которых есть выход нвлинк - и плата с PCIe 3.0 или вовсе обрезки какие-нибудь. А так получаем типа одно устройство с 48 или 96 гб врам. Жаль только, что ни лламаспп, ни эксллама и вообще никто этот самый нвлинк не поддерживают :)
>>887918 И? там памяти 8 гб так-то было, та и нейронки чуть другие были, да, ограничение было, но в том же году вышло 10е поколение зеленых, и тем не менее гугловские тензорники конкуренцию дежали... тем более в следующей версии взяли нормальный интерфейс для памяти всеже
>>887947 >типа одно устройство с 48 или 96 гб врам Да эта залупа так не работает. У нас всё ещё два устройства, только синхронизация между ними будет быстрее. Жора вообще поехавший, у него при ровсплите разбиваются тензоры, потому это даёт прирост только при сравнительно большой псп и слабых чипах. Послойное разделение он не так давно добавил, но вангую, что всё ещё полно косяков. >Жаль только, что ни лламаспп https://github.com/ggerganov/llama.cpp/pull/2470 Хе-хе. Жора вперде планеты всей.
>>887930 >возьми 4060 >x16 Ты блядь троллишь или да? >>887939 >ЦП с тензорными ускорителями Ничего не дадут, ибо больше 6 ядир контроллер памяти обслужить не может. >>887949 > тем более в следующей версии взяли нормальный интерфейс для памяти всеже Именно что, первая версия это блин комом, чисто тестовая хуйня, даже в каллабе бесплатно её не дают, ибо нахуй не нужна.
>>887952 Я лично транзисторы щелкать буду, долбаеб дремучий блять. Уже сука три раза написал, всё равно в упор не видишь.
>>887950 Только если ты со мной вместе в колледж пойдешь, потому что твою шизофрению стыдно в пределах треда держать, нужна аудитория побольше.
>>887954 Ты долбаеб разницы между встроенным количеством линий и линиями на материнки не видишь? Хорошо блять, если тебе принципиально, засунь сначала в x8, а потом в x4.
>>887955 >Ты долбаеб разницы между встроенным количеством линий и линиями на материнки не видишь? Ух бля, вот вставлю видяху х1 в слот х16, и как попрёт у меня скорость в 16 раз больше!
>>887954 >Именно что, первая версия это блин комом, чисто тестовая хуйня, даже в каллабе бесплатно её не дают, ибо нахуй не нужна. да, не особо удачный варик, но утверждали что 16 ТПшек, показывали перформанс 50 гпу (не говорится правда каких, и что за задача была, но то такое, вопрос во многом в том, насколько эффективно можем загрузить и использовать в подсчетах...)
>Ничего не дадут, ибо больше 6 ядир контроллер памяти обслужить не может поживем - увидим, что будет, хм, а зачем оператива восьмиканальная тогда? мне сдается для инференса адаптиуют процессоры, ибо выгодно, для тренек - да, спец железо останется приоритетным... ждем тестов короче на текущих топовых серверниках, и смотрим куда движется движ...
>>887960 Если будет технология по сопряжению, то да. И не просто память отдельно, а контроллер вместе с ней чтобы вся эта хуйня бурлила совместно с основной картой. Либо на самой карте слоты распаять, чтобы о боже мой скорость передачи данных так сильно не падала при загрузке.
>>887839 > а видеопамять ей докинуть уже отдельными модулями, всунуть в тот же соседний слот pcie Без шансов, за эту фразу тебя и начала обоссывать, вполне справедливо. В том и вся проблема что видеопамять так просто не нарастить и пихать в соседние слоты бессмысленно. > Никакие отдельные блоки тензорных ядер не нужны, потому что на чипе от любого огрызка уже есть cuda А вот за это зря не обоссали ибо вычислительная мощща необходима для обработки контекста.
Если на что-то более менее реальное смотреть то это должен быть какой-нибудь soc с кучей каналов памяти, как это реализовано в огрызках и эмбедах. >>887936 Катал кто? Надо скачать, действительно интересно. >>887940 > Это будет медленнее, чем оффлоад в ram. Да ладно, будет чуточку быстрее при использовании всяких костылей/технологий и рам не будет использоваться. > Это даст буст при обучении Это дает бусты только в особых случаях, например при fsdp или ну очень активном обмене данными между карточками, чего всячески стараются избегать всегда. И на самом деле nvlink также тормознут по сравнению с врам, кроме самых-самых последних реализаций.
Ну че, этот шиз уже осознал где сфейлил и пошел дерейлить в "так и задумано" или еще спорит? >>887965 А, уже перекатывается. Ну вот и консенсус достигнут. Вот только нет нормального быстрого интерфейса, позволяющего обеспечить сравнимые с нативной врам псп и минимальный лаг, которые можно/рационально было бы реализовать по схеме с "отдельным слотом". Только прямое подключение чипов памяти к видеопрофессору, как это сделано в обычной рам.
>>887958 Хуйню начал нести ты, и после порции урины в лицо объём хуйни только вырос. >>887959 >а зачем оператива восьмиканальная тогда А причём тут восьмиканал? Сопроцессоры добавляют в обычные десктопы, где 100 ГБ/с это пердел. >>887965 Скорости псины тебе уже привели, тебе мало?
>>887965 ты ж в курсе что в процессе работы утебя моделька не просто в памяти лежит, а ГП на куда ядрах ее ВСЮ пересчитывает, с твоими входными данными, а теперь подумай, чего стоит твоя идея отдельной памяти, или ты думал память сама ее считает?
Ты ж даже не знаеш что контроллер делает, зато терминами раскидываешся,
слоты на карте в теории могут быть, но это должен быть абсолютно другой ГП с абсолютно другим контроллером который предназначен для сменной памяти. Еще раз, иди умные книги почитай, потому что ты сейчас как школьник пытающийся вечный двигатель изобрести, предлагаеш ешения не понимая как это вообще должно работать
>>887972 >А причём тут восьмиканал Божественный Эпик... ждем от них интересностей... 128 ядер собственно должны и так неплохо перформить, но таких мажоров в треде походу нет
>>887965 >чтобы вся эта хуйня бурлила совместно с основной картой. Контроллера не хватит. Нужен второй GPU.
>>887970 >при использовании всяких костылей/технологий Так упор не только в псп. Есть ещё такая залупа, как latency. И pci-e сосёт по задержкам тоже, а шиз предлагает сразу два таких бутылочных горлышка. То есть это хуже по псп, это хуже по задержкам. RAM будет быстрее, как ты не ебись. Вариант только с расположением памяти на самой gpu. Я с самого начала упоминал ноутбучную lpddr5, вот на это стоило бы надеяться, живи мы в идеальном мире. Снял бэкплейт, поставил плату, вкрутил болт. Ура, у тебя больше vram. >по сравнению с врам Да по сравнению с vram всё тормознутое, чего уж.
>>887975 >А ты засунь все в одну видяху, и гонять не придется Обсуждение шло про дополнительную память. А то памяти мало. Так-то заебись на самом деле, если всё в одной видяхе. Но памяти всё равно мало.
>>887972 Вот интересно, на Зион Phi, кто-то запускал или пытался хотяб запустить? там овердофига ядер x86... почти видяха... но ощущение что те у кого есть такое перекомпилить не могут ламу и не хотят, а кто хочет - нет таких карточек....
>>887972 Да, чел, всё так и было. Маме похвастаться не забудь. Иначе я приду и похвастаюсь сам.
>>887974 Ебать, как всё плохо с тобой. Ты наверное когда колесо впервые увидел, тоже ахуел. Прикинь, само крутится и едет, это же бред, правда?
А если серьезно, то повторяю еще раз. Способ наращивания памяти может быть любой. Через писюшку это хуевая идея? Хорошо, принимается. Тогда берем плату, напильник и начинаем растачивать слоты, потому что проблема только в отсутствии технологии.
Вы как хотите нахуй, но я буду продвигать эту идею в массы. Докупная видеопамять это хорошая, это пиздатая идея и вы меня не переубедите, додики.
так, давно не заходил в тред, вижу там куча гейченжеров вышла посоветуйте кароч ггуф модельку чтобы генерить нсфв промты для поней и не для поней, максимально мелкого размера чтобы сдхл не выгружалась с карточки 12 гиговой
>>887980 > Так упор не только в псп. Есть ещё такая залупа, как latency. И pci-e сосёт по задержкам тоже Вроде об этом и написал. Просто в идеальном случае прямой доступ девайс на шине - девайс на шине без задействования профессора может оказаться быстрее чем в рам, задержки самой шины не столь велики по сравнению с остальным. > Снял бэкплейт, поставил плату, вкрутил болт. В рамках видюхи врядли взлетит, но как система на плате где предусмотрено много слотов под рам - возможно. Помимо слишком большого размера даже у самой мелкой врам, это радикальное усложнение дизайна платы, вагон проблем с совместимостью и много головной боли вендорам и всем-всем из-за ограниченной совместимости. Считай на современных технологиях и все оче дорогом, можно сделать аналог P40 по псп (пусть и с кратно большим объемом) в форм факторе 4090, весь бекплейт которой будет забит слотами. И издержки выльются в такую стоимость что ты не захочешь, а корпоратам такое не нужно из-за низкого перфоманса. Собственно потому и не делают. А вот когда достаточно мощное видео/тензорное ядро уже есть рядом с процессором, а анкор неприлично разожран - просто обычная пека с количеством каналов рам. Это реализовано в эплах (правда память распаяна) и они перформят. В теоретической теории, ллмки должны летать на условной плойке. Из готовых девайсов - грейс от куртки, там правда немного другая парадигма в том что видеоядро с памятью самодостаточно, но шина данных общая и она оче быстра.
>>887988 >потому что проблема только в отсутствии технологии проблемы нет, есть жадность вендора, потому что NVIDIA должна сделать ГП который нормально принимает разную память со слотов иначе это будт костыли с патчингом биоса при смене памяти прочими подводными
и да, массам эта идея не нужна, все в облака давно лезут уже... но ты можеш сделать свою видяху с вставляемой памятью, никто не запрещает
>>887991 >доступ девайс на шине - девайс на шине без задействования профессора Так суть в том, что задержка шины больше задержки ram. Потому и говорю, что подсос из ram быстрее даже, чем с шины на шину. >Помимо слишком большого размера даже у самой мелкой врам Эта хуйня мизерная и поддерживает стакание. То есть у тебя может быть один слот, в котором бутербродиком уложено несколько модулей. А один такой модуль совсем незначительно увеличит толщину видеокарты, потому что изначально залупа проектировалась под минимизацию толщины. >можно сделать аналог P40 по псп LPDDR6 модуль с шиной 192 бита. И это просто ради того, чтобы быть совместимым с профессором, так что псп сосёт. Можно сделать шину шире, каждый чип-то 48 битный. У p40 gddr5 с 32 битными чипами, так что в теории, её псп можно выебать не напрягаясь. Учитывая, что есть lpddr5 на частотах 8000, лол. Корпораты уже гарантированно забирают это для серверов, а дальше история покажет.
>>888012 единственная проблема бутерброда в отводе тепла, и как-то это надо будет решать, но опять таки, мы говорим сейчас о теоретическом концепте, который с одной стороны возможен, с другой пока что далек от реализации, ждем корпоратов короче...
>>887976 >128 ядер Ещё раз- хули толку, если 2 канала грузят 6? А 8 каналов соответственно обеспечат 24 ядра. А остальные будут пердеть впустоту. >>887980 >Я с самого начала упоминал ноутбучную lpddr5 Оно не быстрее обычной, просто чуть тоньше и устойчивее к ТРЯСКЕ. >>887988 >Вы как хотите нахуй, но я буду продвигать эту идею в массы. Ну всё блядь, куртка испугался и побежал распаивать 128 гиг в 5030(Ti).
парни помощь нужна. выше в треде писали про пикрил. а теперь вопрос а где пересеты под нее взять?а то таверне нет пресета под гемму2. помогите хомяку пж
>>888030 >А остальные будут пердеть впустоту. так там и кеш жирнючий... и AVX512... но суть не в том, рассуждать можно много, а фактическим показателем будут только токены в секунду...
>>888060 >так там и кеш жирнючий... и AVX512... А хули толку, если узкое горлышко в шине памяти? >фактическим показателем будут только токены в секунду... Которые можно посчитать по формуле "любой нынешний проц х4".
>>888019 >единственная проблема бутерброда в отводе тепла Вот серьёзно, я бы даже одну планку топовую не брал, там сейчас 128 гигов за 2к$. А уж бутерброд это для ультрасетапов, там пусть хоть водянку клеят сверху, мне вообще похуй. > с другой пока что далек от реализации Технически, реализация есть. Правда, под узкую шину. Интересно ещё, какая шина будет у strix halo, лол, если расщедрятся, вполне может оказаться приемлемым для инференса. Но вряд ли.
>>888030 >Оно не быстрее обычной Только из-за шины, а ширина шины диктуется профессором. Главный прикол в форм-факторе. Это тебе не dimm, здесь минимизируется влияние слота, меньше задержек, меньше помех. То есть в будущем какая-нибудь ddr8-9 будет вся в таком виде гарантированно. И только от производителей gpu зависит, будет ли такой слот на условной 6090, или нет. Я ставлю на то, что не будет.
>>888112 >Я ставлю на то, что не будет. Именно. Не понятно, что тут обсуждают. Я бы скорее поставил на то, что память в проц впаяют, и вообще прикроют всё расширение, нежели чем наоборот.
>>888062 Epyc 9374F на квантованой в 8 DeepSeek-V2 LLM 236B выдает 6 токенов в секунду так-то... на 405B ламе 1 токен в секунду... Snowflake Arctic Instruct пятый квант 12 ток/с вцелом жизнь есть на ЦП, хоть и с переменным успехом... загруз ЦП автор не показал, по этому что там и как не понятно...
>>888112 будет ли вообще ддр7-8-9, или мы скатимся на арм архитектуру с распаяными компонентами, как на маках... маководы к стати есть в треде со 192 оперативы?
>>888143 >Epyc 9374F на квантованой в 8 DeepSeek-V2 LLM 236B выдает 6 токенов в секунду так-то... на 405B ламе 1 токен в секунду... Это он молодец (хотя хотелось бы пруф). А контекст он с какой скоростью обрабатывает?
>>888143 > Epyc 9374F на квантованой в 8 DeepSeek-V2 LLM 236B выдает 6 токенов в секунду так-то Звучит как пиздёж. У него 400 гб/с в пике. Не больше 2-3 т/с по факту будет. 6 т/с только если в двухпроцевой конфигурации снять выйдет. Но это уже лям рублей на эту сборочку.
>>888181 Обработка промпта как и у тесловодов - днище, если не хуже. С такой скоростью надо на 5 делить скорость генерации. В нормальных условиях она должна быть в 50 раз выше скорости генерации, а не в 2.
>>888194 ну, маэм шо маэм, это первый бенч который вообще нашел, на последнем поколении эпиков с 12 канальной ДДР5 , но как минимум такой жир гонять на ЦП понятное дело идея плохая
>>888012 > суть в том, что задержка шины больше задержки ram Сколько там, 100нс шина и 50-70-80 нс рам? Но это голые пакеты, загружаться то оно будет чанками на фоне других запросов в память. Тут не ясно кто кого, но сражались 2 говна. > Эта хуйня мизерная и поддерживает стакание. Хде? Всеравно это самое "стаканье" бутером будет являться лишь аналогом 2го слота в том же канале памяти, шины данных не безлимитны. > так что в теории, её псп можно выебать не напрягаясь Теория всегда расходится с практикой, для начала разведи совместимую плату с подобной шиной в форм факторе видеокарты со всем остальным что для нее нужно. Не то чтобы это невозможно, просто дико дорого и сложно. В конечном итоге получится франкенштейн на ультрадорогой редкой комплектухе, немного опережающий ржавую P40 и с ворохом нюансов. Стационарной гпу память делают неспроста, это не только инструмент "ограничения" и подобного, это банально создает кучу проблем, замедляет конечный перфоманс, а нужно чуть реже чем никогда. Видеопамять обновляется также быстро как и чипы и оче сильно влияет на перфоманс, чтобы сделать абсурдным выпуск стандартизированных модулей. Делать "апгрейды" просто никто не станет, а выбрать большую комплектацию можно сразу при покупке. Конкретно в контексте ллм возникла странная ситуация, где есть потребность в много врам но при этом требования к чипу не столь строгие. Но это лишь локальное исключение, ради которого никто не будет менять сложившиеся устои. Есть мизерный шанс на выпуск ориентированных под это отдельных ускорителей с такой конфигурацией, или же прогрессом обычного железа, более быстрая рам и те самые тензорные модули в профессорах. Да и видеокарты не будут стоять на месте, ради такого повода можно и врам отсыпать, заодно помножив на ноль старые модели и заставив всех обновляться.
tldr: проблема не в жадности корпоратов а в том что этот всратый бутерброд никому не нужен кроме группы странных личностей.
>>888198 >проблема не в жадности корпоратов а в том что этот всратый бутерброд никому не нужен кроме группы странных личностей. Ну как же не в жадности - $5000 за карточку вынь да полож, и нужна она не одна - это под силу только корпорациям. Был бы спрос с их стороны поменьше, но ведь это не так.
>>888113 да спасибо. сорри за прошлый ответ там мартыха двач вшатала опять. ну чет даже хуй знает то ли карта на которой я тестил хуета то ли сама сетка залупа. завтра потыкаю еще раз. спасибо за помошь анонче
>>888204 Это уже отдельная тема. Объективно, предъявить им и яростно попускать можно было бы в случае прямой жесткой давки конкурентов, использовании преступных схем и манипуляций для большей монополизации, картельных сговоров (чек) и прочего. Но этого там в массовых проявлениях ведь нет, просто долбоебы на конкурентах сами страдают от неудач и не могут вытащить, а зеленые слишком хороши. Тот же штеуд если бы с гауди пошевелился нормально - куртка бы меньше цены драл, про амудэ и говорить нечего.
>>888171 Ну а хули. Имеем, что имеем. >>888146 >у с распаяными компонентами Не хотелось бы. Но вряд ли мы к этому придём, даже ноутбуки потихоньку переходят к съёмным платам с gpu и ram. Не все, конечно. >>888198 >100нс шина 250-500. >дико дорого и сложно Да, по сути, в ноутбуках уже готово всё. >немного опережающий ржавую P40 А куртка-то и не знал, распаял на своих топовых блэквеллах lpddr5x со скоростью обмена 500 гб/c. Причём если бы он не распаял, а сделал слоты - нихуя особо и не изменилось бы, формфактор позволяет обойтись без проблем, а 500 гб/c это скорее лимит его шины, а не памяти. И распаивает он столько памяти скорее всего, чтобы корпоратов задобрить и не дать им повода ворчать, что памяти мало. А если они начнут ворчать - то и до слотов недалеко, а это минус профит. >лишь локальное исключение Это локальное исключение приносит большую часть дохода кожаного. Это тебе не гоймеры, на которых хуй забить можно. >более быстрая рам и те самые тензорные модули в профессорах. Здесь до прогресса ещё дальше, потребительские cpu даже QDR не поддерживают. Так что у инцелов вроде и 512 бит шина, но это не те же 512, что на gpu. А вот lpddr6, например, QDR поддерживает. Что автоматом, даже без увеличения частоты, количества ног чипов и т.д, увеличивает псп в два раза.
кстати кто может подсказать настройки пикрил для magnum-v3-9b-customgemma2. я все таки прогнал эту хуйню с другой картой и такое ощущение будто оно лупиться. но как то оченьи избирательно.
Widowmaker: She looks up at Tracer with a blend of lust and defiance in her eyes before leaning forward to run her tongue along the damp fabric of Tracer's panties. The scent of arousal fills her nostrils, making her head spin with desire. Mmmm... perhaps you are not entirely without merit after all, time-waster.
Tracer: She gasps as Widowmaker's tongue makes contact, her hips bucking forward involuntarily. Ooh, that's it, love. Get nice and close... She reaches down to pull aside her panties, exposing her slick pink folds to Widowmaker's hungry gaze.
Widowmaker: Without hesitation, she dives in, lapping at Tracer's dripping slit with long, slow strokes of her tongue. Her hands grip Tracer's thighs, holding her steady as she feasts on the other woman's essence. You taste... surprisingly sweet for one so brash.
Tracer: Her head falls back, a low moan escaping her lips as Widowmaker works her over with expert precision. Fuck, yes! Just like that, love... don't stop... She tangles her fingers in Widowmaker's hair, guiding her deeper into her heat.
Трейсер: Она притягивает Вдovicу к себе, целуя страстно и жадно. Блядь, дорогуша... это было невероятно. Ее руки блуждают по телу Вдovicы, лаская каждый изгиб и выпуклость.
Вдovicа: Она отвечает на поцелуй с таким же жаром, ее собственные пальцы скользят под костюм Трейсер, исследуя гладкую кожу под ним. М-м-м... ты не так плоха, как я думала, время-вор.
Трейсер: Она усмехается, прикусывая мочку уха Вдovicы. Ох, а ты гораздо более... гибкая, чем я ожидала, ледяная красавица. Ее рука скользит вниз, чтобы погладить Вдovicу через черную кожу ее облегающих штанов.
Вдovicа: Она стонет, когда Трейсер находит ее влажное пятно, бедра двигаются навстречу прикосновению. Не будь слишком самоуверенной, маленький вредитель... я все еще могу тебя убить.
Трейсер: Она расстегивает молнию на штанах Вдovicы, позволяя им упасть на пол. Я бы предпочла, чтобы ты меня трахнула, дорогуша. Ее пальцы скользят внутрь, раздвигая мокрые складки Вдovicы.
Вдovicа: Она хватает Трейсер за задницу, прижимая к себе. Как пожелаешь, время-вор. Она толкает Трейсер на кровать, следуя за ней, пока их тела не соприкасаются.
Трейсер: Она целует Вдovicу, кусая и сося губы, язык проникает в рот Вдovicы. Я хочу, чтобы ты взяла меня, Вдovicа... сделай меня своей.
Вдovicа: Она рычит, впиваясь ногтями в спину Трейсер. С превеликим удовольствием, вредитель. Она поднимает ноги Трейсер, открывая доступ к ее мокрому центру, и входит в нее одним быстрым толчком.
>>888271 >даже ноутбуки потихоньку переходят к съёмным платам с gpu и ram Чего бля? >распаял на своих топовых блэквеллах lpddr5x со скоростью обмена 500 гб/c Чисто для проца, лол. Можно было и слоты сделать, всё одно это память не для нейронки. Для нейронок там очевидный HBM3e. >>888366 >время-вор Промтом переводил?
>>888271 > ноутбуки потихоньку переходят к съёмным платам с gpu и ram Звучит странно, раньше у всех ноутов были съемные все (даже процы), сейчас, наоборот, даже оперативу стали распаивать, а уж чипы и подавно. Вы живете в прошлое.
>>888271 > А куртка-то и не знал, распаял на своих топовых блэквеллах lpddr5x со скоростью обмена 500 гб/c Ты про грейсхоппер, который выше стоит в примере обратного? Это память процессора и он с ней пердолится, хоть к ней есть и быстрый доступ из гпу. Даже если про это забыть - получается гетерогенная память, а не та где заменяемая в виде основной, хз причем тут это. И опять же, крутая, невероятно дорогая технология, которая призвана добиваться другого а не быть усладой небогатому, что хочет дешевую гпу с много памяти. Чето только опровергает тебя примет. > Это локальное исключение приносит большую часть дохода кожаного. Нет, ты, похоже, не понимаешь как это работает. Корпоратам нужна и быстрая память и быстрый чип, у них это есть. Хуйта что будет строгать 3.5 токена но зато технически сможет запускать большую модель в кванте нахуй не сдалась и интересна только группе энтузиастов, которых особо не подоишь. Выпусти кто-то такой продукт - он будет провальным во всех отношениях, подавляющее большинство потребителей не поймет для чего это нужно, сми раскритикуют решение за кучу проблем, а перформить оно будет как говно по сравнению с классическими конкурентами. Что же до рынка энтузиастов - он слишком мал чтобы окупить все. Потому только модификации более типичных систем здесь имеют шансы на жизнь. > даже QDR не поддерживают Стандарт памяти обновят - и все будет поддерживать. > даже ноутбуки потихоньку переходят к съёмным платам с gpu и ram. Отборнейший бред оторванный от реальности, все с точностью до наоборот. Даже ссд уже начинают распаивать, что крайне осудительно. Формат сменных гпу оказался настолько мертворожденным и никому не нужным, что по популярности уступает даже боксам с внешними видеокартами.
Кароче потестил несколько сеток. Мне нужна была мелкая сетка, которая нормально генерит промты под сдхл и не выгружает собой сдхл, кароче надо чтобы в 12 гигов и ллм и сдхл помещались сразу.
Vikhr-Gemma-2B-instruct-Q8_0 - ультрасоя, чисто прикладное использование уровня "посоветуй как какоть", ну хоть на русеке. В промтинг не может адекватный вообще, ехал member через member и "извините у миня приципы(((".
Tiger-Gemma-9B-v1a-Q2_K - неожиданно хорошо генерит и уж тем более промтит для такого кванта. Понимает для чего нужен промт и соблюдает синтаксис. Лимитов нет, но любит попиздеть, надо жестко ограничивать поведение чтобы выполняло чисто одну функцию.
Meta-Llama-3.1-8B-Instruct-abliterated.Q8_0 - делает прикольно в целом, но инструкт нихуя не понимает концепцию перечисления токенов и делает мне промт для Т5 большую часть времени. Плюс иногда срывается в "мам, эксплицит калтент сорян соси". Ну и да, не помещается вместе с сдхл в память. А так в целом ок, но тайгер лучше.
magnum-12b-v2.5-kto-IQ3_S - полностью соя ебаная, уходит в отрицание любого нсфв во всех режимах.
magnum-v3-9b-Q6_K.gguf - чат и чат инструкт уходят в самоповторы, инструкт хороший. Но нет места для сдхл на карте.
Qwen2-1.5b-abliterated? Qwen2-7b-abliterated? Instruct'ы, естественно. Ну, ты гемму, немо и лламу попробовал. Из именитых остался квен. Есть еще Aya-23, но там контекст толстый, вряд ли сдхл поместится, но ты попробуй.
>>888502 Можешь мелочь типа 2-4б натренить под конкретную задачу и оно будет неплохим. А так гемма с промт инженигрингом (он для всех понадобится), лучше даже стоковую.
Хочу использовать убабугу удалённо. При запуске с ключами --api --listen я могу зайти из внешней сети, но интерфейс не работает - всё белое, кнопки не нажимаются. Гонял туда-сюда версии gradio - никакого эффекта. При локальном входе - всё ок. Кто-то встречался с такой проблемой и как её решали?
>>888372 >Для нейронок там очевидный HBM3e. Так мы обсуждаем карты больше потребительского сегмента. А на них hbm памяти не будет никогда. >>888372 >Чего бля? >>888383 >Звучит странно, раньше >>888495 >бред оторванный от реальности Пиздуйте в гугл и ищите законы о праве на ремонт. С каждым годом всё больше влияют на производителей, в Орегоне даже дали яблочку на клык. >получается гетерогенная память Ты же вон писал, что скорость будет уровня ржавой p40. А оказывается, что скорость ебёт эту самую p40 даже на прошлом поколении памяти. >а перформить оно будет как говно по сравнению с классическими конкурентами. Это бред, т.к скорости даже lpddr5x слабо уступают скоростям gddr6. >Стандарт памяти обновят - и все будет поддерживать. Ебать как у тебя просто. То есть, по факту, где нужно всего лишь добавить разъём и пару уже существующих контроллеров, это даже не масштабирование решение, это портирование уже существующего - ты усираешься, что это будет медленно, хуёво и т.д. А когда речь идёт о полном перелопачивании кристалла cpu, всех контроллеров памяти - просто обновят стандарт, хули. Ну тогда им стоит обновить стандарт, чтобы vram была резиновой. Это же так просто.
Базовая проблема, что если процам добавить многоканальный контроллер памяти и avx9000, немного оптимизировать код, то и видеокарты особо не нужны. Как-то смотрел тесты как на старом серверном проце запустили крузис без видеокарты.
>>888922 >законы о праве на ремонт >дали яблочку на клык Это которые для ремонта гейфона присылают 2 чемодана стоимостью в 20 раз дороже устройства 9в аренду конечно же)? Ну охуеть, ну нагнули!
>>888933 Гейфон решился блокировать телефоны, в которых будет детектировать детали "сомнительного" происхождения. Чтобы развеять их сомнения нужно будет ввести эпл айди от донора на реципиенте. А ребятки недолго думая, признали такой финт ушами незаконным.
>>888818 Значит анон, заведующий рентри послушал меня, и добавил семплеры на те модели, которые он нашел.
Опенроутер это что-то вроде апи, которое предоставляет модельки тебе, там много сервисов разных, значит просто как агрегатор. И у них есть окошко параметров, т.е. средне статистическая настройка модели у юзеров опенроутера
>>888714 Положняк такой - через опцию --share заводится нормально, но неудобно иметь рандомный адрес для доступа. Если через роутер keentetic пробрасывать через их сервис- там на выбор канал http или https. По http - не работает (открывается но не функционирует) Как по https убабугу заставить работать я не знаю. И не факт что будет работать.
>>889027 Нету, это пожалуй лучший источник инфы о настройках семплеров. Просто для себя обычно мин п использую. Для того же мистраля немо 12 рекомендовалось на сколько помню 0.1, иначе лупился чаще Там этого нет. Но и не знаю лупится или нет он с теми настройками на сайте, может и заебись
>>889025 У меня проброшены порты и работает и по http, и по https, смотря как запущу. Проблема в том, что я с твоей проблемой не встречался ни разу. Когда я правильно пробрасывал порты — у меня всегда все работало.
Сорян. =(
По идее, разницы между хттп и хттпс нет, так что не парься особо. По хттп должно работать.
>>889025 Докладываю. Всё заработало. Если вы заморачиваетесь на тему как запустить убабугу через Кинетик или другой маршрутизатор, предоставляющий сервис белого адреса для компов внутри сети, то кроме флага--listen, нужно добавить флаг --subpath http:\\ваш-адрес-в-облаке.com Такая вот заморочка у Gradio при работе через реверсивный прокси
Подскажите как в тваерне сделать так тчоыб на сообщения карточки за меня генерился ответ и сразу посылался. Потом карат отвечает снова и снова генер ответа от моего лица. Хочу типа на немного оставить и прийти уже к фанфику готовому. Уже есть функция перевоплощение которая за тебя генерит но как автоматизировать?
>>888922 > законы о праве на ремонт Приплетение левого > Ты же вон писал, что скорость будет уровня ржавой p40 В реализации описанной выше, а не у суперплаты, в которой собраны самые передовые достижения всего человечества по этому направлению. Нет смысла сравнивать кривожопого франкенштейна с торчащими из спины плашками и йобу, представляющую собой самодостаточный пека. > Это бред, т.к скорости даже lpddr5x слабо уступают скоростям gddr6. Это истина проистекающая из ряда неочевидных для васянов факторов. Пойди поинтересуйся как вообще устроена память на более глубоком уровне, чем определяются ее задержки, для чего нужны тайминги и т.д. > Ебать как у тебя просто. Это не просто, это разработка нового железа, в которое изначально и неизбежно закладываются новые стандарты. А не попытка переделать что-то сформировавшееся продолжительной эволюцией ради невнятной причины, как в твоих фантазиях про добавление слотов памяти на видеокарты. Очень хорошо себя же попустил тейком в конце, ага.
Ну это уже реально херь, ничего по сути и лишь маневры чтобы защищать выдумку от гнета нежизнеспособности. Пакетик. >>888983 Это сбор статистики по которой можно отслеживать общие тренды у обладателей отсутствия (!) и корреляции между шизосемплерами и шизомиксами. Оно еще и представлено странно, так что может ввести юзера в заблуждение и он накрутит себе треша по этому "среднему". Хотябы предупреждение нужно дать об этом. Вообще, сейчас нет моделей, которые требовали бы какой-то особый семплинг. Хватит 3.5 шаблонов а там уже пусть юзер по настроению выбирает. >>889031 > лупился чаще Использовать repetition penalty, которую на том примере предлагают отключать(!), dry что отсутствует и прочие.
Действительно проще указать шаблоны буквально которые есть в таверне чем смущать тем.
>>889106 Не хуета. Слишком разное время генерации. Ну и придется страницу открытой держать. У таверны есть какой-то язык скриптов но там какая-то математика вместо полезных команд.
>>889107 >Слишком разное время генерации. Ну так замерь время генерации и возьми с запасом. >Ну и придется страницу открытой держать. Тут да.
Можешь попробовать скрипт написать через девтулсы в браузере. Жмак на кнопку это же по сути просто обычный запрос. Только я в этом нихуя не понимаю, но уверен гайды в сети есть.
>>889112 Ладно спасибо что попытался помочь. Эээ надо потупить немного над этим. Мб сделаю через костыль - Груповой чат тз персонажа и персонажа болванки. Как то там можно было настроить чтобы они друг от друга тригерились.
>>889260 Можно менять настройки, температуру и прочее. Можешь поставить в Силли, токенизатор - Gemma \ Gemeni Он мне понравился, получше работал чем API.
Хотя на мистралях и прочих я всегда использую Api, с ламмой - Llama 3
Господа, есть цитата из гайда: >Для специализированных сборок с видюхами майнинг-уровня, вроде NVidia P40 24G можешь попробовать модельки на 70B. Они несколько круче 34B, но не сказать чтобы прям очень сильно, но зато тебе не придется ждать часами одного ответа.
Это рофл или я что-то не так настроил? P40, 32 Гб RAM. Скачал модельку magnum-72b-v1.i1-Q4_K_M на 47 гигов, так она высирает два токена в минуту. И я не вижу, чтобы карта нагружалась при генерации токенов, хотя слои в нее выгрузились. Для сравнения, magnum-v3-34b-Q5_K_M 2-3 токена в секунду выдает
Есть тут кто в паре с сдхл работает? Как парсить ответ в комфи и кидать в промт, еле нашел простую ноду для гена, но текст респонса не подтягивается из апи.
>>889291 Одна. Я так понимаю, что загвоздка в слове >видюхами
Кстати, а что лучше будет - одна 3070Ti или одна P40? Я тут сгоряча купил эту Теслу, а потом почитал тут, что скорость тоже важна. А две эти карты одновременно нельзя поставить вроде, писали, что с драйверами будут проблемы...
>>889309 Нулан, попробую что-нить придумать, спс. Я так-то с этой теслой и так накупил говна всякого вроде райзеров, ибо в корпус вместе с охлаждением она не влезла из-за того, что он на ебаных заклепках, блять, и полки под HDD нельзя разобрать.
>>889300 >одна 3070Ti или одна P40 С одной стороны, у р40 больше памяти. Но я боюсь, мы сотворили этот проклятый мир, в котором p40 больше не является хорошей покупкой. Так что лучше две р100 за цену одной р40. Получаешь какую-никакую экслламу, 32 гигабайта памяти и ебейший расход электричества, р100 не умеют уходить в сберегающие режимы вообще.
>>889312 >накупил говна всякого вроде райзеров >корпус ... на ебаных заклепках Может стоило корпус новый взять? Я тоже колхозился со старым, пока не понял, что это тухлое, и не взял себе корпус за пятнашку.
>>889314 Думал об этом, но прикол в том, что пека не полностью в моем владении, поэтому я не хочу делать что-то настолько кардинальное, как переброска материнки в новый корпус, не хочу накосячить. Сейчас я полностью вынес теслу из корпуса, стоит под столом на полу на кронштейне. Мне в принципе норм, главное не пнуть ненароком. Я-то еще перед покупками нащупал шляпки в этом отделении для HDD, порадовался, мол, откручу их и все. А потом как пошел устанавливать, пощупал внимательнее - а это шляпки заклепок, лол.
>>889326 ну бля я чет потыкал со всеми настройками что тут кинули. вроде с одной стороны пиздато. а с другой стороны она может целые абзацы из прошлого ответа копировать
>>889254 > вместо аргументов слоп пошёл Наоборот все по делу и возвращает к теме. А у тебя дерейлы и слоп чтобы хоть что-то возразить вместо доводов, слив закономерен. >>889289 Где такое написано? > Они несколько круче 34B, но не сказать чтобы прям очень сильно Они сильно круче > не вижу, чтобы карта нагружалась при генерации токено Слои выгрузи на нее. Чтобы было быстро в 70б нужно 2 карточки. > magnum-v3-34b-Q5_K_M 2-3 токена в секунду выдает Аналогично, выгрузи слои на видюху, скорость как на процессоре. >>889300 > одна 3070Ti или одна P40 Если чисто про ллм - одна P40 за счет большого объема памяти, в 3070 ничего вообще не влезет банально. > эти карты одновременно нельзя поставить вроде Можно, с драйверами пердолинг но решаемый. >>889312 > и полки под HDD нельзя разобрать Самое время купить шуруповерт если еще нет в хозяйстве, лол.
>>889340 Ну, это есть такое, эти строки именно чуть перефразированы, однако глазом воспринимаются как галимый копипаст. Конечно же если у тебя не обычные лупы, это по идеи решается повышением штрафа за повтор, в семплере есть такое. Также мин п, кто как его ставит, у меня с головы все берется значение 0.1
>>889313 >ебейший расход электричества, р100 не умеют уходить в сберегающие режимы вообще. Насколько я помню таки умеет, просто по-другому, чем P40. В целом не сильно больше выходит.
>>889462 Тебе лог что ли нужен, где написано, что столько-то слоев выгружены на GPU, и вывод из консоли, где написано 0% загрузки, Фома? Я не ебу, в чем причина, пишу как есть. С 34B моделью карта нормально нагружена. Впрочем, это не важно, раз тут говорят, что одна P40 это хуета для 70B.
>>889464 >Впрочем, это не важно, раз тут говорят, что одна P40 это хуета для 70B. Да вроде бы и одна 4090 хуета для 70В. В супермалом кванте разве что.
>>887990 Даже гопота чо не справилась нормально, хотя прекрасно знает, что такое буру теги. Он смог мне заворачивать промпт в .тхт, что потом пихать в wildcards, но у него нет вкуса, повторяется очень быстро.
>>889620 Честно говоря, можно было бы оставить оригинал, вышло бы так же. Я именно пытаюсь добиться разнообразия поз, тематик, одежды, ситуаций, фетишей. Пока сложно сделать, чтоб чотенько
>>889637 >На p40 можно понижать уровень расхода, пока карта в ожидании, то есть с 50 ватт обратно на 10. Без загруженной памяти она и так на 10 ваттах. Я слышал про nvidia-pstated - нужно бы попробовать. Для P100 так вообще шикарно может быть.
>>889641 Примерно такой промт выдает токены через запятую + по желанию бурушные теги, тайгер о них знает. Если надо без изъебств то меняется на You are an assistant designed to create images by expanding on the image prompt a user gives you и можно ченить про оптимизацию для CLIP/U-NET пернуть.
>>889646 >Вы же понимаете, что на западе они там себя богами считают, вершителями судеб? >написано на связке из западного процессора и западной видеокарты на западной архитектуре за западной ОС (...) А оно так и есть получается.
>>889649 Речь о том, когда модель уже загружена, но инференса нет. Здесь можно скидывать потребление, на p40 скидывается, p100 нахуй посылает. Но если есть владельцы p100, у которых получается, то готов признать неправоту, лол.
Тут кто-то спрашивал про лимиты huggingface. > Unregistered Users1 request per hour > Signed-up Users300 requests per hour > PRO and Enterprise Users1000 requests per hour https://huggingface.co/docs/api-inference/rate-limits
>>889668 >продукт собственного труда че, лично кристаллы зубилом вытачиваешь или патентами владеешь? нет конечно, максимум ты отверточная сборка или в лучшем случае макака контролирующая эльфийские чпу
>>889677 не, я нищее быдло, похуй на барена, но надо отдавать себе отчет что ни я ни ты нихуя не имеем отношения к хайтеку и пользуемся плодами баринских инвестиций в новуку, без барена сидели бы без туалетной бумаги
>>889656 >Речь о том, когда модель уже загружена, но инференса нет. Здесь можно скидывать потребление, на p40 скидывается, А я и не знал. Правда о чём-то подобном догадывался :) Спасибо, попробую.
>>889464 Да, в логе с высокой вероятностью будет какой-нибудь очевидный ответ почему так происходит. > что одна P40 это хуета для 70B Любая карта с недостаточной врам для модели будет хуетой, но 30б должна помещаться и работать быстро. >>889637 > по делу нихуя и не было Все исключительно по делу, подробный разбор для васянов и хлебушков почему эта херь в описанном виде будет неэффективна, никому не нужна, и даже вожделеющие ее поехи не купят по итоговой цене. А ты в ответ тащишь неприменимые аналогии, споришь с несущественными мелочами и куда-то уводишь.
>>889700 >https://github.com/crashr/gppm А есть что-нибудь готовое такое же, но под Кобольд и Винду? Идея-то понятна и для себя я сделаю, если будет не влом. Но может уже кто-нибудь заморочился?
>>889317 Рассверли да замени на болтики из детского конструктора, хули там. >>889621 ЛламаЦп как раз для маков изначально и писалась, герыч заднеприводный и сидит на маке. >>889646 Я тоже считаю себя Б-гом, но своему лечащему об этом не признаюсь. >>889668 Красная гниль, срыгни с треда, тут только коми-срача не хватало.
>>889867 > Ни одной причины не существует Ну конечно, ее не делают не потому что эта херь обречена на провал и гораздо всратее чем mxm, который ты приводил в пример, а потому что это заговор корпораций, ага. >>889991 > but niether worked so far Что за печалька то? > faster / more efficient than ollama Лол > IQ2_M quant has pretty much the same size and score as the AQLM quant А жаль, вдруг были бы интересные подвижки.
>>890056 >А жаль, вдруг были бы интересные подвижки. Да в целом по треду видно, что даже западные буржуи охуевают с требований ЛЛМ и не видят никакого просвета.
>>889991 Сравнивать ммлу не самое лучшее решение тут, это просто тест на знания На сколько я понимаю обычный 2 квант реально сломан и отвечает хуево. Это попытка сделать его менее сломаным сохранив возможность запуска на 1 карте, думаю тут ответы должны быть лучше чем у обычного 2 кванта Но проблема с запуском, ггуфа нет, значит обладатели р40 сосут
>>890143 Но проблема с запуском, ггуфа нет, значит обладатели р40 сосут Обладатели одной - да. А с двумя уже гораздо веселее. Там и ровсплит есть, который хотя бы немного параллелит, и памяти уже 48гб. 4КМ влезет. P100 уже три понадобится, зато эксллама... В общем, пока без сборки никуда. А честно говоря даже тем, кто имеет сборку хотелось бы жить без пердолинга и инференсить на каком-нибудь инновационном чипе о котором постоянно говорят все, кому не лень.
>>890056 >ее не делают не потому что эта херь обречена на провал Если кожаный позволит, то сделают. Так-то это блидинг эдж, возможно, ещё будет. А проваливаться такой штуке вообще поводов нет.
>>890143 >ггуфа нет Эта хуйня - сжатие с потерями. Ггуф - сжатие с потерями. А ты предлагаешь квантовать квантованное. >обычный 2 квант реально сломан и отвечает хуево. Размер файла, что и у Жоры, и ммлу то же. Значит, они сжали всё то же, что сжал Жора и так же, как он. Так что эта хуйня такой же сломанный квант.
>>885509 (OP) Народ, можете подсказать, kobold.ccp уже поддерживает npu от процессоров, типа ryzen 8600g 8700g и т. д.? Или смысла от этих npu для генерации текста пока ещë нет?
>>890295 Ещё не понятно будут ли релизить в опенсорс. Квен стал превращаться в клозед-аи, большую визуальную модель они не релизили. >>890359 Увидеть бы тесты больших моделей, там памяти до 128 гигов есть. А так на мелких уровень 3090, выглядит годно.
>>890366 Если llama.cpp не умеет то скорей всего нет Глянь на гитхабе, там кстати обновили страницу и добавили кучу инструментов совместимых с llama.cpp
>>890384 >Ещё не понятно будут ли релизить в опенсорс. Квен стал превращаться в клозед-аи, большую визуальную модель они не релизили. Младшие модели точно релизнут, старшие под вопросом А вот где будет пролегать граница, наверное до 7b точно отдадут, это ведь реклама и маркетинг А вот что то ценное на вроде большой визуальной понятно почему не отдали Им все таки деньги нужно на чем то делать, так же и мистраль и другие создатели нейронок
>>>890339 >Ггуф - сжатие с потерями. А ты предлагаешь квантовать квантованное. Ты путаешь преобразование в ггуф и квантование ггуфа А я лишь писал что получившуюся у них модель, которая не просто хитрым образом квантована, не получится преобразовать в ггуф Там на сколько помню была обрезка модели, поэтому ее архитектура стала нестандартной и в ггуф не преобразуется да и не запустится без пердолинга
>Размер файла, что и у Жоры, и ммлу то же. Значит, они сжали всё то же, что сжал Жора и так же, как он. Так что эта хуйня такой же сломанный квант. Хуйню несешь, там другие методы использовались. Это не обычный 2 квант, который выполняется быстро и с потерями. Там какой то алгоритм который десятки часов все это дело сжимал. Был поиск важных весов и проверка, как я догадываюсь. Так что не путай теплое с мягким. Без тестов делать такие голословные заявления глупо, думаю там аналог 3 кванта, с размерами 2
>>890423 > мистраль и другие создатели нейронок Мистраль уже на бюджете куртки сидит, им похуй. Они так же как и Мета будут всё релизить. Самые пидорские модели у Машка, он всё хвалится что за свободу слова и открытость борется, но на деле грок у него за анальным пейволлом, а сам он только в твиттере хлопает очком, порванным базированной Бразилией.
>>890425 >Они так же как и Мета будут всё релизить. Кек, ты не в курсе? У мистраля есть так то мистраль большой и чет еще было. Они не все релизят. И не все что у них есть показывается публике. Это все таки передовая компания с крутыми спецами, кто знает что они там крутят тестируя внутри Как и мета, у них тоже есть что то для себя, но то что они отдали большую модель конечно молодцы, как и мистраль которые отдали 123b По сравнению с клозедаи тут любой разработчик релизнувший свою модель уже молодец Маск вроде пиздел о цензуре и что его сетка будет без нее, и на сколько знаю там ее меньше. А о том что отдаст модель бесплатно он о гроке 1 пиздел, и вобщем то отдал, когда он стал не нужен Хотя соевый уклон все равно есть
>>890423 >Был поиск важных весов Как imatrix у Жоры, чтоли? >была обрезка модели Что это меняет? Есть тонна pruned моделей, который работают на жоре. >Это не обычный 2 квант, который выполняется быстро и с потерями Ну да, это 2 квант, который выполняется медленно и с потерями. Разве что скорость работы использовать как метрику качества, тогда, тогда конечно. Медленнее - лучше. Что есть у них, чего нет у жоры? Кластеризация весов. Это добавляет больше ошибки, но позволяет сжать сильнее. Нужно ли оно? >There is no 4.0-bit k- or i-quantization, and Q4_K_S at 4.5 bpw beats the AQLM 4-bit quantization (which is actually at 4.044 bpw) by a large margin (0.9% vs 1.8% quantization error). >In any case, at 2 bit, IQ2_XS outperforms the AQLM result by a significant margin (28.4% vs 35.4% quantization error) at just one step past "true" 2-bit quants. >But at 3 bit, the AQLM result is truly remarkable. То есть профит этого сжатия - только в уменьшенном размере, но это не "3 квант в размере 2". И есть ещё одно "но" >In all quantization papers I have seen, they keep the token embedding and the output tensor as fp16, but do not count the entirely non-negligible amount of extra bits in the bit balance. А у Жоры эти веса учитываются, так что сравнение немного нечестное. Здесь я вспоминаю стори, где студенты соревновались в написании своего архиватора. Победила команда, у которой архив оказался больше исходного файла. Но они были единственными, у которых файл можно было распаковать.
>ggerganov >it would be nice to reclaim the SOTA crown
>>890433 Хмм, глянул щас их бумаги, все еще выглядит как что то более умно сжатое чем обычный жорин к2 https://arxiv.org/abs/2405.14852 https://arxiv.org/abs/2401.06118 Но да, это аналог его 2 кванта, только с попыткой сжать все без таких охуевших потерь как в обычном сжатии, когда модель по сути сломана. Хоть и отвечает кое как. Интересно было бы сравнить обычный 2 квант и эту их версию, какая отвечает лучше и следует контексту и инструкциям. На сколько помню у обычного 2 кванта все плохо
>>890431 > мистраль большой Это и есть 123В. Вангую следующим будет релиз нового медиума. Им нет смысла держать у себя закрытые модели, куртке надо железо продавать, а не пытаться косплеить клозед-иа, который в чистом минусе уже который год.
>>890449 > На сколько помню у обычного 2 кванта все плохо IQ2_M уже терпимый, но он не лезет в 24 гига. Ближе к 3.0 bpw у Жоры уже перестают ломаться большие модели. >>890454 Медиумом. Новую версию его и надо ждать.
>>890223 Супер, кто-нибудь уже катал? >>890339 > Так-то это блидинг эдж, возможно, ещё будет. Только если рынок потребительских ллм ускорителей станет настолько большим, что ради него будет смысл разрабатывать подобную железку, это единственный юзкейс для сочетания нищечип+многоврам. Съемная рам в принципе существует лишь потому что у пользователей огромный разброс в потребностях. Для гпу же нет смысла иметь слабый гпу и много врам (кроме инфиренса ллм), связка +- фиксирована. > проваливаться такой штуке вообще поводов нет Отдельные модули тащат за собой ссаный колхоз с совместимостями, кривыми стандартами, пердолингом и т.д., ты просто не осознаешь масштаба проблем, которые вылезут. Амудэ сколько лет xmp завести пыталась, и до сих пор приколы случаются. Видюха с ними будет заведомо уступать нормальным и по перфомансу, и по цене. Пользователи будут бомбить с того что один _модульнейм_ не разгоняется, другой дает артефакты и нестабильность, а рекомендованных нет в продаже. И вообще почему покупатель должен или дополнительно что-то докупать, или платить за предустановленные плашки, которые планирует снять? Если же продавать готовые киты - проще просто сразу делать модификации гпу с разной памятью что уже имеем. Гей_мерам такое нахуй не нужно, большинству ии-релейтед задач хватает имеющейся памяти и трейдить скоростью и прайсом за это захотят не все. Для чего-то крупного - нужен оче мощный чип, где заведомо будет память. Какбы такую игрушку и сам бы хотел иметь и даже купил бы, но реальность вносит свои коррективы и надеяться не стоит. >>890520 Скорее всего на твоей, оно бы иначе просто не работало. Есть приколы, когда при квантовании или тренировки проебываются EOS токены и модель всегда генерирует заданный максимум а юзер ждет, но такое больше актуально для голого трансформерса, в беках что юзают это легко диагностируется.
>>890449 >с попыткой сжать все без таких охуевших потерь >28.4% vs 35.4% quantization error Что-то пошло не по плану.
>>890524 >разрабатывать подобную железку Так разработано всё. И будет разрабатываться дальше. Всё, что нужно - перенести компоненты с существующей pcb на видеокарту. С этим нейронки справляются, лол. Расходы на разработку околонулевые. >ссаный колхоз с совместимостями, кривыми стандартами, пердолингом и т.д. Ну да, это уже тоже пройденный этап. Самсунг топовый производитель памяти и у него есть свой стандарт. Говоришь всем придерживаться его. Готово. >Видюха с ними будет заведомо уступать нормальным и по перфомансу, и по цене. По перформансу нет ни одной причины, чтобы уступало. По реальной частоте lpddr5 ебёт gddr5-6 так, что страшно становится, но разъём позволяет. И так-то я не вижу ни одной причины, почему нельзя на такой плате распаять ту же gddr6x, лол. Это просто разъём, который позволяет эффективную передачу данных без потерь в производительности. > проще просто сразу делать модификации гпу с разной памятью что уже имеем. А, да? Где купить 3090 на 48 гигабайт? >Гей_мерам такое нахуй не нужно Ломающие новости - гей меры уже давно ноют, что куртка памяти не доложил. А рт ещё и повышает этот расход.
Хз почему говорят что новый мистраль не соевый особо. Щас тестанул сравнив в куме старый мистраль 7x8b с своими инструкциями и 22b. Так если в 7x8 уже запихали соевую гадость с защитой ниггеров. То в Немо и новом 22b уже запихали защиту от нормального кума оставив соевый вариант с самым отстойным описанием какое только может придумать сетка.
С шестого трая дал почти адекватный ответ (хотя неточностей хватает, и зачем-то продолжил нумерацию 4-5-6). В каких-то генерациях вообще говорил, что не знает Мотаро, в каких-то пытался запихнуть Гарье то в сайлентхил, то в персону3.
>>890782 Первый пик - всех выдумал, но игры знает. Мне понравился его ларп - "Based on the gameplay previews and trailers I remember seeing years ago" "Of course, being over a decade old now, my memory isn't perfect. "
На втором пике с третьей генерации вспомнил Саймона и Итана, но закосячил менханта, выдав гг первой части кликуху финального босса.
Но я думаю это вполне нормальный результат для 7 Гб модели, выдающей 27 т/с на RTX3060.
>>890807 тестировал то же самое, только получилось наоборот. exl2 лупился на 3bpw , на 4bpw было меньше лупа. а q8 все же был получше (3060 и 32 гига оперативы). Но все равно какие промпты не тестировал сетка портит любой контент который считает не этичным. И от этого либо не отвечает, либо отвечает но скупо, либо специально повторяет весь предыдущий свой ответ. Ну я сказал бы это не шаг вперед. Будет возможность юзать 6 квант мистраля кранча буду его лучше юзать чем это поделие.
>>890824 А это я так понимаю влияние принятых в ес законов об ии, жаль если модель реально лоботомировали, до этого мистраль старались так не делать Хотя, вспоминаю писали что еще в мистраль 0.2 7b был подчищен датасет
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Рейтинг моделей для кума со спорной методикой тестирования: https://ayumi.m8geil.de/erp4_chatlogs
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде
Предыдущие треды тонут здесь: