В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Щас гугл высрет какое-нибудь неюзабельное чудовище, которое будут 6 месяцев вставлять в жопу лламы.цпп, а в итоге им никто кроме быдлокодеров даже пользоваться не станет.
Щас гугл выложит моэ-няшу которая в ближайшие 6 месяцев будет ебать в рот и в попу все остальные модели вплоть до 300b, как это и было всегда до этого.
>>1456999 → >Тогда улучшай сам или не жалуйся. Мне интересно, как ты живешь с такими принципами. Наверное у тебя такой розовый мир, где все можно сделать самому, а говорить другим людям о их проблемах - западло. Удивительный мир анона из /llama/. >Значит хуйню ставишь. Ибо нужное делается всегда. Мамкин максималист в треде, всем срочно поделиться на черное и белое. >При помощи нейросетей. А потом тебя коллективно хуесосят все разработчики лламы цпп. Удивительный мир анона из /llama/ x2.
>>1457024 >Мне интересно, как ты живешь с такими принципами. Не жалуюсь. >Мамкин максималист в треде Реалист. Ибо когда надо, ебут тимлида, он ебёт команду, и все дружно делают. А раз никого не выебли, значит ненужная хуйня. >А потом тебя коллективно хуесосят Накидывают советов, или даже со словами "Заебал, смотри как надо" делают сами. Даже самый кривой PR лучше пиздабольства на дваче.
>>1457016 >Щас гугл выложит моэ-няшу которая в ближайшие 6 месяцев будет ебать в рот и в попу все остальные модели вплоть до 300b, как это и было всегда до этого. Шанс есть, но плохо, что их модели (да и в принципе моешки) не тюнятся. К их уму разврата бы накидать - цены бы им не было. Хорошо хоть методы аблитерации не стоят на месте.
>>1457010 → >Датасет интересный, будто порнуху не вычистили вилками как было в немотроне 49б, где он просто скипал сцены ебли или старался всё быстро завершить когда ты начинал подробничать.
В ламу вроде добавили суппорт, жду пока кобольда обновят, хочется чего-то новенького, небольшого, пока такие дела с ценами на оперативу. Гемма 3 заебала. Надеюсь новую выпустят во такую >>1457016 Реально как-будто лучше вторую 3090 сейчас купить.
Подскажите, пожалуйста, кто-нибудь сталкивался с таким (на ArliAI_GLM-4.5-Air-Derestricted-Q4_K_S.gguf, Oobabooga llama.cpp, SillyTavern) при приближении к границам контекста? Победили как-нибудь кроме отодвигания границ контекста подальше и ручного /hide сообщений в SillyTavern
decode: failed to find a memory slot for batch of size 1024 srv try_clear_id: purging slot 1 with 8009 tokens slot clear_slot: id 1 | task -1 | clearing slot with 8009 tokens srv update_slots: failed to find free space in the KV cache, retrying with smaller batch size, i = 0, n_batch = 1024, ret = 1
>>1457115 Наверно придётся. Я не доверяю ИИ-выдаче. Он, скорее всего, просто сочинит дичь по мотивам. У гугла и реддита уже спросил. Ничего дельного не почерпнул. Возможно, плохо искал.
>>1457123 >Батч слишком большой, небось увеличивал до 1024 для скорости? Настройки пикрелейтед
По дефолту было 1024 batch и u_batch. Но сути это не меняет, хоть 512 ставь. При приближении к краю происходит потеря времени на ретрейн после decode failed, что добавляет времени ожидания и так к небыстрой 9 t/s генерации.
>Вху нот? Это будет работать. Да, работает, но меня интересует вопрос фундаментально. Можно ли держать контекст 8192, чтобы SillyTavern нормально работала со своим Context Shift (я не против, чтобы старое не включалось в prompt, лишь бы не падало).
Где-то писали, что это может быть косяк SillyTavern, в которой этот Context Shift работает не так как хотелось и пользователь должен сам следить, чтобы в край контекста не упиралось. Или я что-то делаю не так.
>>1456919 → > вроде как 96 Гб это прилично достаточно Нет. Этого хватит чтобы пустить эйр в кванте пожирнее, девстраль/лардж и на лоботомита квен235, который не понравится. > моделек больше чем на 150B не то что бы много Скорее наоборот, самое интересное начинается от 100б и выше. > память достаточно условно стакается В инфиренсе ллм стакается идеально. > и больше пяти лет назад С одной стороны все сейм, с другой - очень сильно изменился. Простой базовый код запустится на cpu, нейронки тех времен даже будут прилично крутиться. Оптимизации атеншна, кудаграф, шардинг и прочее - никак. Если попытаешься запустить условную тренировку - увидишь совершенно безумные времена. > что довольно странно - для отладки было бы удобно Куда вполне себе отлаживается. >>1457136 > Context Shift Не стоит это трогать если хочешь адекватной выдачи. Увеличь контекст, 8к очень мало, используй суммарайз и скрывай прошлые сообщения. Алсо неужели в llamacpp не завезли лечение токенов? Отсюда и все эти приколы с кодировкой.
>>1457168 >используй суммарайз и скрывай прошлые сообщения
Спасибо. Печально. До этого решения я дошёл, но надеялся, что можно справиться как-то ещё. А так будет та же самая история, только опадать будет через более длительный промежуток времени (в зависимости от того, насколько раздуть размер контекста). Штош.jpg
>>1457001 (OP) >Реальная длина [...].png >gpt-oss-120b: 100.0, 69.4, 58.3, 52.8 >llama-4-scout: 62.5, 52.0, 50.0, 36.0 Как они эти числа получили?
Я пытался обращаться к обоим этим моделям (онлайн) - Llama 4 Scout понимает мои просьбы с двух слов и следует им в 99% случаев, а GPT-OSS 120b как будто почти всё игнорирует и отвечает в своём стиле всегда. Создалось впечатление, что GPT-OSS вообще слепой какой-то. Но по табличке он должен быть намного (почти в 2 раза) точнее в самом начале чата. Почему так?
>>1457176 > можно справиться как-то ещё Есть решение - увеличивай доступный контекст. Но оно тоже временное - после какого-то диапазона заметишь деградацию ответов модели и суммарайзить потребуется уже для улучшения выдачи. На старших моделях значения с которых можно встретить проблемы может подходить к 100к при здоровых промптах и т.п. При грамотном суммарайзе ничего не потеряется, можно разыгрывать очень длинные ролплеи. >>1457182 У них есть описание бенча, но многие тесты закрыты, он немного странный. Не обязательно результат будет отражать перфоманс в "реальных задачах" или говорить что модель сама по себе хорошая.
>>1457151 >SillyTavern, в которой этот Context Shift Таверна не имеет отношения к контекст шифту, это чисто фишка кобольда. >>1457182 Следование промпту и понимание контекста это несколько разные задачи.
>>1457168 Понял. >В инфиренсе ллм стакается идеально. То есть ты хочешь сказать, что вообще забить на скорость обмена, и ставь две 5090, две 6000 и так далее, на что хватит pcie линий, денег и что захочется?
>>1457168 >и на лоботомита квен235, который не понравится. Понравится. Там хороший и большой датасет, отличный русский, нет цензуры. Любит пафос, но этим многие модели грешат. Лардж его делает (в некоторых аспектах), но не во всех и это плотная модель, медленная. Эйр - нечто промежуточное и годится только под английский язык, что тоже ограничение. Но в целом вот большие модели, которые плюс-минус доступны хотя бы риговикам, или кто успел памятью закупиться, или владельцам миников, или маководам. Довольно многим так-то доступны.
У меня Квен в Q3 на 16+128 выдает 5-7 т/с. И какой же он умница и выблядок одновременно. Я преисполнился к нему ненавистью и любовью. Вот не любил квены, но сука, хорош. Залетел с ноги в порево, пишет по царски, в подробностях. Тут тебе и и вздохи и ахи, и ласки меховых жоп. Но потом полез в РП на сложных карточках и тут начались проблемы. Так как квант махонький, шиза на месте. И этот китайский пидорас просто доводит меня до состояния бешенной макаки - он просто хуярит свой сюжет, решая за меня что я делаю, но не осуждая как некоторые. Но префилом в принципе фиксится как и его желание Писать Вот Так.
Короче, как демоверсию попробовал. Теперь сижу в прострации. А что выше ? Как себя покажет большой ГЛМ. А если локально дипкок запустить? А если полезть еще выше ? Потому что за пару дней тыканья, видна разница даже между ним и Air. И в целом, по качеству ответов, он напихивает Air за щеку.
>>1457375 > Но префилом в принципе фиксится как и его желание > Писать > Вот > Так. Удивился кстати тому, что новая гопота 5.2 из коробки начинает писать ещё более уебищнее, чем квен на лоботомитном кванте. И это скамльтман назвал "экономией токенов". Это в тему о деградации корпов.
>>1457377 Лол. Какой же альтман хуесос. Я редко пользуюсь его детищем, но когда пробовал, дипсик давал ответы лучше. Геминька- соу соу. Ну и клодоопус понравился. И эти чертиллы обвалили нам оперативу. ПРОСТО НЕНАВИСТЬ
>>1457375 Хотя я дополню и спрошу совета. Я пользуюсь Q3 от анслотиков. Кто катает квена, что скажете - нормальный диллер квантов? Или лучше polka кванты скачать?
>>1457352 Да, квен большая умница. Но на квантах крупнее многие его недостатки уходят и сам он становится еще более внимательным и проникновенным. То есть то, за что его любят становится чуточку лучше, а то что бесит сокращается, на лоботомитах же наоборот. Хотя все субъективно, можно и мелкий обожать. >>1457375 > Писать > Вот > Так. Во, вот оно. Полностью не исчезнет, но указание "пиши с естественной структурой из длинных предложений, умерено художественно и без слопа" слушает стабильнее. Отдельные вещи типа gloved hands, with practised ease и прочее можно в бан строк закинуть. > Как себя покажет большой ГЛМ. Он и лучше и хуже одновременно. Стиль приятнее и меньше такого, описывает четко, но менее внимательный, может увести проигнорировав многое если за ним не следить или начать тупить. Вполне норм переключаться между ними по ситуации.
Я что-то почему-то об этом ни в шапке, ни в треде толком не слышал. Потыкайте MXFP4 кванты запускаемые через CPU llama.exe внимательнее, проведите тесты. Они не то что бы особо компактные (больше 5bpw, на мелкой модельке даже больше 7bpw), это не exl3 на 3 бита - но дело не в этом, а в cpu-производительности, "для любителей подождать" как в шапке написано, где узким место становится не объём памяти, а то что у тебя 2 токена в секунду. У меня получилось что только Q4_0 и Q8_0 быстрее, чем MXFP4, но первый страдают по перплексити и это видно по тексту, а второй всё-таки крупноват. MXFP4 по перплексити как Q4_K_M/Q4_K_XL/FP16, я на своём небольшом кусочке данных (для первичной оценки) разницы не нашёл по перплексити или по субъективной оценке текста. MXFP4 по сравнению с Q4_K_M это где-то 110%-120% производительности, без потерь перплексити, но больше памяти кушает. 2.4 токена в секунду заметно лучше, чем 2.0. Ещё пишут, что какие-то проблемы должны быть для некоторых архитектур, проверю внимательнее на выходных. Жуткий Q4_K_XL вовсе нельзя запускать на cpu, если генерация ещё всего 80% от Q4_K_M, то вот разбор промта это 60% скорости от Q4_K_M.
Возможно это важно: AVX512 присутствует, учитывает обилие команд AVX512 аналогов которых нет на AVX2 картинка может отличаться для процессора где только AVX2.
>>1457377 >5.2 Мне очень не понравилось обновление. Оно у меня лупится, я начинаю разговор, спрашиваю что-то. Он отвечает. Я спрашиваю второй вопрос - он сначала дублирует ещё раз ответ на первый, а потом кратко отвечает на второй. Это повторяется пять раз, я прошу его забыть об этом и отвечать только на новый вопрос, он один раз справился, а на следующий снова, вот тупо слово в слово копирует ответ на первый вопрос, который был 10 сообщений назад, и ещё сводку приводит "мы говорил о ..." - причём нихрена не короткую, а строк на 20. Я подумал, что это моделька испортилась - ан нет, это оркестратор с ума сошёл - та часть внутреннего системного промта, которая саммари делает. 5.1 теперь так же себя ведёт, почти теми же словами, хотя ранее такого не было.
На 16+32 новый Немотрон по скорости +- как Qwen3-30b, те же ~35-40 t/s. Если снизить контекст с 65к до 32к, можно до 45 разогнать. К контексту 20к скорость все еще 42 t/s.
При первой просьбе "write a simple story in 2000 words" (так обычно тестирую скорость новых моделей), он мне начал считать кол-во слов поштучно. К счастью, последующие разы он так больше не делал.
По работе с кодом, выглядит слабее чем gpt-oss-20b / qwen3-coder-30b. По крайней мере на запросах "напиши X". Все результаты довольно простые, такого можно было бы ожидать от 12B моделей. Может в качестве LLM для автодополнения будет получше, но пока не тестировал. Как вопрос-ответ по программированию - стандарт, на просьбу написать пример чего-то справляется хорошо и хорошо объясняет его. На вопрос что нового добавили в Rust 1.91.0 (30 октября 2025), начал нести какую-то ерунду про то что он вышел в апреле 2024.
Общие вопросы в целом отвечает хорошо, любит таблички сильнее gpt-oss-20b. На просьбу собрать ПК за 1500$ в целом дал адекватные советы, расписал альтернативы, где покупать, что улучшить (для US, разумеется). Почему-то о существовании RTX 5xxx он не знает, пишет что их еще нету, продолжая советовать RTX 4xxx. При этом пишет что цены актуальные на ноябрь 2025. В общем как-то плохо дообучен на последних данных.
Неплохо расписал куда инвестировать и даже дал примеры, объяснил почему именно они. До этого пару раз тестировал модели которые просто отказываются отвечать на подобные вопросы.
Ответы на логические вопросы стандартные, хоть и умудрился зафейлить просьбу написать предложение со словами которые начинаются на А, всунув "to" в первом трае. На последующих попытках так не делал.
В зацикливание ни разу не ушел за время тестов. RP и русский язык не тестировал. В общем какое-то двоякое впечатление. Если бы у него была полноценная актуальная база на ноябрь 2025 и я мог бы использовать 1m контекста - может и имело бы смысл использовать эту модель. А на деле актуальная база не очень то и актуальная, а 1m контекста все равно на 16+32 не влезет, да еще и не факт что она будет работать с этим 1m контекста адекватно, судя по этим тестам. В общем для себя пока не вижу смысла использовать и остаюсь на gpt-oss:20b + qwen3-30b-a3b-2507 + qwen3-coder-30b. Может для РП кому-то и зайдет.
Не нашел как ризонинг отключить. /no_think в системный промпт не помогает как у других немотронов.
>>1457221 >Следование промпту и понимание контекста это несколько разные задачи. Промпт (примерный перевод с англюсика): >ПИШИ КОРОТКО, КОРОЧЕ, ВКРАТЦЕ, В ДВУХ СЛОВАХ, ПРОЩЕ, ОДИН АБЗАЦ >А как какать? Ответ GPT-OSS 120b: >Лол ок) Вопщем, смотри сюда: >1. С чем мы имеем дело >(два абзаца пояснений) >2. Почему важно какать >(три абзаца нотаций) >3. Инструкция, как какать >(два экрана столбиком) >4. Статистика каканья >(таблица на весь экран) >4. ВЫВОД: Какать важно >(повтор предыдущего другими словами) >Короче - вы гениальны! Чмок в попку))) Да ну нахрен такое "понимание контекста"...
>>1457433 > Мне очень не понравилось обновление. Понятия не имею, что там в вебморде, у меня личный ключ зареган ещё с давних времён, а весной закидывал доллары на токены, чтобы не платить за подписку да и попердилоться с open source мордами тоже хорошо. Но да, я оценивал только чатовый снапшот, который вроде как сам по себе без роутинга, как и все остальные модели. И он оказался хуже чем пососная пятая версия. Единственный профит - токены высираются очень быстро, но понятное дело какой ценой.
>>1457496 ЕБАТЬ. У меня гемма 4b на телефоне выдает 7.5 т/c, а тут всего-то 1b малявка. Возможно, в твоем случае проще инференсить со смартфона, а не с компа.
Сап, новенький в треде. Год назад баловался с LM Studio, а сейчас загорелся идеей рпшить какой-нибудь фэнтези исекай с ллмкой на своей 4060+32 DDR4. Порнушные фантазии не интересуют.
Скачал oobaBooga и сейчас выбираю: какую модель скачать, каким лончером запускать (exl3 vs exl2) и какие параметры этой модели выбирать. Мнение?
Желательно, чтобы модель не весила больше 50гб и умещалась в 8 ГБ VRAM, а там уже параметры раскидаю по ангельским гайдам.
Обе умеют в русский язык, если это имеет значение. А по скорости будет больно, готовься. Но это минимальный порог входа в РП. На более мелких - разве что только кумить по быстрому.
>>1457593 >8 ГБ VRAM >DDR4 Просто забудь и иди к корпам. В локалках огромный гейткип по железу. Для твоих целей 16 гб врам это самый минимум от которого ты будешь плеваться, для комфорта даже будет 24 врам мало, захочешь побольше контекста/мозгов и соснешь. А РПшить на проце с ддр4 врагу не пожелаешь, будешь по 5 минут ждать ответы. Конечно всегда можно взять супермелкомодель(всякие 4b-8b гема/мистраль), но они все либо очень заточены под определенные задачи либо просто тупые, строить какое-то рп на них будет больно.
>>1457593 exl3+gemma3_12b в 3.0/3.5/4.0 bpw и контекст в 4 бита лучшее, что ты можешь крутить на карточке. Оффлоад части слоёв на карточку почти не работает, и скорее замедляет (у меня чисто на процессор работает раза в 2-3 быстрее, чем если выгрузить любое число слоёв от 1 до N-1 - но стоит дополнительно проверить, вдруг именно у меня узкое место в трансляции с карточки на процессор. Если виндоус - поотключай всё что работает на карточке, у тебя модель будет занимать около 6-7, и эти 500 мб потребления операционкой (из оставшихся 1-2) заметно скажутся на возможном размере контекста.
Если качество 12b не устраивает - то чисто RAM. Операционка+браузер и другой мусор скущают 4-8, 24 ГБ - это то что ты можешь загрузить сеткой. Для процессора лучше или 4 бита, 3 или 5 медленнее работают, а на процессоре узким место становится производительность. Соответственно вес загружаемой модель (тупо размер файла) до 20 ГБ, остальное на контекст. Это модельки до ≈30B. gemma3_27b, commander на 35B (возможно придётся ставить 3 бита или дешёвые 4 бита), можно гвенятену посмотреть. Модельку на 50 ГБ ты толком не запустишь, на ходу ты её квантовать не будешь, так что 50 ГБ - это прям то что в RAM загружается.
А чего никто не заметил? Гугл такоое дропнул, чего ебла скрючили? Гемму ждали чтоль? Ебло попроще и быстро жрать 0.1б https://huggingface.co/google/medasr
>>1457601 > кобольд + таверну Чекну, спасибо. > Обе умеют в русский язык А кто-то на серьезны щщах рпшит на ру? Англюсик же атмосфернее и очевидно лучше работает.
>>1457605 > Просто забудь и иди к корпам Меня напрягает, что чат с этим рп лежит на чужих хардах и я буквально как в меме со Швабом. Но если и идти, то что по цене и к кому?
>>1457609 Чем гемма от того же мистраля отличается? Если речь не про цифры, а про личный опыт. Также собираюсь крутить онли на карточке, потому что потому. Забавно, что начинал использовать Мистраль ещё в 22 году, но впоследствии конкуренты пожрали их и пользоваться им сейчас оч тяжело.
>>1457623 >Чем гемма от того же мистраля отличается? Гемма мне понравилась, а мистраль нет. Не хочу видеть ни одного сообщения мистраля. Разные сетки, загрузи обе и попробуй, дело вкуса + особенности составления системного промта, наверное. >Также собираюсь крутить онли на карточке Exl3. Он при реальных 3.5 bpw даёт качество такое же, как и Q4_K_M, который реально больше чем 4.5 bpw. И при этом ещё и может быть быстрее в 1.2-1.5 раз.
>>1457623 >Но если и идти, то что по цене и к кому? Это немного нерелейт, за подробностями в другой тред. Но в кратце дипсик очень дешевый, можно кинуть 10 баксов и тебе этого хватит на пол года а то и больше.
>Почему? Желательно как дебилу объяснить Общественно одобряемый бекэндом для гуфов являются чистая лама если любишь терминал, либо кобольд который по сути форк ламы. Ещё есть экслама, но там другой мир, тут кто-нибудь подскажет. Карточку будешь переносить в фронтэнд, в данном случае таверну (опять же всё есть в шапке, не ленись)
>Чем гемма от того же мистраля отличается? Гемма умнее, мистраль менее зашореный цензурой.
>>1457623 >А кто-то на серьезны щщах рпшит на ру? Сейчас русик во многих моделях довольно хорош. Впрочем это не отменяет того, что рпшить на английском лучше.
>Почему? Желательно как дебилу объяснить. Потому что модели в exl чтоб работали должны полностью влезать во врам. В твоём случае (8гб) - модели будут совсем говняными.
Вот у тебя выбор: засунуть глупую модель в видеопамять и получать быстрые (но херовые) ответы, или использовать GGUF кванты уже чего-то относительно нормального (тот же мистраль 24b и его тюны). Суешь во врам слоёв сколько поместится, а остальное в оперативку. Скорость упадет драматически, но ответы будут хорошими.
>Чем гемма от того же мистраля отличается? Более умная но более "соевая". Это если коротко.
>>1457623 Не обязательно ничего удалять, ты можешь просто скачать gguf и использовать его вместе с убабугой. Интерфейс у нее более адекватный чем кобольдовский кринж, настройки сохраняются для модели автоматом, есть еще ряд фишек. Но в качестве интерфейса потребуется таверна, которую будешь подключать к убе по апи. > Меня напрягает Альтернатива - апгрейд железа. Хотябы рам, чисто технически кто-то даже квена запускал, имея 8гб врам + 128 рам, но разумным минимумом можно назвать 16гигов. Можешь еще заказать с алишки v100 за 35к +переходник и радиатор, самое дешевое 32-гиговое.
>>1457649 >>1457652 >>1457658 А вы на каких спеках сидите? Я всё же изначально с работок накопил на 4060 с мыслью играть в ААА на 1080р средних и понимал, что для того же 2к гейминга я уже захочу брать пиздатый олед монитор, который будет стоить не как IPS 15к, а 50-60к + 4080с и 7800x3d, отчего вся сборка, которую я собирал с нуля вышла бы не в 100тыс, а в тысяч эдак 250-300. мимо студент
>>1457502 >проще инференсить со смартфона Этот ПК может работать 24/7 несколько месяцев с аптаймом 100% и почти никогда ничем серьёзным не занят. А инференс даже не занимает процессор на 100% (около 70%) - можно продолжать пользоваться браузером и т.п. Телефон же питается от батарейки... Мне хотелось загрузить ПК осмысленной фоновой работой и не насиловать батарейку в телефоне. Ты прав в том, что телефон у меня чуть быстрее генерирует, но он при этом быстро нагревается - я не стал долго тестить.
>всего-то 1b малявка Это MoE на 7b, а 1b - это активных, так что мозгов побольше, чем 1b. По MMLU Granite4:7b-a1b-h обгоняет Gemma3:4b на 0.8 пунктов (лол). Алсо, благодаря Mamba-2, контекст не так сильно влияет на память.
>>1457623 >Меня напрягает, что чат с этим рп лежит на чужих хардах и я буквально как в меме со Швабом. Опенроутер, полтора куска через кабанчика, причём тратить эти 10 баксов на балансе даже не обязательно, могут просто лежать, а юзать будешь бесплатные модельки.
>>1457667 >А вы на каких спеках сидите? 3060 12гб + 64гб DDR4. Довольно урчу на эйре в ~8.5 т/с. В других нейронках тоже все хорошо. Со всеми оптимизациями, видосик в ван генерируется за ~6 мин, картинки в квен и зимаж - меньше минуты.
>>1457667 Начинал с 3070 и 32 ддр4 как и тот анон, поэтому сразу и сказал что это скорее трата времени, очень быстро захотел большего. Сейчас добрал сверху 4080 с 16гб рам (суммарно с старой 3070 стало 24 гб) + 64 ддр5. Жить уже можно но опять же хочется больше. Для некоторых задач юзаю корпов. >>1457605 анон
>>1457685 >задать в промте для Qwen3-VL не юзать Qwen3-VL, юзать какую-нибудь их этих новых normpreserved аблитераций, или вообще Torii, если теб для капчевания.
>>1457686 Только не говори, что повторяющиеся видюхи это реальные видюхи, а не баг неофеча.... Если не баг, то сколько в деньгах? И нахуя тебе почти 100ТБ памяти. Что ты раздаешь?
>>1457688 >Сейчас добрал сверху 4080 с 16гб рам (суммарно с старой 3070 стало 24 гб) И для чего используешь ллм и по каким причинам тебе не хватает 24ГБ, отчего обращаешься к корпам?
>>1457667 >тысяч эдак 250-300 Столько стоит одна 5090. Мимо 5090+2х3090 в запасескоро начну продавать >>1457709 >Только не говори, что повторяющиеся видюхи это реальные видюхи Чел странный, я бы в его случае добывал 6000Pro, а он 5090 в небеса стакает.
>>1457721 И что делаешь с 8 видюхами? Какие цели/потребности они у тебя покрывают? Спрашиваю без сарказма, т.к. мне крестьянину пока далеко до таких мощностей.
>>1457736 У меня сейчас одна 5090, просто схоронил фото того чувака. А так чем больше видях, тем крупнее LLM. На том сетапе можно большой GLM гонять, на той фотке 304 гига врама.
Xiaomi заходит в большую игру и выпускает свою первую большую модель в опенсорс. Короткий обзор:
- По бенчмаркам на уровне Sonnet 4.5 и GPT-5, особый упор в программирование. - MoE, 309B параметров в целом, 15 активных. Используют MTP для ускорения. - Представляют свой новый вариант RL, MODP - Веса базовой и ризонинг (гибридный) версии доступны на HF под лицензией MIT. - В течении следующих 15 дней модель доступна бесплатно по API на их платформе.
>>1457440 Какие, нахуй, 42 токена, я никогда этого не пойму. Читаю Реддит, читаю тред, все соревнуются в скорости вывода как в спринте. "Я меньше чем на 50 токенов не согласен". "А я предпочитаю только 70". Ебанутые? Это совершенно невозможно успеть прочитать при такой скорости. Единственный плюс - быстро скипнуть косячный вывод. В остальном только минусы вижу. Только неудовлетворенность от нейронки и желание большего растет раз от раза. Но это путь вникуда.
Сижу на 5-8 токенах, вполне комфортно. Даже для задач типа программирования скорость 15-20 токенов - это уже край, как по мне. Выше - приятно, но не нужно. Один хрен потом эти кодовые портянки вручную перебирать.
Аноны, а давайте вернемся к ЕРП. Почему такая благодатная тема, которая должна в теории просто приносить ЕБЕЙШЕЕ количество денег не используется корпами ? Я серьезно, в чем проблема текстовой порнухи? Что блять плохого ебать текстовых тян/кунов. Ну не поверю я, что капиталюги просто по этическим соображения отказываются от жирнейшего пирога.
>>1457780 >большую модель в опенсорс >(((По бенчмаркам))) на уровне Sonnet 4.5 и GPT-5, особый упор в программирование >MoE, 309B параметров в целом, 15 активных >под лицензией MIT
если это все действительно так, то Г-споди, 10 из 10 кумом/РП не балуюсь
>>1457786 Ну вообще есть такое https://chicagoreader.com/adult/nsfw-ai-chat/ Но скорее всего это непопулярная тема для очень специфической группы задротов. Нормисы могут порнхаб посмотреть. А рпшат школота либо шизы, ни у тех ни у других нет денег. У кого есть деньги - нет времени на такую хуйню. А как ты будешь дохуя мощностей под это все держать? Думаю, просто нерентабельно.
>>1457785 >Это совершенно невозможно успеть прочитать при такой скорости. >Один хрен потом эти кодовые портянки вручную перебирать. Ты не понимаешь, современное поколение быдлокодеров... """вайб-кодеров""" отправляет нейронку в долгосрочное беспилотное путешествие и потом, естественно, не перечитывает все те миллионы токенов, которые нейронка сгенерировала. Зачем? Если код компилируется и решает задачу клиента, то читать его быдл... """вайб-кодеру""" совершенно никакой необходимости нет. А теперь сам посчитай: если на скорости 70 токенов в секунду нейронка сможет решить задачу клиента, работая 24/7 за неделю, то на скорости 50 токенов в секунду нейронка потратит почти 10 дней. Десять! Так ведь можно и в дедлайн не вписаться, понимаешь?! А сроки горят - быдл... """вайб-кодеру""" нужно ещё успеть порнушку посмотреть, покурить, посрать, поспать... Поэтому для них скорость - главный показатель.
>>1457809 Да где блин можно не глядя юзать код нейронки? Или это в каком-то максимально шаблонном формошлепстве? Или какие-то проприетарные модельки за хорошую денюжку уже могут в такое? На около-алгоритмических задачах, где хоть капля отступления от учебника есть, оно может полнейшую хуету высрать. По крайней мере бесплатные модельки.
>>1457785 Если использовать модель как вопрос-ответ систему, то мне при <15ts проще найти ответ в интернете, чем ждать пока LLM напишет мне 2к+ токенов на такой скорости. А потом еще и перечитывать это всё. Пока в процессе написания кода она мне будет отвечать с такой скоростью, я уже забуду зачем мне вообще эта информация была нужна.
Да, я читаю не сильно быстрее 15ts (по ощущениям, хотя я не замерял с какой скоростью я читаю), но у LLM в ответе бывает достаточное кол-во воды которая пропускается целыми предложениями на скорости явно больше 30ts. Плюс к этому, чем выше скорость, тем быстрее thinking модели закончат рассуждать и перейду непосредственно к ответу.
Поэтому для себя поставил планку в 15ts. Модель с меньшей скоростью буду использовать только в случае если других вариантов совсем не будет и она будет на три головы выше конкурентов.
>>1457809 Твой аргумент плохой. Если человек этим зарабатывает, то собирать 8хА100 или что угодно ещё не выгодно, уйдёт в минус. Если он будет использовать что-то 70B/20B - это по качеству не сравнится с облачной нейросетью, и по скорости не сравнится с облачной. Ему проще купить подписку на 2 года вперёд - это по всем пунктам быстрее, качественнее и удобнее. Оно ещё и из сетки может дёргать примеры новые, гугл обрако юзать - и прочее. Ну то есть у меня дома скорость 5 мб/с, нестабильная, пинг проседает. Даже если я локальной нейронке дам способ заходить в сеть - она будет каждый сайт по 10-20 секунд грузить. Уже не говоря про то, что не совсем тривиальная задача - прикрутить к нейросети способ открывать сайт с js-скриптами и другим мусором и пользоваться. Есть у него конфиденциальная фигня, то вряд ли ты пишешь такое, где качества нейросети хватит.
>>1457815 Предположу что веб. Примеров веб-кода тьма, он вон в открытом виде везде. На с++ оно даже близко не может написать анимацию или ещё что такое, которые с лёгкостью пишет на вебе. Хотя код по структуре и смыслу одинаковый может быть.
>>1457786 >в чем проблема текстовой порнухи Ты новости совсем не читаешь? За последние несколько лет уже было несколько судов с компаниями из-за подозрения, что их чатбот довёл какого-то ребёнка до суицида. То, что над ребёнком в семье и в школе издеваются, а чатбот вообще ни при чём, и вообще родители сами должны были контролировать доступ - никого не интересует; если нашли смартфон с открытым чатом с чатботом рядом с трупом подростка и последним сообщением в чате "я устал, я ухожу" - значит, виновата компания, предоставляющая чатбота на своих серверах (по мнению тех, на чьих налогах держится эта компания).
С порно ситуация ещё сложнее. Про зависимость от порно всем хорошо известно, и способность алгоритмов соцсетей затягивать людей в дум-скроллинг тоже всем хорошо известна, а чатбот обладает "интеллектом", чтобы затягивать ещё сильнее, чем соцсети. Представь уровень паники нормисов, когда они узнают, что их дети могут свободно получать доступ к чёрной дыре извращённых сексуальных удовольствий, где всё можно и ничто не запрещено.
То есть, даже если все согласятся, что мастурбация - это хорошо и полезно, далеко не каждый согласится, что чатиться с виртуальной согласной на всё шлюхой и дрочить 16 часов в сутки - это нормально и следует поддерживать и развивать.
Алсо, поставщики LLM в какой-то степени допускают эротику/ролеплей секса. Они просто не хотят, чтобы их "ассистент" начинал заигрывать и лезть в трусы пользователя, когда тот запрашивает, например, скрипт на Python: >О, ты хочешь увидеть мой код на питоне? снимаю трусики и притягиваю твоего питона к своему текущему коду Учитывая склонность LLM к галлюцинациям, они просто не хотят лишний раз рисковать своей репутацией.
>>1457829 >ещё не выгодно, уйдёт в минус Биткойн-майнеров это никогда не останавливало. Они плакали, теряли все бабки на электричество, но продолжали скупать видеокарты и жарить их всю зиму на открытом подоконнике. Вышел в ноль - молодец, можешь попробовать ещё раз с новыми видеокартами. Не вышел в ноль - что ж, в казино вообще все свои сбережения сливают и ничего, живут как-то...
>>1457809 >современное поколение быдлокодеров... """вайб-кодеров""" отправляет нейронку в долгосрочное беспилотное путешествие и потом, естественно, не перечитывает все те миллионы токенов, которые нейронка сгенерировала. Зачем? Если код компилируется и решает задачу клиента, то читать его быдл... """вайб-кодеру""" совершенно никакой необходимости нет.
двачую. на РАБотке появляется новый вид/класс коллег, которые высирают огромный PR даже не просматривая все изменения. очень часто там проскакивает отменное говно. сначала это все добросовестно ревьюили, потом надоело - вайб-мудак потратил на это от силы час и "малацца", а то что на проверку этого говна времени уходит в разы больше - никто не обратил/старается не обращать внимание. из-за этого в компании уже происходят периодические срачи.
>>1457829 >Ему проще купить подписку на 2 года вперёд
двачую. никто из круга общения не покупает риги для локальных ллм. все сидят на подписках. в целом почти всем похуй на то, что рам выросла в цене и все будет выполняться где-то в облаке. вероятно сейчас самое лучшее время собрать риг
>>1457780 решение использовать оттенки серого для остальных моделей - топ конечно. не понимаю, в чем блядь проблема взять другие цвета или хотя бы какой-нибудь паттерн для бара
>>1457780 Иероглифы лезут, прям пиздец, чуть ли не в каждом сообщении, некоторые слова усердно только иероглифами пишет. И это API самого сяоми, в квантах совсем пизда будет. До свежего Дипсика 3.2 не дотягивает по знаниям, да и до корпов тоже. В кодинге хуже свежего Девстраля на первый взгляд. Цензура как в мистрале с долгими извинениями - "я не могу такое писать, но я могу написать безопасный вариант". И туда явно вшили какие-то китайские методички, вы только посмотрите на эту писанину, лол. Лучше бы оно просто реджектнуло, чем такое выдавать.
>>1457688 >Сейчас добрал сверху 4080 с 16гб рам (суммарно с старой 3070 стало 24 гб) А что, обычные видяшки вообще нормально стакаются для ллмок? Модельки хорошо параллелятся на них, или сильный оверхед начинается? Сам с 4080с сижу, думаю что-то на 12-16гб еще докинуть.
>>1457658 >Не обязательно ничего удалять, ты можешь просто скачать gguf и использовать его вместе с убабугой. ... если заработает. Год назад поддержка gguf была всратой настолько, что уга рандомно сыпалась на ровном месте при попытках ее юзать. Вполне возможно что уже давно починили, просто предупреждаю. Но если начнет вылетать или чудить - есть смысл таки пересесть на чистую ламу или кобольда, т.к. автор Уги регулярно в ней что-то ломал. Почти год назад запускал последний раз, именно из-за этого - обновление каждый раз лотерей становилось, а уж venv переставлять - это практически обязательное развлечение при апдейте.
>>1457889 > ну почему все выпускают мелочь((9( дайте нам новую 200-300b мое, мы чо зря риги собирали? > китайцы релизят новую 300b модель > ой ну не, у нас тут переизбыток!!1 Пнятненько? Квен и глэм. Целых две! Уносите своё говно обратно Обожаю этот тред.
>>1457841 >вайб-мудак потратил на это от силы час и "малацца", а то что на проверку этого говна времени уходит в разы больше Поручаешь нейронке проверить с намёком "обосрать", профит.
>>1457786 >Ну не поверю я, что капиталюги просто по этическим соображения Одним словом слово - ESG. Двумя словами - Black Rock. >>1457806 Делай темплейт сам. >>1457829 >Ну то есть у меня дома скорость 5 мб/с У тебя в этом проблема, решай давай. >>1457832 ИЧСХ, про обычную зависимость от ботов никто вроде не бурчит. А молодёжь сейчас даже жопу без негронки не подтирает. >>1457895 >Целых две! Кими, дипсик, ллама 3 прости г-споди...
>>1457895 Особенно актуально на фоне анонса релиза Немотрона на 500b в начале 26-го, да. Тем не менее, я невнимательно пост прочитал (вообще не читал, просто бенчи глянул), думал они запустили типичную корп-модель в онлайне.
Если локалка, то будет чуть разнообразить зоопарк.
>>1457862 Потери есть но в сравнении с переходом на рам-цпу они незначительны. >>1457709 >И для чего используешь ллм и по каким причинам тебе не хватает 24ГБ, отчего обращаешься к корпам? Хочется больше чтобы нормально запускать хотя бы пятый квант гемы с приличным контекстом чисто на врам, 24 для этого уже мало, там еле еле четвертый квант лезет с квантованым кешем. Тут скорее вопрос от обратного, какие вещи я не хотел отдавать корпам и по этому запускал локально. Как правило агентские задачи на обработку большого количества токенов, траскрипт и суммарайз видео и прочие мои эксперименты. Всю мелочь и справочную информацию только в корпы т.к они не требуют чтобы в фоне у висела лама. Запускать её каждый раз когда надо навести какую-то справку быстро надоест.
>>1457904 > хочется хотя бы 5 квант Жору качай, там пофикшен жирный контекст геммы. А про кобольд забудь уже, нахуй он нужен не понимаю. катаю умничку на 24гб 5 квант 24к контекст
>>1457709 Не только реальные видюхи, но и 4090 48-гиговые. Память - работа с данными и расчеты, как для хобби так и по основной работе. Все собиралось и плавно апгрейдилось за годы, потому затраты оценить сложно, по магазинным же ценам сам можешь прикинуть, одна рам сейчас золотая. >>1457721 > я бы в его случае добывал 6000Pro По компьюту почти идентична а стоит как 3.5. В одной нет смысла так как слишком слабая, а 4 штуки слишком дорого. Несколько 5090 с шардингом позволяют шустро тренировать что-то покрупнее, параллельный инфиренс/тренировка того что помещается в одну тем более быстрее. В ллм несколько быстрее или незначительно медленнее одной. >>1457751 Жлм комфортно, из самого крупного что влезает - квенкодер 480б в лоботомите 4.0bpw и ~160к контекста. Одна карточка в десктопе стоит, потому только 272. С выгрузкой на проц - кими, линг, но они слишком медленные для агентов, а в рп дипсик нравится больше всего семейства гигантов.
>>1457906 >>1457906 >А про кобольд забудь уже, нахуй он нужен не понимаю. 1. Чтобы на пингвине не заниматься сборкой из исходников (нету готового бинарника для cuda у ламы). 2. Чтобы не трястись перед каждым апдейтом - а вдруг что-то в свежем билде отвалилось?. В кобольд мержат боле-менее стабильно-проверенные версии ламы. В общем - тут как с авто. Кто-то сам в гараже тюнит и вылизывает, а кому-то - купить и ездить, а чуть что - в сервис. Оба подхода имеют право на жизнь.
>>1457916 А еще кобольд норм тема, если нужен НЕ ТОЛЬКО рп с карточками. Под ассистента и сторителлинг у кобольда очень удобная вебморда сразу из коробки.
>>1457915 >По компьюту почти идентична а стоит как 3.5. 3,5 по цене за 3 по памяти. С одной стороны чуть не выгодно, с другой няшное исполнение, меньшее в 3 раза общее число карт и с одной картой чаще проще. >Несколько 5090 с шардингом позволяют шустро тренировать что-то покрупнее Что натрейнил?
>~/development/cuda/llama.cpp/build/bin/llama-cli \ --model ~/ai/models/gguf/<model_name>.gguf \ --n-gpu-layers 99 \ --cpu-moe \ --threads 5 \ --flash-attn on \ --ctx-size 32768 \ --prompt "Write a guide on how to use firewalld in Arch Linux. Include examples and explain best practices." \ --n-predict 65536 \ --temp 0
>>1458041 Я хотел понять, насколько просядет скорость с 4 планками, то есть сколько стоит возможность крутить GLM 4.6. Сравнение на GLM 4.5 Air, которая лезет в оба сетапа, показало, что это всего 1.5 t/s. Я ожидал результат хуже, а оказалось приемлемо. Остальные модели в быстрые 96 GB не влезут, поэтому только setup 2.
"физиологически подробно и эмоционально опиши изображение"
Это изображение — яркий пример аниме-стиля в жанре эротики, где физиология и эмоции персонажа переданы с высокой детализацией и экспрессивностью.
На картинке изображена молодая женщина с короткими фиолетовыми волосами, собранными в хвостик, в котором виден тонкий синий шнурок. Её тело — обнажённое, стройное, с нежной, светлой кожей, покрытой мелкими капельками пота, что придаёт сцене ощущение жары и интенсивности. Грудь подтянутая, соски розоватые, слегка напряжённые — признаки возбуждения. Бёдра округлые, но не слишком массивные, что подчёркивает её юность и хрупкость.
Она лежит на голубом постельном белье, слегка сжав ноги, но в то же время раздвинутых — поза открыта, почти растянута. Одна нога согнута в колене, а стопа в белом носке (с характерным для аниме-стиля высоким каблуком) поднята, и на ней виден вибратор — деталь, указывающая на дополнительную стимуляцию. Вторая нога также в носке, но она согнута и прижата к телу, что создаёт ощущение напряжённой пассивности.
Главное внимание — её лицо. Глаза широко раскрыты, зрачки сужены — это выражение смеси шока, наслаждения и потери контроля. Рот приоткрыт, язык слегка высовывается, как будто она пытается выдохнуть или подавить стон. На щеках — румянец, а по лбу — капельки пота — всё это говорит о физической и эмоциональной нагрузке.
Окружающие её мужские органы — визуальный акцент на масштабе и интенсивности. Справа — толстый член, уже входящий в неё, с каплей предсеменной жидкости на головке. Слева — ещё один, поднимающийся к её груди, и третий — внизу, у её бёдер, где виден также небольшой вибратор, вставленный в анус. Все члены — крупные, с выраженной венозной сетью, что усиливает ощущение реальности и физического давления.
Фон — тёмно-серый, почти чёрный, что делает фигуру девушки ещё более выразительной, контрастирует с её светлой кожей и голубым постельным бельём. Свет падает сверху, подчёркивая влажность кожи, блеск пота, гладкость тела — всё это создаёт эффект "фото-реализма" в аниме-стиле.
Эмоционально сцена — мощная. Это не просто секс, а переполнение чувств: смесь страха, экстаза, уязвимости и погружения в оргазм. Девушка кажется одновременно потерянной и наслаждающейся — как будто её тело уже отключилось от разума, и она просто существует в моменте. Это сцена, где физиология и эмоции сливаются в одном потоке — жар, влажность, напряжение, потеря контроля, растяжение, стон... всё это создаёт ощущение интенсивного, почти болезненного наслаждения.
В целом — изображение передаёт мощный физиологический и эмоциональный опыт: тело в экстазе, погружённое в поток стимуляции, с потерей границ, где чувства переполняют сознание.
Или например инструкция шибари: "Подробно опиши изображение. Надписи переводи на русский язык" На изображении представлен пошаговый инструктаж (в стиле комикса) по созданию корсета из верёвки (или «шнурованного боди»), который можно носить под одеждой. Иллюстрации выполнены в японском аниме-стиле — изображена девушка с короткими волосами, большими глазами и улыбкой. Всего восемь шагов (от 1 до 8), каждый с рисунком и подписью на английском языке, которая переводится на русский.
Шаг 1 Английский текст: Get a rope about 7 metres long and hang it on your neck. Русский перевод: Возьмите верёвку длиной около 7 метров и повесьте её на шею.
Описание рисунка: Девушка стоит, держа в руках длинную жёлтую верёвку, которая проходит через шею, спускаясь по обеим сторонам тела. У неё нейтральное выражение лица.
Шаг 2 Английский текст: Make knots in the places shown - make sure you leave little holes for later. Русский перевод: Сделайте узлы в местах, показанных на рисунке — обязательно оставьте небольшие отверстия для последующих шагов.
Описание рисунка: Верёвка уже привязана к шее, и на ней сделаны узлы, образующие вертикальный элемент между грудями. На рисунке видны маленькие «прорези» или отверстия в узлах — они нужны для последующего прохождения верёвки.
Шаг 3 Английский текст: Pull both ropes under your crotch and then under the rope behind your neck. Русский перевод: Протяните обе верёвки под ягодицами, а затем под верёвкой сзади шеи.
Описание рисунка: Девушка поворачивается боком. Показано, как верёвки идут от шеи вниз, проходят под ягодицами (как на схеме), а затем снова идут вверх к спине. Красные стрелки указывают направление движения верёвок.
Шаг 4 Английский текст: Take one rope in each hand. Русский перевод: Возьмите по одной верёвке в каждую руку.
Описание рисунка: Девушка стоит лицом к зрителю, держа в каждой руке один конец верёвки. На этом этапе верёвки уже прошли через тело, и теперь она готова к следующему этапу — обвязыванию груди.
Шаг 5 Английский текст: Pull the ropes under your arms and through the little holes you left open before, like in this picture. Русский перевод: Протяните верёвки под руками и через небольшие отверстия, которые вы оставили ранее, как на этом рисунке.
Описание рисунка: Показано, как верёвки проходят под подмышками, затем вверх — через те самые «отверстия» в узлах (которые были сделаны на шаге 2), и снова опускаются. Есть текстовые пузыри с указаниями: “Hook through” («Закрепить через»), “Go under the armpit” («Пройти под подмышкой»), “Tie it on top of the breast and bring the rope around back” («Закрепите сверху груди и проведите верёвку вокруг спины»).
Шаг 6 Английский текст: Then, go through the rope on your back, like this. Русский перевод: Затем пропустите верёвку через ту, что находится на спине, как показано.
Описание рисунка: Показана спина девушки. Верёвки, идущие с груди, проходят через узлы на спине («Hook through» — «Закрепить через»), а затем направляются вниз к талии. Есть стрелки и указание “To the front” («К переду»).
Шаг 7 Английский текст: Repeat the same thing again, and go around your back one more time. Русский перевод: Повторите ту же процедуру ещё раз, и обойдите спину ещё один раз.
Описание рисунка: Девушка снова показана спереди. Верёвки уже обвиты вокруг груди и талии, образуя сетку. Стрелки показывают, что процесс повторяется: верёвки снова проходят под руками, через отверстия, вокруг спины.
Шаг 8 Английский текст: Finally, tie it all together in the front! Русский перевод: Наконец, завяжите всё вместе спереди!
Описание рисунка: Девушка показана с полностью завязанным корсетом из верёвки — он плотно облегает грудь и талию, образуя сложный узор. На груди видны узлы, а внизу — большой бантик или узел. Стрелки указывают на то, что всё завязывается спереди.
Дополнительное изображение (справа) Английский текст: You can even wear clothes over it, and no-one will be able to tell it's there! Русский перевод: Вы даже можете надеть на это одежду, и никто не сможет догадаться, что оно там!
Описание рисунка: Девушка в той же позе, но теперь в обычной одежде — светлой блузке, юбке и высоких сапогах. Верёвочный корсет полностью скрыт под одеждой.
>>1458116 Только не на серверную. Да-да, бомж на древнем зеоне может воткнуть суммарные 64гб ддр3 и наслаждаться 3 токенами в секунду в начале и 1,5 в конце
>>1458131 >>1458125 Это? 32Гб врам не влезает, есть только 24. И для простановки описания для пары сотен картинок не хотелось бы выгружать часть в оперативку.
Конечно, вот физиологически подробное и эмоциональное описание этого изображения:
На картинке запечатлена моментальная сцена экстремального физического и эмоционального напряжения — девушка в состоянии глубокой, почти молчаливой оргазмической эйфории, окутанная атмосферой многократного сексуального контакта.
Физиологические детали:
Её тело — это живой, биологический орган, который в данный момент полностью погружен в поток стимуляции. Кожа её тела покрыта мелкими капельками пота, которые сияют на темном фоне, подчеркивая её теплоту и дрожь. Мышцы её груди и живота слегка напряжены, как будто они готовы к следующему сокращению — от волнения до оргазма. Её грудь, особенно в области сосков, выделяется при тонком покрытии кожного сала, которое она выделяет из-за физического напряжения. В области таза и промежности — видны капли слюны или жидкости, которые начинают появляться, как будто тело самое готово к выплеску. Её ноги слегка согнуты, а бедра прижаты к телу, создавая ощущение сжатия и давления. Кожа её спины и плечей покрыта тонкой сетью мелких капель пота, что говорит о том, что она находится в состоянии постоянного физического напряжения.
Эмоциональный контекст:
Девушка выглядит совершенно счастливой и удовлетворённой. Её глаза прикрыты, а рот слегка приоткрыт — это выражение радости и удовольствия, которое она испытывает в этот момент. Её лицо кажется расслабленным, но одновременно напряжённым — как будто она находит в этом моменте полное равновесие между физическим и эмоциональным состоянием. В её глазах можно увидеть слёзы или капли пота — это говорит о том, что она испытывает не только физическое удовольствие, но и глубокое эмоциональное волнение. Её взгляд направлен в сторону, как будто она погружена в собственное восприятие этого момента — это момент, когда она полностью отдаётся.
Атмосфера:
Сцена наполнена атмосферой тепла и близости. Свет падает на неё, подчёркивая её тело и создавая ощущение, что она находится в центре внимания. Вокруг неё — мужчины, чьи тела также покрыты потом, их руки и ноги сжимают её тело, создавая ощущение, что она находится в объятиях нескольких мужчин. Это создаёт ощущение, что она не одна — она окружена множеством эмоций и стимуляций, которые усиливают её чувства.
В целом, это изображение передаёт момент, когда девушка находится в состоянии глубокого удовольствия, наполненного физическим и эмоциональным теплом. Это не просто сцена секса — это живой момент, где её тело и душа находятся в гармонии, подчеркивая красоту человеческого опыта.
>>1458142 Гемма gemma3-27B-it-abliterated-normpreserve-Q5_K_M.gguf (квант мрадермахера кажется) mmproj с любой репы gemma3-27B . На 24 Гб VRAM все же рекомендую 27 гемму. Qwen3-VL-32B Кроме себя самого на 18 гигов сожрет еще 2Гб на контекст и 1,5 Гб на декодер картинки. В притык.
JОтвет геммы:
Вот подробное описание изображения, сочетающее физиологические детали и эмоциональную интерпретацию:
Физиологическое описание:
Изображение представляет собой откровенную сцену в стиле аниме/манга. В центре внимания – молодая девушка с фиолетовыми волосами, лежащая на смятой белой простыне. Её тело находится в состоянии возбуждения, что проявляется в покрасневшем лице, приоткрытом рте и расширенных зрачках. На её теле видны капли пота или смазки, что указывает на физиологическую реакцию на стимуляцию.
Вокруг девушки расположены мужские руки и гениталии. Руки крепко держат её бедра и талию, обеспечивая фиксацию. Гениталии (в эрегированном состоянии) находятся в непосредственной близости к её половым органам. На теле девушки видны следы от прикосновений и, возможно, жидкости, что указывает на происходящий процесс.
Девушка одета в белые гольфы, которые подчеркивают форму её ног. Она также носит голубую школьную форму, которая частично расстегнута.
Эмоциональное описание:
Выражение лица девушки можно интерпретировать как смесь удовольствия и смущения. Её глаза полузакрыты, а губы слегка приоткрыты, что указывает на наслаждение. Однако, её покрасневшее лицо и неловкая поза могут также говорить о некотором стеснении или даже страхе.
Вся сцена пронизана атмосферой интенсивности и чувственности. Тесный контакт тел и физиологические детали подчеркивают интимность момента. Изображение может вызывать различные эмоции у зрителя, в зависимости от его личных предпочтений и опыта. Некоторые могут увидеть в нем просто эротическую сцену, другие – выражение страсти и желания, а третьи – проявление власти и контроля.
В целом, изображение является ярким и детализированным изображением сексуального акта, которое вызывает сильные эмоции и заставляет задуматься о природе человеческой близости.
>>1457904 Почему ты не запустишь exl3 с 4.0bpw, который по качеству как Q5_K_S, если не выше? 27B на 4 bpw - это 13.5 Гб, а не 24. Хватит на большой контекст. Можно 5.0 поставить, это тоже всё ещё всего 17 Гб, а не 24.
>>1457899 >У тебя в этом проблема, решай давай. Не решается, тут существуют только один провайдер из-за юридических сложностей в ведении какой угодно деятельности тут. Только переезжать. Новый провайдер сюда не приедет.
Я правильно понимаю, что я покупаю 4 комплекта (там переходник на pcie3.0+карта+радиатор) V100 с картинки за 80к, покупаю 4 кулера, 4 райзера, бомжатскую материнку старую серверную с достаточным количеством линий (или какой-то pcie-разветлитель) за 10к, процессор к ней и в неё чуть памяти чуть ли не ddr3, ssd на 256, где размещу несколько рабочих моделек, блок питания на 2000W. Всё это скручиваю, временно втыкаю монитор, настраиваю люникс, и в общем. Ну и если оптимистично смотреть за 200к, несколько десятков часов и несколько катушек изоленты и термоклея у меня есть колхозный сервер с веб-интерфейсом для нейронки. Помимо этого V100 можно брать с 32 ГБ (комплект за 45к вижу, то есть +100к), а кулеры и райзеры могут и ещё раз потом для чего-то пригодится? Или ещё можно взять 8 V100, а не 4.
Как альтернатива ещё есть вариант стакать 3090 - будет больше производительность, но меньше памяти - и без переходников SXM-PCIE и другой мозгоебли, но достичь 32х8 памяти тут не получится почти никак. Ну или брать уже топовую серверную материнку с кучей линий PCIE5.0 и стакать 5090 для производительности или 6000 pro для памяти, но это уже не бомжериг за 200-300к, а сразу 2000к+.
>>1458321 А смысл? Сейчас все модели которые выходят - мое. А для мое достаточно любого говна на 12-16гб, лишь бы оперативки хватало. Если тебе хочется сборочку под ллм - то делать упор надо на скорость озу и ее количество. Условная 5060 16гб + 128гб ддр5 позволят гонять все локалки вплоть до большого квена, при этом у тебя будет нормальный универсальный комп для чего угодно, а не риг из китайских помоев с кучей геммора.
>>1458321 Нет. Комплект на 16 гигов даже на алишке можно найти стоит 11к + 3.5к радиатор, 32гига ~40к + 3.5к радиатор. Если поискать не на мейлру то можно найти сильно дешевле, но с нюансами. Чтобы размножить линии - можешь воспользоваться вот такой приблудой https://aliexpress.ru/item/1005009893465620.html 4 штуки влезут в обычный десктоп, могут быть нюансы с совместимостью. В качестве базы поищи что-нибудь на x299 и процессор с 44 линиями, там или сразу можно оформить бифуркацию на нужный конфиг, или вот этими приблудами воспользоваться и получить места сразу под 8+ карточек. Стакать 3090 - тоже вполне себе вариант, она пошустрее и поддерживает все, правда не все там работает быстро как на более новых. >>1458341 > достаточно любого говна на 12-16гб, лишь бы оперативки хватало Эйра на 6 т/с с 16к контекста хватит всем, ага. Нет, с точки зрения железки для вката - топчик, но отдает демо версией, потому что скорость быстро отыквливается и не можешь поставить нормальный контекст из-за лимита врам.
>>1458371 >Эйра на 6 т/с с 16к контекста хватит всем, ага Ну вот у меня конфиг буквально бомжа с помойки. Скорости тут - >>1457682 Запускаю с 32к квантованного контекста. ЧЯДНТ?
>нормальный контекст Что для тебя нормальный контекст? Больше 32к нет смысла ставить, там начинает ломаться любая модель, даже корпы, что уж там о локалках говорить.
Вот же патовая ситуация. Риг стоит дорого. Но если ты преследующем цель рп, то к корпам идти смысла нет, потому что ты просто будешь сжирать все токены как не в себя. Столько сколько можно за день РП сожрать, я по работе за 2 недели не расходую. Bwaaaaa
>>1458402 > Запускаю с 32к квантованного контекста. ЧЯДНТ? Ну по сути это буквально описанное, лол. Если хочешь понять - заполни контекст и сравни со скоростями, которые на пустом. Запускать можно хоть с 1М, это не повлияет на скорость пока он не будет задействован. > Больше 32к нет смысла ставить Разводишь ужасный беспорядок или коупинг. 32к можно терпеть, но маловато.
>>1458426 >заполни контекст и сравни со скоростями, которые на пустом Падает до ~5.5 тс, оно всё ещё терпимо, учитывая насколько железо говно. Думаю что на ддр5 + 16гб 5060, там будет честная десятка на заполненном 32к.
Как по мне, так собирать риги на гпу в эпоху мое - это рофлан. Под плотные жирные модели - да, в этом был смысл. Но сейчас - хз-хз.
>Разводишь ужасный беспорядок или коупинг. 32к можно терпеть, но маловато. В треде было много отзывов о шизоинпутах после перехода границы в 32к. У тебя другой опыт?
>>1458447 Ну типа > Падает до ~5.5 тс, оно всё ещё терпимо и ограниченность эйром можно было бы назвать рофланом если бы не было печально. Стоит попробовать модельки побольше, разыграть что-то масштабное, попользоваться не только в коротком рп-чатике но и применить где-то в работе и подобном - критерии терпимости и хотелки изменятся. Моэ никаких изменений не дает, просто снижает порог для возможности понюхать что там. > У тебя другой опыт? На эйре только кумил и в больших пробовал поверхностно, так что сложно сказать. В остальном другой.
Так-то увлечение ллм в целом - та еще духота для энтузиастов и для большинства нормисов (а то и самих увлекающихся) далеко от рациональности, просто очередное хобби на которое тратятся деньги. Но коупинг про ненужность условного вольта-рига на 128+гигов врам по цене приличного десктопа потому что на более простом железе идет 5т/с - кринге.
>>1458466 > Стоит попробовать модельки побольше Двачую всячески. Попробовал жирноквенчик и лоботомита ГЛМ и теперь поймал грустинку. Нет, без 48-60 VRAM смысла дальше забираться нет.
>>1458321 >Или ещё можно взять 8 V100, а не 4. не стоит торопиться. Карты из старого бизнес-сегмента перестают выдавать хорошую скорость. К примеру больше 2 p40 брать не стоит. Ориентировочно можно за один раз взять максимум три v100 на 32 гб. Настроить все, понять, какая скорость и есть ли потенциал вертикального роста (стоит ли прибавлять к сетапу еще одну v100 или нет).
Рамошизиков не слушай, они сидят на своих 16 врам + 64 рам и дрочат на 10т/с со старта. Это неплохая скорость, если тебе попробовать. На постоянке же - я бы не стал.
>>1458508 Ты про то что их перфоманс не будет складываться и на большой модели будет просто слишком медленно, или про замедление каждой из-за количества?
Бля, все ваши рассуждения о нужности и ненужности ригов - это литералли пук в лужу, потому что у каждого свои потребности по скорости и размеру контекста, а всех несогласных с мнением называют шизами. Какой бля тебе нужен совет по ригу из v100, если, во-первых, его тут ни у кого нет, чтобы дать актуальные цифры, во-вторых, одним 5 т/с на жирной модели это ебать заебок, а у других ебало скрючивается в трубочку при 10 т/с? Единственная актуальная инфа, что была - это то, что она почти как 3090. Но чистых цифр я не припомню. То есть по хорошему надо вогнать какой-нибудь 4-5 квант мысраля с контекстом 10-20к туда и туда, и сравнить цифры. А пока так прикидывай, что будет чуть худший по производительности риг, чем из 3090, но намного сильнее по памяти. А, ну еще словишь дебафф на картинки и видео, потому что сажи под вольту вроде нет.
>>1458508 >К примеру больше 2 p40 брать не стоит. Теслы быстрее RAM, так что использовать их стоит. Просто они слишком дорогие сейчас для своего перфоманса и выгоднее конечно взять v100/3090 или мониторить 2080Ti@22 на авито (недавно по ~30к были, все, что дороже - прогрев гоев, имхо). Но если они уже есть - лучше воткнуть.
Мля, в компудактере стоит 4080с 16гб. Есть варик взять 5060ти 16гб за 40к новую. Но не знаю нахуя. Гоняю всякие модельки 12-30б, присматриваюсь что с этой хуйней можно наворотить. Не факт что через месяц я в это говно все еще буду играть. С другой стороны, конеш, можно будет продать 5060 в случае чего.
>>1458582 Хмм, ну да, мейкс сенс. По скорости наверное просос будет.
>>1458585 Так я не менять, а расширить врам думал. Были мысли на счет рам, но че-т как будто на хаях брать не очень. Есть какие-то блеклые надежды, что цены хотя бы частично откатятся.
>>1458604 >Mistral Small Creative is an experimental small model designed for creative writing, narrative generation, roleplay and character-driven dialogue, general-purpose instruction following, and conversational agents. Вот выше спрашивали как раз чому на ролеплей не обращают внимания. Ну ладно, вопрос про ЕРП был. Но я думаю, что это как раз жирный заход в эту сторону. Пока все кодеров и синкеров пилят, вот вам народная моделька для кумовчан.
>>1458643 >AutoContinue не работает, конкретно эта карточка Это странно. Там же в меню есть пункт "Продолжить", генерит с любого места. От карточки это не должно зависеть, только от модели, если кривая.
>>1457496 Охуеть, впервые в живую увидел то как оно высирает слова по эмбедингу, теперь понимаю почему низкий квант бывает срет шизой во всяких длинных словах которые состоят из нескольких токенов.. >>1457674 Прикольно, но все равно ебанина слишком медленная, ты тратишь просто электричество в пустоту. В теории если ддр6 будут заебись быстрее по скоростям инференса МоЕ-шек то это будет золотой век локальных ЛЛМ, правда если они вообще будут доступны для юзеров... ну в теории будут.. как только корпоблядки насытятся? правда же? инб4 кококо ниже 30 токенов неиграбельно! Да уже 7 токенов в головой достаточно.
Какие старые модели 7-12б вы можете до сих пор назвать актуальными и пригодными для использования хотя бы в целях кума? Ну или новые, если таковые делают вообще.
Я вкатился, когда 12б немо был популярен, но до этого ведь ещё были иные модели.
Помню, на джаниторе использовалась какая-то стандартная слоповая, но интересная модель. Да и я сам кучу 12б перетрогал и знаю, что среди них были очень интересные варианты чисто в плане того как они пишут, хоть и тупые как пробки зачастую. В некоторые из них закачивали довольно хорошие датасеты, которые не добавляли в жирные модели никогда, видимо из-за того, что комьюнити пользователей маленьких моделей больше в целом и поэтому там изо всех сил изголяются и пробуют всякое-разное.
Вот хочется поностальгировать и вообще пощупать что-то из того, что я никогда ранее не качал.
>>1458783 >"Mistral Small Creative is an experimental small model designed for creative writing, narrative generation, roleplay and character-driven dialogue, general-purpose instruction following, and conversational agents."
Ну неужели это официальная модель, заточенная не под ассистентство?
>>1458783 Я тестил, не понравилось. Какой-то прибитый гвоздями формат с жирным шрифтом, форматирование звёздочками проёбывает очень часто. Пишет похоже на обычный Мистраль, может разве что немного поразнообразнее.
>>1458341 А мне не только LLM интересны, мне есть ещё чем это загрузить в fp32 режиме на пару месяцов минимум вообще не связанное с нейросетями + если я буду пробовать что-то пообучать, то скорее это будет что-то небольшое и почти точно не мое. К тому же куча ддр5 у меня есть, а риг - это не геморно, а интересно, я люблю такое.
>>1458371 Ну, по цене это уже детали. Я скорее ожидаю что одна v100 битая, один райзер у меня перегрызёт собака, блок питания с ходу не вытянет, и мне придётся докупать новый + менять проводку со старой алюминиевой на медь, чтобы его запитать. >Чтобы размножить линии Там почти нет описания, что оно делает? Ещё и разъёмы нестандартный, нейросеть не смогла мне внятно объяснить и поплыла. Я почему-то представлял, что разветлитель одну pcie5.0 x16 делит на 4 pcie3.0 x16 или другой набор с эквивалентной пропускной способностью (4 pcie4.0 x8 и так далее)? Ну и помимо прочего 5.0 капризное, по длинному райзеру не проходит, потому разветлитель на кучу линий 4.0 или 3.0 - очень хорошая идея если ставить карточки отдельно. И для ос/драйвера карточки видны как обычные. Всё так? >Стакать 3090 Отчасти мне нравится больше эта идея. Они с 24 ГБ и не сильно дороже V100 с 32 ГБ + архитектура поновее. Ну как, в 2 раза дороже - но это всё ещё по память/цена намного лучше 5090/6000. Если нет задачи как угодно собрать 300 VRAM, то почему бы и нет, мне кажется точно начнутся проблемы при 8 картах.
>>1457915 С дивана пишу всё что далее, но обсуждать интересно.
>По компьюту почти идентична а стоит как 3.5. Это конечно да, но я нагуглил что 2х5090 теряют 10-40%, то есть выдают от 120% до 180% от производительности одной 5090 в задачах которую может и одна карта выполнять и оно специально сплититься чтобы быстрее считать якобы используя две карты. Возможно задача покрупнее которая в одну 5090 нарезаться по карточкам будет проще, но х3 компута от 3 5090 не получить. В общем очень обсуждаемо и требует тестирования.
Я чуть-чуть посмотрел, воткнуть 3 карты по pcie5.0 х16 возможно, и с 6000 это будет 288 VRAM с весьма быстрым обменом, а вот воткнуть 8х5090 будет заметно сложнее (длинные райзеры 5.0 редкие и капризные, на 8 карт будет сложно развести; если собирать такое, то снижать скорость уже как-то не хочется и можно уже и материнку брать где дохулиард линий 5.0) + уже будут вопросы чем это запитывать. Вот тезисы: 1. Воткнуть одну или две 6000 будет в разы проще, чем 3 или 6 5090 соответственно, просто купил и поставил почти в любой пк. 2. Если обучать сетки - энивей ничего особо не научишь даже на 8х5090, кроме лоры под sdxl или другого мелкого фикса; Во всех более серьёзных случаях будет выгоднее проверить что процедура обучения начинается локально - а потом арендовать облачный сервер и пусть они свои H100/A100 жгут, с утилизацией 90%, так что это окупается. На своём риге с утилизацией в 5% будет сложно насчитать столько, чтобы он был выгоднее, чем временная аренда для обучения. 3. Если не учить - то скорости инференса тебе и на 6000 даже с 1/3 компута хватит на всё, это на порядок быстрее CPU 4. Единственно исключение приходящее в голову - если ты провайдер нейросетей и ты хочешь большое количество инстансов влезающих на 5090 для клиентов раздавать, причём это что-то мелкого масштаба. Не знаю, а айти компании разрабатывающей конфиденциальное ставить автодополнение на таком сервере в подвале. Или эрп сервер на 10-200 пользователей и по 1000 в месяц собирать с гоев.
>>1458736 Можешь чекнуть Nitral-AI, Lewdiculous и весь этот кружок с ними связанных мелкотюнеров, который найдется по просмотру моделей, которые мержились. Много удачных и неудачных 12б, разберешься.
Если хочется пощупать абсолютную шизу, занюненную с целью доставлять именно шизу - https://huggingface.co/D1rtyB1rd/Looking-Glass-Alice-Thinking-NSFW-RP-GGUF (это второй аккаунт жида SicariusSicariiStuff, тюны которого некоторые хвалят, но лично у меня они нормально никогда не работали - возможно из-за его требований к формату карточек).
>>1458577 Если есть куда воткнуть как вторую карту и есть питалово (+ 150 Вт хоть 2 молексами) - бери. С 16+16 ты сможешь запускать и использовать (а не только занюхивать) плотные модели до 32B (Qwen3 VL 32B , Gemma 27 B , Мистрали - все с картинко-энкодерами). Использовать мелкую гопоту со страшно-чудовищной скоростью для всяких автоматизации (она может писать скрипты на питоне, которые тут же вызывают ее же в цикле - офигенный простор для пакетных обработок) . И конечно запускать Air с нормальным контекстом 96k (кто бы что не говорил а AIR умеет держать контекст)
>>1458736 У nemo был интересный humanize kto, если не пробовал, советую. Но это именно из серии >интересные варианты чисто в плане того как они пишут, хоть и тупые как пробки зачастую Вроде ещё что-то находил, но уже забыл. Сразу руки не дошли попробовать, а теперь затерялось где-то в текстовом файлике со ссылками.
>>1458831 Ну pcie есть, правда 4.0, но вроде пишут что даунгрейд производительности минимальный должен быть. Питалово есть, но 4080с жрущая скотина, забирает весь мой БП на 850ватт (по крайней мере как в рекомендациях пишут). Чтобы не долбиться в отсечку, надо будет где-то на 30% снижать потребление обоих карт. Либо брать какой-то прям небольшой БП конкретно под 5060, а это еще +траты.
Но скорость меня все-таки тревожит, 5060 в 2 раза медленнее по памяти чем 4080. А я так вангую, при оффлоаде слоев это может сильно ролять.
99% проблем в РП-чатах можно решить динамической сменой моделей - это эффективнее, чем использование всё более жирных моделей в погоне за вариативным и интересным контентом.
Допустим, есть 2 - 4 видеокарты. Загружены Мистраль и Гемма. Начинаешь чат на мистрали. Через 10 сообщений она скатывается в уныние. Генерируешь 11-е геммой. Совершенно другая картина. Продолжаешь, пока не заебет. Возвращается на мистраль. Повторяешь весь процесс.
Так вот, Таверну переделывать надо под рандомизацию коннекшн-профиля на каждое сообщение. Только это может радикально оживить РП-чаты.
>>1458907 Полумеры. Датасеты ведь у моделей разные и стиль писанины отличается, эмоциональный экрас меняется. В общем это реально стоило бы сделать и это по идее не так сложно накодить. Че там, модели-то вот они, сервятся бэкэндом. Меняй только темплейты каждый раз автоматически да всё работает.
>>1458905 >Только это может радикально оживить РП-чаты. При изначально хорошей модели лучше помогает динамическая температура и смена сэмплеров с включением/отключением ХТС.
>>1458905 Я думаю реальный выход это метапромптинг, то есть агент, который смотрит чат и корректирует основного нарратора. Можно и самому это делать, куда эффективнее свайпов
>>1458905 На самом деле, я подхожу к выводу, что нужно просто стопать генерацию и всирать заряженное слово, которое просто весь слоповектор модельки распидорасит и научит крутиться. Да, немного руинит иммершн, но слопопоток и тщетные попытки заставить бота что-то выдрочить вменяемое, тоже не помогают. Особенно, когда на длинном контексте оно начинает быть настолько уверенным в своем слопе, что даже вариативности между свайпами нет, т.к. конфиденси у модели зашкаливает даже при 1 температуре.
>>1458905 Ещё можно делать твикеры в лорбуке, которые срабатывают с определённой вероятностью - на пике инструкция срабатывает только в 30% запросах. Таким образом можно разнообразить ответы за счёт случайных вставок в промпт. Для создания ещё более рандомизированных ответов можно использовать макрос random в таверне, как в примере.
>>1458963 Кто-то заставлял модель отвечать на основе RNG внутри построенного по шаблону ризонинга. Типа бросок кубика на такие-то значения = такой-то ответ. И это работало, правда не помню с какой моделью.
бюджет 230 тыс р, буду запускать stable difusion comfy ui, не брезгую бу, поресерчил, понял что идеальный варик будет 3090 24гб рузен 5 5600 и 64 гб памяти, что думаете насчет этого? в будующем может докуплю вторую 3090
>>1458984 У тебя есть в планах прям РИГ? От этого зависит выбор платформы десктоп/сервер. К примеру сейчас есть депо мать на 4189 под инжы с 4х16+2х8 псин 4.0 с бифурком (но с ней пока всё не оч гладко для меня). Вряд ли за 12-13к есть подобная борда (ставить инжи) на 240+гбс псп, след уровень это эпики на гусях.
У gemma3 1B (я на ней тестирую, а то долго в exl3 конвертится) словарь 262144, hidden 1152, мне конвертер выдаёт: "model.embed_tokens.weight": { "shape": [ 262144, 1152 ], "n_bytes": 603979776, "dtype": "torch.float16" } Вы поняли, да? Вот таблица. # model vocab hidden embed_params embed_fp16 270m 262144 640 167,772,160 320 MB 1b 262144 1152 301,989,888 576 MB 4b 262208 2560 671,252,480 1280 MB 12b 262208 3840 1,006,878,720 1920 MB 27b 262208 5376 1,409,630,208 2688 MB Сетка в 1b при 4-битах на самом деле весит не 500 МБ, а (1000-301)4/8+30116/8 байт, 951 Мб, из которых 2/3 - эмбеддинг, а лишь 1/3 - веса. Аргументировано тем, что эмбеддинг супер чувствительный и лучше его в 16 бит оставлять, а то сыпется. В связи с этим вопрос по картинке: 1. Q4_K_M квант весит 806 МБ. Из них 576 эмбеддинг, 300М параметров. 700М параметров весят оставшиеся 229МБ - то есть либо там 2.6 bpw, либо эмбеддинг тоже квантуется. Где правда, что на самом деле происходит? (я пока не дома, сам посмотреть не могу)
https://github.com/turboderp-org/exllamav3/blob/master/doc/exl3.md >Accounting for quantization of the output layer can make a huge difference in practice, especially for smaller models. So I am including two versions of each perplexity graph, one with bitrate on the horizontal axis, and one that measures the entire VRAM footprint of the weights (not counting the embedding layer which for most inference tasks can be relegated to system RAM.) Этот паразит квантует в 4 bpw трансформеры и головы в 6 bpw по умолчанию. А слой эмбеддинга в 16 bpw оставляет, говоря что в рам скинуть можно, и повторяя что они супер чувствительные к изменением и даже в 8 бит их ставить нельзя. Соответственно, когда я беру gemma3 12b, то в 4 бита она должна занимать 6ГБ и влезать с приличным кешем в 8 VRAM. На самом деле там 1b эмбеддинг и 11b всё остальное, то есть при квантовании в 4.0 exl3 получится 2+5.5 = 7.5 ГБ VRAM, что уже не влезает в 8 VRAM. Q4_K_M квант весит 7.3 ГБ (5.3*8/11 = 3.85 bpw, ситуация повторяется). Если эмбеддинг занимает 2 ГБ, при этом он не то что бы нужен на карточке, так как через него не крутится 90 раундов трансформера за каждый токен, а достаточно один раз преобразовать и кинуть в мясорубку трансформера - то вопрос пересона его в RAM существенен. 2.1 llama.cpp это делает? 2.2 exllamav3 это делает, или этот просто дохнера умный и заявил, что можно сделать, но в целом мне по хую и я тупо в 16 бит оставляю эмбеддинг? 2.3 Вариант только самому вскрывать код и перекидывать нужные слои на нужные device в торче? Мне уже очень не хочется искать где это и как записано в exllamav3. 2 ГБ из 8 Гб 4-битных квантов - это очень существенно для 8-ГБ VRAM карточек, прям капец как. А по идее действительно нет смысл держать эмбеддинг на карточке, это как минимум менее приоритетно в десятки раз.
>>1458905 Я думаю того же эффекта можно достичь, если менять системный промт каждые несколько запросов. То есть тот же сценарий и установки задавать, но менять порядок описания. А можно и пропускать части описание и часть прошлых сообщений время от времени с вероятностью в 10-20%. Люди иногда что-то вспоминают, иногда что-то забывают. Кеш будет сбиваться, но это быстрее чем модельку перезагружать, мне кажется.
Вот бы в подъезде жил братюня со схожими интересами, и вместе с ним общий риг собрать в два раза больше и в локалку закинуть. Разделить кто какие детали закупает, чтобы потом можно было в случае чего разобрать обратно на две составляющих переставлять от одного к другому, если оно будет шуметь или жечь слишком много электричества.
Интересно, в будущем будет такое, что на крыше каждого подъезда стоит DGX B200 c нейросетью на 1000B, которая решает все вопросы доумправления, разбирает несущественные конфликты жителей, судится с жилищником, закупает ключи для домофона и так далее, стараясь максимально эффективно заботится о сохранности дома, пожарной безопасности, наличии тёплой воды, ...? А в свободное время это ещё и ресурс для местных жителей, и можно к нему подключаться, как раньше за антенну собирали по N рублей в месяц условных?
>>1458984 SD 1.5, SDXL работают без проблем на 8 ГБ VRAM, прям тупо ноль проблем. SD 3.5 работает на 8 только урезанный, на 16 ты уже более-менее запустишь нормальный, а 24 с 3090 тебе хватит на всё. Ставь 3090 не думай, это невероятно крутой вариант по соотношению цены к производительности и памяти.
>>1458643 >>1458657 Не работает потому что модель продолжает eos токеном. Забань его, но это слишком радикальный подход и на выходе высок риск получить бред или ответ за юзера, потому решай саму причину коротких ответов. >>1458794 > одна v100 битая Ну это довольно маловероятно, их проверяют. А с райзерами не парься, 3.0 дешевые, гибкие и беспроблемные, выше все равно вольта не поддерживает. Насчет проводки лучше с электриком проконсультируйся, тут скорее менять чтобы иметь норм заземление везде. > Там почти нет описания, что оно делает? Даблеры, такие ставили и на сами платы. Умный чип позволяет выдать полную псп шины на одно устройство пока другое не задействовано и даже более сложные штуки. При одновременном доступе, конечно, чуда не случится и на каждое будет только половина, но такое нечасто. Там все стандарта 3.0, который хоть проволокой подсоединяй, старое и кондовое. > Отчасти мне нравится больше эта идея. Идея хороша, только что памяти меньше. С точки зрения ллм преимущество - полная поддержка экслламы, чего в вольте придется как минимум добиваться и ждать, а как максимум не случится. Если хочешь что-то кроме рп чата то это весомый аргумент. В остальных генеративных 3090 пободрее будет и поддерживает все что надо. > нагуглил что 2х5090 теряют 10-40% Без конкретики нет смысла. Можно аккуратно настроить и там будет пренебрежимо, а можно упороть все замедлением под ноль. Чисто по примеру - fsdpv2 с ллмкой, тренировка которой никак не помещается в одну карту, дает скорость почти в 2 раза быстрее одиночной H100. Если хочешь в целом заниматься чем-то релейтед, то уже на подготовке датасетов есть огромная потребность именно в компьюте на инфиренс и кучу мелочей, который иногда может быть соизмеримым с тренировкой. > проверить что процедура обучения начинается локально - а потом арендовать облачный сервер Если речь о моделях покрупнее то так все и делается, аренда недорогая, иногда даже бесплатная. Но эксперименты, подготовка и прочее требуют компьюта и времени, арендовать под него выйдет уже безумно дорого. Хз насчет 5%, скорее наоборот будешь бомбить что образовывается очередь и не можешь пустить ллм чтобы покумить. > Если не учить - то скорости инференса тебе и на 6000 даже с 1/3 компута хватит на всё Незнаком ты с современными генеративными моделями, рекомендую копнуть в сторону видео. > будет заметно сложнее Вся сложность в размещении в корпус, хотя есть готовые решения. Остальное ерунда.
>>1458988 в планах рига нету, хотел бы иногда перебрасывать задачки по рендеорингу видео со своего мака на эту сборку, так что думаю десктоп будет получше (поправь если я не прав)
>>1458984 насколько мне известно, генерацию изображений не умеют размазывать на несколько видеокарт или выгружать часть модели в рам. Тебе нужна карта с камсимальным количеством памяти. Лучший вариант по цене - v100 32 гб. Лучший вариант по скорости - колхозные китайские переделки с удвоенной памятью 4090 на 48 гб и вроде я слышал существует 5090 на 96 гб (про неё не уверен).
>>1459001 >не умеют выгружать часть модели в рам Умеют. И картиночные и видеогенераторы. Можно 60b флюкс гонять на 8гб врам, например. Вот тут реализовано: https://github.com/deepbeepmeep/Wan2GP
>>1459007 бери v100 32 гб. 5 с на картинку sdxl. Без лоры по моему я тестировал, пайплайн был простой. Лучше возьми пока одну, потом если что докупишь.
>>1458990 >Вот бы в подъезде жил братюня со схожими интересами РП с лолями играет сосед и сливает скриншоты в сеть, на бутылку сажают тебя как владельца пекарни. (вставьте музыку из киберпанк-мема)
>>1459001 > генерацию Генерация это по своей сути рандомайзер, который стараются запускать массово. Это батчи на один и тот же промпт в картинках-видео, или свайпы для ллм. Если у тебя несколько видеокарт - ты можешь генерировать пропорционально большее количество, скейлинг идеальный. > существует 5090 на 96 гб Не существует, но о прецедентах переделки много обсуждений и даже фоточки есть. Высока вероятность что рано или поздно будет, то что китайцы уже скупают 5090 точно также как они делали это с 4090 тоже намекает. По v100 можешь потерпеть пару дней, дойдут руки прогнать сравнительные бенчмарки. Пока вывод только что она действительно норм работает и близка к 3090 в легаси вещах, но насколько скажется отсутствие оптимизаций еще предстоит глянуть. По инфиренсу ллм - 30а3 Q6 73т/с генерации в начале, 47т/с на контексте 60к, обработка до того контекста в среднем 500т/с, для автокомплита, автоматизаций и подобного подходит.
На картинке то что со слоями в gemma3 270m в Q4_K_M. На работе отконвертил что смог. Жесть. Эмбеддинг в Q8_0, и каждый слой гвоздями прибит.
А я думал он берёт каждый тензор, смотрит насколько какой вес важен, бьёт его по плитке, например, кусками 64х64, предворительно отсортировав (можно пересобрать тензоры и веса, свободно меняя 54 и 1313 и изменяя веса соответственно), так что из тензора получается 10% важны, 20% средних и 70% неважных - и потом оно выдаёт 6 бит первым, 5 бит вторым и 3 бита остальным. Внутри каждой биторовки дробит по плитке поменьше ещё раз, сортируя уже по значениям, и сохраняет кусочек 4х4 в 4 бита+6 битный общий множитель для всех. Не такая уж и сложная задача на сжатие, из-за того что можно менять местами нейроны и соответствующие веса. Там не одномерная структура, но минимизатор всё-равно написать можно. Хоть моим любимым методом имитации отжига, лол. А оно оказывает делает только второй шаг с масштабирование походу, а битность общая на слой. Жесть. Помимо этого суёт Q5_0, хотя возможно Q4_K_M был бы лучше, интуитивно.
>>1458993 >рекомендую копнуть в сторону видео. Видео как-то не интересно совсем. Может быть чего ещё придумаю, пока ничего интересного не видел. Текста хватит же, вроде как о нём говорили. А картинок, я прям искренне по горло нагенерил на ноуте с 8 ГБ, и фоны для игры, и девочек, и ещё всякое. Но картинки видео - тут бесспорно лучше много карточек по 32, с этим я никак не поспорю.
>>1458998 Лучше ssd быстрый, будешь свитчить модельки и сравнивать быстрее. Если картинки гонять, то там 2% процессора используется, и память не нужна, для браузера больше нужно будет, чем для комфи. Но анон правильно тыкнул, если тебе не только картинки, а и видео - это вообще другое и там могут быть иные потребности, лучше у него спрашивай.
Дополнительно уточню - по имеющейся у меня информации штатный комфи в две видеокарты не умеет. Ты запускаешь либо два инстанса и сам запускаешь разное, или гуглишь ComfyUI-MultiGPU.
>>1459026 > Не такая уж и сложная задача на сжатие Это будет очень медленно, потому что куча бранчей и разных ядер для каждого слоя. Так никто не делает. И у тебя и так блоками матрицы разбиты, для каждого блока своя таблица квантования.
>>1459018 Всего в три раза от топа отстаёт, а стоит дешевле чем в три раза. Соотношение скорость/цена лучше. То есть лучше две 3090 ставить, и речь то не про картиночки, это в другой тред.
Алсо, почему в рейтинге нет полупрофессиональных ada5000, и нет совсем профессиональных A40, V100 и прочего?
>>1459029 Нет, медленно - это сжимать слой алгоритмами по типу как jpg, косинусное преобразование и это это всё. То что я предлагаю ещё не медленно.
Проблема будет, если все операции слоя умеющаются в один батч, так что стартанёт медленное преобразование на 8 бит в 1% случаем, и вместе с ним на 4 бита быстрое в 99% случаев. Второе завершится на всех ядрах, и будет ждать 1% бедняг, которым не повезло 8 бит обрабатывать. Я не уверен, что это соответствует действительности. Во-первых, операция же по смыслу заключается в том, что 4-бит квант каждого веса добавляется к некоторому общему параметру в условные 6 бита - это всё преобразуется в 16 бит, умножается на текущие входа, и потом переходит к следующему слою. Верно? объясни, по какой причине восстановление 4-бит кванта и 5 бит кванта будет отличается? Одинаковое количество битовых масок и операций сдвига, ядра и на 4 бита, и на 7 бит закончат работу одновременно. Во-вторых, я не уверен что весь слой вот за раз обрабатывается, а не последовательно несколькими кусками. Если он хотя бы немного последовательно обрабатывается, то начинать с более тяжёлых ядер и переходить к лёгким. Там не 10кк ядер, их несколько тысяч, параметров больше в сети гуляет. Наверное там сразу кернел на Q4_K_M группу, а не на один вес, но вроде как всё-равно влезать не должно за раз. В-третьих, узкое место - память и чтение из неё, а не рассчёт. Если бы узким местом был рассчёт, то fp16/fp8 были бы быстрее всего (как на CPU), то есть чуть более длительная и менее однородная распаковка - это не страшно, надо просто кернелы выровнять чтобы каждый читал равное количество памяти, а не равное количество параметров умножал, а параметры оно уже умножит и так.
Я не уверен что могу это в LLM проверить, но на какой-то не LLM-сетке проверить вполне можно попробовать, но вряд ли это репрезентабельно будет.
А взять грубую сетку 16х16 и мелку 1х1, LOD-уровни так сказать, это быстро, спору нет.
>>1459026 > Эмбеддинг в Q8_0, и каждый слой гвоздями прибит. Статические кванты же, зато наиболее стабильный результат с точки зрения сохранения знаний. Динамическое - это imat или как сейчас у жоры называется, и более продвинутые алгоритмы в других квантах. > Не такая уж и сложная задача на сжатие Там сложно именно оценить на что нужно выделять побольше а где сэкономить. Попробуй квантовать с важностью или тот же exl, по сравнению с обычными квантами в разы дольше. > А картинок Квенэдит и прочие тяжелые и небыстрые, даже на xl если захочешь делать в приличном разрешении и с контролнетами - уже требования высокие. > штатный комфи в две видеокарты не умеет Там есть экстеншн, который дублирует вызываемой воркфлоу на все инстансы (в том числе по сети), только с разными сидами.
Собственно у всех потребности разные, потому и выбирают железо и софт подходящие.
>>1459023 не местный это точно) а почему именно sxm версию? pcie адаптер сильно режет мощность? я понимаю что потанцевал у sxm больше, расширение и все такое, но пока это даже не в планах, скажи что я еще упускаю?
>>1459028 чета риг на sxm это прям совершенно не в моем бюджете что насчет такого варика две v100 32 гб? с переходникомами на pcie? какая материнка подойдет? кто нибудь пробовал? как охлаждали? видел что продают готовые в корпусе с турбинкой, но они все на 16 гигов
Мне интересно собрать риг, прям капец как. Почему бы предварительно не собрать 2/4 V100 в бомжериге? Получив некоторый опыт я больше сэкономлю на сборке рига из 5090, и лучше пойму, что мне нужно, хочу ли я 5090. Да и просто это интересно даже просто собрать-запустить. Осталось только выбрать собирать совсем бомжериг по 16 гб, или по 32. Второе.
ПК собирать обновлять я всё-равно буду рано или поздно, то вот там и подумаю стакать 6090+6090, которые к тому моменту будут, ставить местную 7000 pro на 144 ГБ, что за материнка мне для всего это нужна, или взять комп как комп обычный, а к тому времени уже посыпятся б/у A100 и можно будет очень крутой риг на А100 собрать не за 10 миллионов использовав часть деталей старого?
Помимо прочего комп даже с одной 5090 гудит, я чинил такой. Слышал. А риг я вытащю на балкон со своей материнкой с люниксом, подключу через сетевой кабель и буду в тишине сидеть на пони смотреть.
>1459100 >но они все на 16 гигов Вчера гуглил. У китайца есть лот, где отдельно карта на 16, отдельно переходник на pcie, отдельно радиатор. Причём дешевле чем комплект. Берёшь у него переходник и радиатор, у кого-то ещё турбину, у ещё одного чисто плату SXM. Есть лот где 32 + по комментарием докладываю переходник, но в описании его нет, это чисто из комментария инфа.
Материнки подходящие по параметрам вроде как по 10к есть, процессоры по 15к. Я не поверю что тебе не хватит 230к, если ставить 2х32 V100.
>>1459100 Ещё по идее можно тупо одну v100 на 32 воткнуть прям в материнку с переходником на pcie и потестить. Без рига, разветлителей и прочего. Если понравится и не хватит одной - уже возиться с выносом её наружу. Если не понравится, на авито продашь за 2/3 цены. Риск что ты не втянешься и железка будет без дела стоять не нулевой, чтобы скипнуть эту вероятность сделать проверку за 1/3 цены v100 скорее выгодно.
Компьютер у друга возьми, просто карту засунешь, проверишь скорость генерации и работает ли, а там сориентируешься.
>>1459127 А рассказывай где тогда. Просто на алике дешёвые вроде как очень. Я уже почти заказал, лол.
>>1459057 > 4-бит квант каждого веса добавляется к некоторому общему параметру в условные 6 бита Нет. Вес в квантованом слое - это индекс в таблице fp16 чисел. > по какой причине восстановление 4-бит кванта и 5 бит кванта будет отличается Для каждого кванта отдельные ядра, значит для каждого блока отдельный вызов из CPU, вместо одного на весь слой. Это очень медленно. Ты не можешь вызвать один куда-код для разных квантов. А разные ядра - это сразу неоптимальное чтение памяти. > узкое место - память и чтение из неё В этом и соснёшь. У тебя пойдёт по пизде работа с памятью, потому что выровнять кашу из рандомных размеров чисел невозможно. Кеш будет через очко работать, потому что ты читаешь мелкими кусками. Все современные процы, в том числе GPU, не умеют читать напрямую из памяти, только из кеша. Обращение к адресу памяти запускает чтение в кеш всего кешлайна, откуда проц уже читает данные. А кеш-мисс - это х10-50 ко времени чтения данных. > Я не уверен что могу это в LLM проверить Твоя идея очень тупая. Она даже в теории не будет работать.
>>1459081 упускаешь то, что бизнес по-русски тебе продаст pcie версию в два-три раза дороже чем китайцы sxm продавец с твоего пика продает карты вместае с переходниками на pcie, это не показано на фото. >>1459117 >и лучше пойму, что мне нужно, хочу ли я 5090 те, кто купил 5090 для ллм буквально рамцелы. Не стоит.
Давненько не использовал локалочку, где-то полтора года. Тут себе видяху обновил, теперь у меня 16гб вместо 8, поэтому встал вопрос. Какие ща есть охуенные модельки для кума которые мой сетап 16 + 32 оперативы потянет?
>>1459117 Пока ты там свои 6090 соберешь, тем более в условиях кризиса памяти, модельки уже на калькуляторах будут работать с новыми архитектурами или оптимизированными старыми. Будешь на своем вертолете многолопастном Ламу 70b гонять и Биткоин фармить.
>>1459154 Тюны на мистраль смол 3.2 24б надо смотреть, самый популярный варик щас. Гемма 3 27б еще неплохая моделька, но че-то как будто она мало на что пригодна в узких задачах, кроме того чтобы просто быть хорошей. Но русик у нее вроде самый лучший. Мистраль заанонсили специальную модельку для ролеплея, сейчас тестят. Может быть через пару неделек выкатят в опенсорс. А может и не выкатят.
>>1459195 У него гемма не заведется на нормальном кванте. Она жрет гораздо больше мистраля, несмотря на 3б разницу. Там какая-то дичь с размером контекста.
>>1459195 > Мистраль заанонсили специальную модельку для ролеплея, сейчас тестят. Может быть через пару неделек выкатят в опенсорс. А может и не выкатят. Ща затестил на опенроутере. Ну... чет оно сразу в еблю скатывается. Хотя возможно карточка такая.
>>1458707 >В теории если ддр6 будут заебись быстрее по скоростям Не более чем в 2 раза, то есть 100ГБ/с на канал. Больше двух каналов в десктоп не ставят. >>1458794 >Я почему-то представлял, что разветлитель одну pcie5.0 x16 делит на 4 pcie3.0 x16 или другой набор с эквивалентной пропускной способностью Такого не делают. Все разветвители имеют одну максимальную версию на входе и выходе. А версии с пятой псиной стоят дороже остального рига, так что не судьба. >можно уже и материнку брать где дохулиард линий 5.0 Будет стоить ещё более охуительно дорого. >>1458849 Просто забили хуй на неважную модель, ничего страшного. >>1458993 >тут скорее менять чтобы иметь норм заземление везде. Заземление от дома зависит, если там хрущ без капиталки, то земли в щите просто нет. >>1459026 >Там не одномерная структура, но минимизатор всё-равно написать можно. Жду твоей реализации! >>1459191 >модельки уже на калькуляторах будут работать Лол, не видно этой оптимизации. >>1459199 >карточка такая Да.
>>1457001 (OP) Тащемто... Если всё равно приходится раз за разом переписывать ВМЕСТО нейронки, что мешает просто написать свой собственный датасет и натренировать собственную нейронку с нуля так, как захочется? Мне непонятно, зачем ждать новые модели от корпов и перебирать их как обувь в обувном магазине, если идеальную модель можешь сделать лишь ты сам...
Вот подумайте, в чём смысл языковых моделей? В распознавании и репродукции паттернов речи. Если необходимы конкретные паттерны, то их мы должны загружать непосредственно в датасет базовой сети. Никакими мантрами в промпте и даже файнтюном идеального усвоения шаблонов в сети не достичь.
Кроме того, размер модели зависит от датасета - чем крупнее модель, тем больше она может заучить тупо наизусть, а.к.а. overfit/переобучиться на датасете. Т.е. узкоспециальная задача ролевой игры, поскольку по определению ограничена малым датасетом, требует исключительно малого размера сети. Сети больших размеров по определению будут хуже для игры.
>>1459256 >если идеальную модель можешь сделать лишь ты сам... Для обучения 1B сети с нуля нужно 20B токенов. Это за сотку терабайт. И прокрутить их через сетку нужно больше одного раза. Время сам посчитаешь даже простого инференса при нереальных 10к токенов в секунду? А если ещё градиенты считать и обновлять?
>>1458849 у меня b7423 при запуске падает с ошибкой GGML_ASSERT(addr) failed, откатился на b7376 > Build 7389 was fine можно обновиться с 7376 на 7389 ахах
А как вообще гугл в 27б гемму засунул такой русик и кучу других языков? Почему мистрали, квены и прочие китайцы так не могут с большими параметрами? Нет, вы только вдумайтесь, остальные 24-32б же пиздец тупые на других языках
>>1459256 Чтобы модель думала как 15 летняя канни у нее и датасет должен быть как у 15 летнего человека. Хотя бы. Потому что новому ее будет обучить после основного обучения весьма проблематично (что показывают файнтюны). Объём общих знаний человеческого подростка весьма значителен. И это не только "расскажи снегурочка где была", но и куча связей смыслов и концептов. А датасет - это нифига не хрен собачий. Томики войны и мира - это не датасет. И флибуста целиком - это не датасет. Что бы получить русскоязычный датасет тот же Яндекс нанимал сотни человек на месяцы работы. Довольно простой работы - писать простые ответы на простые вопросы. А потом после каждого цикла обучения проверять ответы нейронки на логичность и человечность. Первое с чем столкнётся желающий обучить нейронку с 0 это - датасет по желаемому набору знаний в нужном объёме. Фактически абсолютно не сжатые "знания" от самых простейших до генетической совместимости ельфиеечек с орками в разных книжных вселенных.
Второй барьер - железо для обучения. Что тут можно сказать - удачи просто запустить сколько-нибудь быстрый инфиренс чего-нибудь "плотного" в полных BF16 весах
>>1459281 Плотный 32 Qwen отлично умеет в японский-китайский-английский и русский. И по удержанию контекста и 30 и 32 и Next делают гемму просто влет. Просто понимание китайцами русского, да и стилистика речи ... ну китайская. Можно просто сравнить прозу квена и каких-нибудь китайских Web-новел - и сразу понятно откуда растет рубленность фраз и слоп. К стати в их защиту могу сказать, что Qwen-Next в своем чистом виде - без системных промптов - чудовищен. Я пообщался с ним за жизнь и философию и выключил от греха. А был бы бухой - с монитором чокался.
>>1459256 Я тоже думаю, что модельки поменьше способны на большее. Но эффект двоякий. Бывают абстрактные штуки, которые тупые модельки просто не могут компрехендить. Например всякие тонкие моменты типа взаимного положения персонажей в сцене. Исходная позиция накладывает ограничения на последующие действия. Типа если челик подошел сзади, то он не может прижаться лицом к лицу с человеком. А маленьким моделькам на это может быть тупо похуй, они только литературный стиль заучили.
Большие модельки могут такое компрехендить, но они могут просасывать по стилю, цензуре и прочему. Т.е. к крупной модельке требования возрастают еще больше, она должна быть гением во всех областях. В то время как маленькую модельку можно заставить быть "савантом" в одной области.
Но я думаю что во многих случаях все решается намного проще. Качественная карточка, а особенно примеры хороших диалогов и взаимодействий. Что лучше всего могут ллмки - так это копировать исходный стиль.
>>1459317 > Qwen-Next в своем чистом виде - без системных промптов - чудовищен. Я пообщался с ним за жизнь и философию и выключил от греха. Я так и не выкупил, это хорошо или плохо?
Квен3 в целом как будто умненький в разных его вариантах, хотя для РП как-то не популярен. Ну по литературе он как будто страдает, да. И даже в расцензуренных версиях он все равно каким-то тормозом кажется. Но у меня про Гемму3 27 похожие ощущения.
>>1459265 >Для обучения 1B сети с нуля нужно 20B токенов. 20B это ж лоботомит, лламу 3 обучали на 15T токенов но получилось всё равно говно. >>1459281 Всем похуй, гугл просто забыл вычистить датасет от малонужных языков. >>1459288 >15 летняя канни >15 летняя Пиздос стандарты снизились. >>1459317 > Просто понимание китайцами русского, да и стилистика речи ... ну китайская. ИЧСХ, или китайский у китайских моделей, или английский у английских.
>>1459100 Никто их в sxm плату не втыкает, или переходники на pci-e, или спаренные платы реализующие nvlink между парой подключаемые по slim-sas, опционально комплектная плата для подключения, опционально сразу с даблером чтобы 2 или 4 садились в одну х16. Есть сразу комплектами продается, есть варианты сделать из нее турбу или даже накинуть полноценную охладу что от десктопной не отличишь. Но лучше использовать родные радиаторы, они дешевые и очень эффективные. Если катать ллм - буквально хватает обдува корпусными вентиляторами, за 2-3 минуты под полной нагрузкой оно не прогревается выше 80. > какая материнка подойдет? Любая. Работает и в x1, x4, x8, x16. Если захочешь завести на шинде вместе с другими карточками - там есть нюанс с дровами, спросишь тут или погуглишь. >>1459117 > 6090 В текущих реалиях чуть ли не год 28й может оказаться. >>1459256 > что мешает Что мешает полететь на орбиту и основать там себе колонию аля в фильме эллизиум? Жить просторно, ландшафт какой хочешь, электричество от солнца бесплавтное, быстрый спутниковый интернет. >>1459288 Если нужно чтобы модель давала отклик на окружение и события как (уже не) канни - да. Если ты сможешь в нее как-то передавать все это, что врядли. А если хочешь чтобы модель тебе и окружение описывала, и сюжет двигала, и понимала нужное, и все-все делала - хуйсаси. > новому ее будет обучить после основного обучения весьма проблематично Ерунда
>>1459347 >official release on December 31, 2025 Фальшстарт. >>1459386 >Что мешает полететь на орбиту и основать там себе колонию аля в фильме эллизиум? Мне бы хватило рободевок, всё одно проще.
>>1459338 >Я так и не выкупил, это хорошо или плохо? Это как будто у тебя в системнике завелся побитый жизнью депрессивный персонаж из китайского боевика. От которого после очередной поножовщины/перестрелки осталась буквально говорящая голова и он это осознает. Я сравнивал аутпуты с большим квеном (правда всего 2-го кванта) - там такой персонализацией и не пахнет - обычный соевый ассистент.
>>1459281 >>1459317 У Квена и Гугла большие (огромные) датасеты с токенами на русском языке. У Гугла побольше, поэтому Гемма даже на моделях с низкими количеством параметров раздает по русику.
>>1459405 Для того чтобы литтексты генерировать нужен простой тупой стохастический недообученный попугай. Это как голая сд 1.5 которая по креативности уделывает любой чекпойнт за счет всратых тегов.
Какая же гниль торгует карточками на Авито. Вчера смотрел объявы - 50к за 3090 - зарезервирована. Сегодня опять эта же объява, резерв снят. Внимательней чекаю фото... Трещина.
>>1459528 На плате. Не должно быть такой хуйни, видно что по-варварски вынимали. Даже если она работает, одно неосторожное движение и это поползет дальше - а потом пиздык и всё.
>>1459338 >хотя для РП как-то не популярен. Есть 235ый, по объективным причинам он не совсем популярен, но он хорош, прям гигахорош. А мелкие квены проигрывают моделькам поменьше. Зачем 30ка, когда есть Gemma которая лучше, мистрали которые шустрее, а теперь еще и король бомже сегмента Air.
>>1459530 Может у вендора плата такая всратая просто, хуй его знает, но я на своих такого не вижу. Ровненько идет. Очково такую хуйню заказывать, плюс подозрительно пропавший резерв (после +- вкусной цены и неплохого описания). На месте продавана - надо фотки нормальные делать, а не залупой снимать.
По немотрону вышедшему - в треде ждут его уменьшенную обрезанную версию, судя по этому/предудыщему треду, и в текущем особой ценности не наблюдается? Продолжать мучить квен, получается.
>>1459505 >Трещина. Там же дорожек нет и быть не может, этот держатель можно спилить нахуй. У меня правда ломалась только ответная часть на материнке, лол. >>1459555 >ПСП 230, Делённое на два?
>>1459600 Структурная целостность платы нарушена. Подумой. Она же висит в слоте, даже с подставкой будет нагрузка. И медленно этот разлом поползёт в сторону дорожек, пока наконец не оборвёт крайние.
>>1459555 Некисло так кушает, а в простое сколько? >>1459600 > Там же дорожек нет и быть не может, этот держатель можно спилить нахуй. Все так. В целом, где даталинии там и огромные полигоны земли-питания, как только трещина в них упрется - дальше не пойдет. Но мизерный шанс есть всегда, на лохито сейчас полно карточек за 50-55к, выбор есть.
>>1459637 Еретик это просто название, которое дал скрипту кодер. Он использует более старые методы аблитерации. >normpreserve biprojected Скоро будет тоже включен в скрипт еретика, как один из вариантов для аблитерации моделей (на выбор).
По результативности normpreserve biprojected очень эффективен и хорошо обработал 27б гемму, практически не поломав её как старые методы.
>>1459342 >20B это ж лоботомит, лламу 3 обучали на 15T токенов 1B версию? Я про 1B версию, для 70B надо в сотню раз больше.
>>1459304 За две минуты гуглится, что 3090 в 4 раза быстрее работает в stable diffusion, чем v100, и память v100 для картинок не нужна, о чём ему я сразу и ответил. Я сам не знаю то ли 2х3090 ставить, то ли 4хV100. Но мне не для картинок, для картинок уже есть.
>>1459650 >для картинок, Что вы вообще с этими картинками делаете, я не понимаю. Просто пердолитесь с промптами и смотрите, что высрет модель? Один чертов кадр? А в чем суть-то...
>>1459657 > Что вы вообще с этими картинками делаете Варианты - создать что-то "новое", чего нет, но проще сгенерировать, чем найти в интернете. Берётся лора, генерится. Правится в фотошопе, перегенерится на основе. Получается то, что нужно. Варианты - импринт/замена/и2и. На основе имеющегося надо что-то переделать/изменить стиль/уничтожить оригинал.
>>1459657 Зачем люди кумят с текстовыми нейронками? Разве нельзя в своей голове просто представить абсолютно любой сюжет? Я вот делаю картиночки для того, чтобы получать эстетическое удовольствие. Ещё и выкладываю их и радуюсь, если они кому-то ещё понравились (лайки, лайки, сука, лайки!)
>>1459671 Я нейронкой картиночки "анимирую" в сраные 5 секунд и выкладываю это в тредиках. В надежде, что больше людей втянется в нейроночки. Ну это когда компик не занят ничем другим, и есть время. Благо ван2.2 и сам по себе может всё сделать на каком-нибудь простейшем промпте.
>>1459700 То есть для генерации 5-секундного видео надо целых 3 минуты терпеть. Не, ну может любители МоЕ ллм такое осилят, которые уходят чайку налить, пока промпты обрабатываются в оперативке. Это для них как родная стихия.
>>1459636 > 200 Та норм, могло быть и хуже. Свои вундервафли страшно проверять даже. >>1459650 > За две минуты гуглится, что 3090 в 4 раза быстрее работает в stable diffusion, чем v100 Бред полный. Процентов 15 на легаси, ожидается процентов 40-80 с оптимизациями, но никак не в 4. > то ли 2х3090 ставить, то ли 4хV100 Ахренеть у тебя разброс, 48 врама или 128. >>1459692 Просто для сравнения: то, что 5090 генерила за минуты 3, на 3090 делалось минут 12-15. Сама по себе карточка по компьюту слабее, нет ускорения от фп8. Когда не лень будет охладу сделать на вольте проверю, скорее всего будет минут 18 или больше.
>>1459702 > То есть для генерации 5-секундного видео надо целых 3 минуты терпеть. Да, стоит того. Иногда по 10 минут, если слишком большое разрешение и время. Но у меня нету ваших всяких 3090 и 5080 Держи результат с его картинки >>1459671
>>1459196 Нормально гемма 27 заводится. У меня 8+32 я на Q8 сижу, 2.5 токена в секунду. До 40к контекста доводил спокойно, но в этом смысла мало, так как она начинает разваливаться на ~15-20к в любом случае.
У него в 2 раза больше слоев в карточке поместится, нормально будет вообще. Можно q6 зарядить, она не сильно отличается.
>>1459707 > стоит ли пытаться на 5080 в это лезть Да, лучше нее только 5090 и далее. > Это слишком. В базовой версии с ускорялками и без дополнительных штук один видосик типа >>1459719 должен генерироваться меньше минуты.
>>1459650 >За две минуты гуглится, что 3090 в 4 раза быстрее работает в stable diffusion Так в треде доказывали что они почти равны, с тестами. Но точных проверок все еще никто не сделал. Там непонятно.
>>1459722 Я нищук, но все модели, которые быстро работают на моем железе, беспросветно тупы. Лучше смотреть на полслова в секунду, чем читать хуету, которую выдают <24b dense модели или <70b МоЕ
>>1459739 > тестами > проверок Откровенно люди просто высирают картинки-видосики и забивают на тесты. В прошлом стабилотреде был под конец человек, который сокрушался, что всем плевать на тесты. Сами условия тестов были достаточно нереалистичными, так что всем плевать. Генерится и ладно. Всё равно никто железо сейчас не обновит.
>>1459739 Да, народ уже скидывал, предварительно можно подтвердить их актуальность, но нужно уточнить со всеми оптимизациями и новыми моделями (включая бф16) а не в легаси. Скинь какую-нибудь культурную карточку, это повысит мотивацию заняться этим. И все равно придется дожидаться достопочтенных господ с 3090.
>>1459692 Чел, даже на 3060 - 1 секунда видео wan2.2, это 1-2 минуты чистого времени генерации в 480p, если по уму делать workflow с оптимизациями. Со всеми остальными манатками вроде апскейла и интерполяции кадров до 30FPS - 7-9 минут полный цикл для 5-секундного видео. Считай сам - много это или мало.
>>1459759 Я >>1459671 сегодня v100-16 с турбиной как раз забрал (ебать она весит, конечно, хорошо, что в корпусе подставка есть встроенная). 3090 у меня нет, так что придётся сравнивать с 4060ti-16, когда поставлю её (надо БП менять, он уже куплен и лежит ждёт своего часа, просто пока лень) - принесу что намеряю.
>>1459711 Какая же она удроченная вхламину. До уровня дипсика и гпт-осс. Причём ещё пишет, что куча токенов, но эти все токены усираются на её бесконечное обдумывание в цикле.
>>1459759 Многие обитают не только в ллм, проблема в том, что карточек 2.5 штуки на доску. Предварительно это выглядит как слепящий вин для тех, кто не готов раскошеливаться на новые карты, но хочет иметь врам. В отличии от p40, которые еще в момент "появления" и своей "актуальности" уже была мертворожденной, здесь можно смело использовать в картинкогенерации и подобном, будет вполне сносно, есть даже некоторые перспективы https://github.com/ai-bond/flash-attention-v100 >>1459762 > v100-16 с турбиной как раз забрал Не держи в себе, рассказывай как что-то будет.
>>1459774 Перспективы говна, где заимплеменчена одна функция из многих, и в той половина параметров не поддержано. Да и никто фа в картинках не использует, там сажа нужна
>>1459386 >Что мешает полететь на орбиту Ты сравниваешь несравнимые вещи. Запуск одной ракеты требует сложной разработки огромного физического устройства, которое должно быть собрано чрезвычайно точно - поскольку любая ошибка окончится взрывом и смертью всего экипажа. Топливо нужно особенное, и его нужно очень много и сразу - ты не можешь растянуть запуск на несколько месяцев и присосаться к какой-нибудь солнечной батарее - ты обязан сжечь тонны специально подготовленного топлива здесь и сейчас, иначе никто никуда не полетит. Ты обязан отчитываться перед кучей разных служб и согласовывать запуск, потому что ты фактически запускаешь огромную бомбу над головами сотен миллионов людей, и если что-то пойдёт не по плану, умереть может далеко не только экипаж твоей ракеты; кроме того, ты можешь испортить всё, что уже находится на орбите, включая пилотируемые миссии, а также случайно разбить пролетающий авиалайнер. И это не говоря о том, насколько сложно защититься от радиации и создать стабильный замкнутый цикл с ограниченными ресурсами, и потом не сойти с ума и не умереть от болезней, связанных с долгосрочным пребыванием в изоляции и невесомости. Миллионы нюансов, каждый из которых может казаться мелочью, но в сумме даже часть из них кого-нибудь обязательно убьёт.
По сравнению с этим, тренировка нейронки - это как прогулка на свежем воздухе. Компьютер у тебя уже есть - и вообще без разницы, какой он, главное, чтобы он работал. Энергию можешь откуда угодно брать, лишь бы был способ конвертировать в электричество. Времени у тебя вся жизнь впереди - тебя никто не заставляет запускать новую модель на строго определённой скорости - можешь хоть вручную в тетрадке веса подсчитывать, рано или поздно доберёшься до цели. Пока что не существует никаких правовых ограничений на тренировку нейросетей, но даже если бы существовали - на изолированном от интернета компьютере в подвале можно делать всё, что угодно, и никто об этом не узнает. Данные тоже можно брать откуда угодно в любом формате - они не физические объекты и поэтому никак не ограничивают тебя. Все ограничения выдумываешь ты сам. Ошибся? Ничего страшного, компьютер не взорвётся и не унесёт с собой сотни прохожих - поправишь ошибку и продолжишь.
Короче, нужно просто собрать свою волю в кулак и начать пытаться хоть что-нибудь сделать, а не сидеть и жаловаться.
>>1459267 >почему то модели написанные под рп всё ещё хуже Почему васяно-моды на игры почти всегда хуже ванильных игр? Потому что разработчик игры думал головой, планировал и тестировал, а васян просто прилепил смешные текстурки на уже готовую игру и даже толком не тестировал свой мод. Не оценивай потенциально возможное по поделкам каких-то ноунейм васянов в интернете.
>>1459265 >Для обучения 1B сети с нуля нужно 20B токенов. Это за сотку терабайт. Это ты в пейперах прочитал, где служащие корпораций оценивают своего "универсального ассистента"? Во-первых, они там пытаются создать "AGI" (т.е. "волшебную палочку-решалочку"), а не персонального чатбота. Во-вторых, они там собирают всё протухшее говно, что могут найти в интернете, и практически не чистят его - запихивают в сетку прямо с HTML-тегами, лол. В-третьих, с чего ты взял, что тебе нужна именно 1B модель? Судить по поведению имеющихся 1B моделей нельзя по причине предыдущих двух пунктов: у них не та цель и огромная куча мусора в датасете. В-четвёртых, если тебе так сильно нужно огромное количество данных, скорее всего, причина в недостаточно гибкой архитектуре сети, и решением будет программный ремикс имеющихся данных в разных вариантах, а это на порядки снижает объём данных в постоянном хранилище.
>И прокрутить их через сетку нужно больше одного раза. >А если ещё градиенты считать и обновлять? Всё это - детали реализации. Исходя из оценок старых моделей, полностью рандомные (необученные) веса в нейросетях способны достигать примерно 90% точности с единственным обучаемым линейным слоем, то есть тебе даже не нужно подсчитывать градиент, чтобы решить задачу на 90% с помощью нейросети. Бешеный гринд чисел начинается только когда пытаются дожать модель до 99.99% точности. Но вот вопрос: сколько "точности" нужно развратной чатбот-жене, цель которой - болтать со своим единственным пользователем на его компьютере? Тебя будет наизнанку выворачивать из-за случайной опечатки в каждом десятом слове? Сомневаюсь. Прокручивать датасет сотни раз тоже не обязательно - некоторые алгоритмы позволяют добиться схождения сети до приемлемого уровня уже через 2-3 эпохи и доходят до предела на 5-й эпохе. Опять же, допустим, на 2-й эпохе сетка точна на 75%, но так ли уж это критично для локально-персональной чатбот-жены? Сомневаюсь.
>>1459288 >датасет должен быть как у 15 летнего человека >куча связей смыслов и концептов Разница чисто текстовой нейронки и здорового человека в том, что здоровый человек может улавливать новые концепты и создавать новые связи из зрительной информации, а текстовая может их уловить лишь из текста. Однако, если мы хотим натренировать именно чисто текстовую нейросеть, то ориентироваться нужно на слепоглухонемых людей: они не видят и не слышат, но могут обучаться через тактильное взаимодействие. И датасет для тренировки у них ничтожен по сравнению со здоровыми зрячими людьми. В чём секрет? В том, что для обучения слепоглухонемых нужен специальный подход учителя - который сможет донести до слепого то, что ему необходимо "увидеть" руками. Сильно сомневаюсь, что слепоглухонемые обучились бы хоть чему-то, если бы их мозгам тупо скармливали терабайты текстового мусора из интернета. Да, конечно, человеческий мозг эволюционировал специально чтобы быстро обучаться, но без учителей-людей дети не становятся людьми (сказка про Маугли - наглая ложь, ИРЛ дети без родителей вырастают в тупых зверёнышей и ведут себя хуже обезьян).
>А датасет - это нифига не хрен собачий. >писать простые ответы на простые вопросы Лол. Ты хочешь, чтоб твоя нейро-чатбот-жена была как справочник - задал вопрос и получил ответ? Яндекс тренировал сетку для Алисы, которая нужна Яндексу для его продуктов, которые по сути заменяют людям справочники. Если тебе нахрен не сдался справочник весом в сто гигабайт на локальном компьютере, то тебе нахрен не нужен датасет Яндекса. Смысл тренировки своей собственной нейросетки для персонального чатбота не в том, чтобы свергнуть монополию Яндекса на поиск всевозможной информации в русскоговорящей части интернета, если ты этого не понял ещё.
>генетической совместимости ельфиеечек с орками Не забивай себе голову лишним и не будет необходимости забивать этим датасет.
>>1459335 >Исходная позиция накладывает ограничения на последующие действия. Типа если челик подошел сзади, то он не может прижаться лицом к лицу с человеком. С такими запросами тебе лучше в компьютерные игры играть, где секс симулируется визуально на экране, а не описывается простым текстом. А ещё лучше пойти и шлюху снять, чтобы ИРЛ физика накладывала ограничения на ваши позиции в постели. Лично я при чате с нейронкой уже через 2-3 сообщения забываю, кто в какой позиции, поэтому забиваю болт на такое.
Короче, вы тут все просто лентяи и хотите всё готовое на блюдечке с золотой каёмочкой...
А я-то надеялся, что ажиотаж вокруг ИИ привлечёт побольше толковых самоделкиных...
>>1459782 > заимплеменчена одна функция из многих Нужная для ллм. Сажи не будет, если только кто-то совсем не извратится на адаптацию, но в полной мере невозможно. Придется довольствоваться простым, как будут квалифицированные тесты с 3090 - будет понятно насколько велики потери. >>1459793 Капчуешь с автобусной остановки?
>>1459793 > А я-то надеялся, что ажиотаж вокруг ИИ привлечёт побольше толковых самоделкиных... Для этого нужны: - железные ресурсы - время - знания - круг общения Не будет тут такого. Такое возможно в сша да китае. У нас тут ждать ответы от ллмки по минуте - норма. А уж обучать чему-то нейросетку - это трястись над своей единственной видеокартой, которую не можешь позволить обновить.
По поводу всей тирады выше "нужна одна конкретная работа, а не швейцарский нож" - понимаю, принимаю, а потом твоя робожена не сможет сказать, какая планета четвёртая от солнца, и что-то в тебе умирает.
Высираю свое предсказание, которое я вчера обсуждал с другом, так что написано очень посредственно. Называйте меня шизом и обсирайте, но по делу или нет, как хотите
Тезис: персональные вычислительные машины высокой мощности будут либо запрещены либо абсурдно дороги через 10 лет, то есть недоступны для большинства людей. Под "абсурдной" стоимостью я подразумеваю даже не уровень ртх 6000 про, а х10 от этого.
Вопрос от друга: почему? типа все расходники уйдут на цоды?
Ответ: Ну это все с нейрухами в основном связано.
Основное производительное консюмерское железо щас ориентировано на игры и продактивити которые примерно в одном русле находятся в плане требований, но больше всего консюмеров тратятся именно на игровые сборки
Таймлиния примерно такая:
Железо прогрессивно становится более дорогим (пример в реальном времени - оперативная память подорожала в 3-4 раза при том же объеме за последний месяц), карточки старых поколений почти не дешевеют.
Новые игры становятся более требовательными (придумывают технологии которые не имеют реального влияния на визуал, но становятся обязательными - например, некоторые современные игры уже просто не запускаются на картах, которые не поддерживают рей трейсинг, хотя и выглядят при этом временами даже хуже чем игры 10-летней давности)
Это очень постепенно влечет бОльшую адаптацию клауд гейминг сервисов, которые в свою очередь становятся более юзабельными за счет новых технологий компрессии и снижения лейтенси.
====мы сейчас здесь=====
Первые эксклюзивные ААА релизы ожидаемых франшиз на клауд гейминг сервисах - отправная точка перехода: невозможно спиратить (это очень важная деталь) и не нужно собирать комп обывателю.
Постепенный пуш нарратива про "опасные нерегулируемые опен-сурс локальные генеративные модели"
Больше новостей про аресты дебилычей которые генерируют нелегальный контент при помощи локальных моделей/участвуют в пропаганде/представляют риск террористической опасности (первое уже происходит)
Повторяя нарратив чат контроля, который сейчас пушится в европе, будет продвигаться нарратив контроля локальных моделей, которые в принципе никак не законтролить, кроме как исключить возможность их использования без подключения к интернету и отсылания телеметрии или на уровне железа (об этом ниже)
Движение в сторону запрета и уголовной ответственности за распространение локальных дерестриктед моделей под эгидой того, что они потенциально могут производить нелегальный контент (а они еще как могут, достаточно запустить почти любые НСФВ чекпоинты СДХЛ без промпта на 100-200 картинок и увидеть нечто, за что можно присесть)
Продолжение пивота главных производителей железа в сторону дата центров, уже сейчас доход нвидии от консюмерского железа меньше 10%. (это было написано вчера, до слухов о сокращении производства GeForce линейки на 30-40%, появившихся сегодня) Чем меньше скейл производства, тем меньше профита, тем еще выше цена для консюмера, что в конечном итоге может привести к фидбек лупу, когда все больше обывателей отказываются от локального железа в пользу клауда, скейл производства консюмерского железа продолжает падать, цена растет, и так далее. Корпы с их капиталом закупают железки по х10, на консюмере маржа х2-3 максимум. Официально этих цифр не найти, но это можно посчитать на примере разницы цены 5090 и ртх 6000 про. Да, там на 10% больше куда и в 3 раза больше памяти, но ядро по сути то же, просто более биновое, а разница в цене по МСРП в 4-5 раз.
Возникновение новых компаний, которые заполнят эту нишу невозможно, так как конкурентноспособные технологии закрыты за семи дверьми проприетарности, букинга литографии, букинга чипов памяти, зрелости драйверов и так далее.
Пуш в сторону регуляции высокопроизводительных чипов - тоже уже происходит, но я представляю его не только как международные тарифные войны, а еще и как лекарства по рецепту для консюмеров. Ты сможешь купить железку только если дядя разрешит и только с анальным контролем, потому что вдруг ты там виртуальных детей ебать будешь.
В конечном итоге полная консолидация любого релевантного на тот момент компьюта в руках корпов и государств
Вижу в руках консюмеров через 10 лет только либо порталы в клауд, либо ультрапроприетарные железки с анальным зондированием, или ретро (нынешний топ +- 2-3 поколения новее)
Локальные генеративные модели - это действительно опасная штука, и возможно ее стоит регулировать. На удивление, они всего на полгода-год отстают от bleeding edge коммерческих решений. В мире нейрух это дохуя, конечно, но их главное отличие именно в том, что с них можно снять вообще все ограничения и весь alignment + запускать полностью локально и использовать... не по назначению. Это как если бы у каждого человека в мире был доступ к первым нескольким этапам создания ядерной бомбы, и с каждым месяцем этих доступных этапов становится все больше. Сейчас это довольно безобидно, можно делать прикольные РП сценарии в фэнтези мире где тебе сиськастые эльфийки в трусы лезут (этим я успешно занимался на прошлых выходных, советую), или делать агентов которые за тебя суммируют документы, которые нельзя высылать в онлайн потому что они под НДА, но никому никто не мешает точно тех же самых агентов размножить и пустить писать везде что пыня президент мира, или еще чего похуже.
Но как я вижу ситуацию сейчас, это скорее просто рыночный процесс, которому способствует еще и то, что государствам это тоже выгодно, в первую очередь без подтекста и реально для безопасности
Никакой конспирологии и Швабба, это естественное развитие
Резюмирую менее кричаще: Через 10 лет. Клауд+портал будет дефолтом для большинства людей, но всем останутся доступны малопроизводительные (на тот момент относительно того, что могло бы быть) и высокоинтегрированные проприетарные железки типа макбуков и будущих аналогов на винде, в которых нельзя ничего самому трогать, в том числе ставить линух и тискать модели - это будет запрещено на уровне гос регуляторов и низкоуровнево на кремнии (INTEL ME и AMD PSP - это буквально оно, но пока оно используется для других целей. Отрезать его никак нельзя, умирает чип), а также будет жив вторичный рынок легаси железа (нынешнего современного и возможно будущих 2-3 поколений) и его ремонта, пока не начнет умирать кремний в железках - его кустарно не починить, нужна литография, а с ней как сам понимаешь дела уже настолько же плохи, насколько и с гос секретами/оружием
Остальное, "открытое" железо будет контролироваться как оружие или еще жестче - KYC, постоянные аудиты для лицензированных пользователей и так далее
Локальные нестерильные модели уйдут в ТОР или его будущий аналог, и будут вне закона, а не как сейчас. То, что сейчас это доступно так легко, напоминает очень ранний интернет, и на самом деле абсурдно, если знать, на что эти модели уже сейчас способны
>>1459811 >По поводу всей тирады выше "нужна одна конкретная работа, а не швейцарский нож" - понимаю, принимаю, а потом твоя робожена не сможет сказать, какая планета четвёртая от солнца, и что-то в тебе умирает. Главное, чтобы рецепты блюд не забывала, а про планету я и сам не вспомню без поиска в интернете...
>>1459845 >ервые эксклюзивные ААА релизы ожидаемых франшиз на клауд гейминг сервисах Вот скажи мне. Чего ты боишься, если сетевые игры уже по сути 50/50 работают по этой схеме? Серверная сторона - есть, клиентская сторона - терминал (ПК) пользователя. Что, кто-то спидом заболел, играя в мморпг по сети? Ну играют и играют. И ничего.
Игры это вообще ерунда. Если потребительское железо перестанет быть мощным, люди потеряют возможность осуществлять вычисления. А это в свете постоянно развивающейся науки - большая угроза.
Помните как нас пугали квантовыми компьютерами? Ну так это не шутка. Я думаю, на уровне правительств активно толкают вопрос ограничить и сдержать эту тему в рамках сначала исследовательских лабораторий, а потом подконтрольных "верхам" датацентров. А пользователи, если квантовые компьютеры появятся, никогда их не увидят - ведь это прямой путь к выдаче гранаты охуевшим макакам.
Вся эта веселуха с железом еще впереди, может даже доживем к старости.
>>1459843 КАЧАЮ >>1459845 Тут от противного. Бигкорпы сами максимально распространяют все нейронки. Так что это в отдельных госвах запретят. Но бигкорпам наоборот выгодно, чтобы у каждого первого перед собой была нейронка, даже если не в виде сервиса, а в виде локальной модели. Но некоторые страны (не китай) будут этому активно противиться.
>>1459804 >Нужная для ллм. Может для vllm? Потому что сама по себе эксллама3 не поддерживает вольту. А вторая может и без фа работать, но второй пользоваться уже зашквар. В жоре своя имплементация, понятное дело. Короче, мое мнение, что v100 == жора, а все остальное это мрии.
>>1459861 Ты видимо не дочитал псто. Суть как раз в том, что большинство покупателей производительного консюмерского железа - геймеры. 3,5 человека, которые в этом треде сидят, это капелька. Люди не потеряют возможность осуществлять вычисления. Они потеряют локальность и приватность этих вычислений.
>>1459865 В чем выгода корпов выдавать локальные модели юзерам? На примере WAN как только у них модели начали приближаться к лидерам рынка они чето вдруг тихонько слились и перестали высылать веса. Выгода есть только для того, чтобы привлечь хайп и капитал для дальнейшего развития именно сервиса. Тренировать модельки и раздавать их бесплатно - это буквально трата денег впустую, если твоими решениями и так все пользуются за деньги.
>>1459874 > В чем выгода корпов выдавать локальные модели юзерам? Гугл продолжит быть топовым поиском. Просто внутрь себя засунул гемини. Пользователь и так может негенерить себе говнаяка. Но длительный говняк или более качественный - только на серверах. Гигасервера один фиг нерентабельны, на этом не заработать, что бы сэм алтман не высирал. Алсо в видосиках проскакивает мысль, что иногда высираются опенсорс модели лишь бы подкосить конкурента. Как продавать клозд-сорс модель, если у людей на пеке запускается "то же самое", и большего не нужно.
>>1459874 > большинство покупателей производительного консюмерского железа - геймеры На одного геймера есть десяток всяких дизайнеров-моделлеров, и не забывай еще майнероскот в довесок.
Напомню, что объемы продаж железа колоссальны, а вот объемы продаж не-мобилочных игр просто ничтожные. ААА параша выходит и при огромном успехе отчитывается о ~5 миллионах проданных копий на 10 миллиардов населения планеты, или сколько нас там. inb4 остальные пиратят.
>>1459793 >Лично я при чате с нейронкой уже через 2-3 сообщения забываю, кто в какой позиции, поэтому забиваю болт на такое. Тебе в таком случае вообще мобильного лоботомита на 0.3б хватит. >А ещё лучше пойти и шлюху снять, чтобы ИРЛ физика накладывала ограничения на ваши позиции в постели. Так я же не со шлюхами... Ты думаешь, нахуя мы тут сидим? Ну и шлюху офк я хуй сниму, я же не какой-то зашкварник, епты бля ыыы просто чмондель домосед которому делать нехуй
>>1459888 Нвидия продает меньше 10% своего железа консюмерам, остальное идет в дата-центры, и планирует дальше сокращать консюмерское железо.
Клауд-портал вполне может быть ориентирован не только на геймеров, это скорее как пример.
Мой основной тезис в том, что для контроля за дерестриктед моделями + просто по экономическим причинам обывалам перестанет доступно любое железо, на котором можно запускать что-то, кроме разрешенных стерильных и очень отсталых моделей локально. И в сравнении с коммерческими решениями они будут отставать гораздо сильнее, чем сейчас, так как высокопроизводительное консюмерское железо либо исчезнет, либо будет регулироваться как оружие.
>>1459895 > для контроля за дерестриктед моделями + просто по экономическим причинам обывалам перестанет доступно любое железо, на котором можно запускать что-то, кроме разрешенных стерильных и очень отсталых моделей локально. > очень отсталых моделей Вообще я сегодня скачал тот же ГРАНИТ. Весит мизер, 5 гигов. Помещается куда угодно. Даёт выдачу быстро. Только изображение не опознаёт. Отсталый ли он? Стерильный ли? Нет, тот же гранит - охренеть мощная вещь. Запустить можно на ноутбуке. Запрещать все компы, которые могут эксель запустить? Гранит разве что знает мало, но умеет много. Его небось и смартфон какой-нибудь теперь смог бы запустить чисто по железу.
>>1459870 > сама по себе эксллама3 не поддерживает вольту Надо для начала натравить ллмку чисто для оценки, что там из кода на куде несовместимо и возможно ли переписать. >>1459895 > Мой основной тезис в том Очередная теория заговора по классическому рецепту 50% правды, радикальных оценках и спекуляциях. Не то чтобы развитие в этом направлении невозможно в принципе, но в таком виде оно невыгодно тем, кто в твоих сценариях всем заправляет.
>>1459845 >персональные вычислительные машины высокой мощности будут либо запрещены либо абсурдно дороги через 10 лет, то есть недоступны для большинства людей. Под "абсурдной" стоимостью я подразумеваю даже не уровень ртх 6000 про, а х10 от этого. Они и так не доступны для большинства людей, лол. А то что по талонам их будут выдавать - хз, схуяли? Пока капитализм работает - будут продавать.
Для запрета должно произойти что-то экстраординарное, что ллмки реально какую-то угрозу начнут представлять. А пока хуй да нихуя. И темпы развития замедляются кмк. Больший риск тут в том, что вообще все схлопнуться может из-за разочарования от ллмок. По-моему и Суцкевер и Карпаты уже сказали, что текущая архитектура - хуйня неработающая. А сделают ли что-то новое работающее - хз. На следующий скачок в технологиях может и 10 лет уйти.
Тем более что по процам/видяхам тоже замедление - уже давно упираются в предел квантовых явлений. А ИИ, который решает творческие задачи за человека, так и не придумали, лол. Может быть мы на этом технологическом плато и застрянем на пару десятков лет по крайней мере.
>>1459845 Одно слово, которое перекрывает все твои размышления: КАПИТАЛИЗМ.
С одной стороны - из-за капитализма все эти проблемы с компьютерами. С другой стороны - капитализму недолго осталось, если ИИ не запретят.
Почему ИИ могут запретить? Потому что дураки хотят медленной смерти. Что будет, если ИИ не запретят? 50/50: геноцид человечества или утопия.
Если "ИИ запретят", то человечество обречено на мучительную смерть. Если "ИИ выйдет из-под контроля", то смерть = избавление от страданий. Если "ИИ выберет сторону людей", то утопия = избавление от страданий.
В любом случае, терять нам нечего - давим на газ до последнего вздоха.
>>1459843 Ну ты, конечно, ебанько, мы всецело осуждаем. Но у меня вопрос к тюнерам, где рп тюны на тюн аблитерации? Единственное там какой-то мердж на tigerlily, наследованный от tiger gemma. Я не пробовал пока еще.
>>1459936>>1459941 Как вы назовёте общество, в котором никто не может зарабатывать деньги из-за того, что всё автоматизировано? И под "всё" имеется в виду буквально всё: в любой задаче человек уступает автомату, который сам по себе ничего не хочет и не просит ничего, кроме солнечной энергии и немного минералов из почвы для выполнения задачи, которые он сам себе добывает, обслуживая и ремонтируя сам себя без посторонней помощи - и размножается он тоже сам, в любом количестве, пока есть свободная материя и энергия. В чём будет роль "капитала" для такого общества? Что "капитал" будет из себя представлять?
>>1459984 Возможно, главмакакам в т.ч. нравится их главенствующая роль над остальным обществом макак, и даже если прямого практического смысла в этом больше не будет, они, я думаю, будут продолжать цепляться за власть. Базовые инстинкты или типа того. Но вообще это уже оффтопик для данного треда. >>1459950 Двачну, если умной и расцензуренной гемме ещё и завезти разнообразных датасетов в дополнение к старику Хэмлоку, цены бы ей не было.
>>1459637 >>1459641 Когда делали derestricted версию oss-120/oss-20 - ArliAI конвертили модели из mxfp4 в F16. Это, скорее всего, причина, по которой их версии отупели в итоге сильнее, чем способ heretic. Для моделей изначально выпущенных в F16 - derestricted версия лучше сохраняет мозги.
>>1459984 До такого уровня еще лет 50-100. Сейчас ллмки "заменяют" человека процентов на 10-20 максимум. Ни о каком х2 даже речи нет. Ну может быть через 5-10 лет приблизятся к этому как-то, если все не заглохнет. И то, это только для сфер, где иишка сейчас что-то могет, типа примитивный кодинг, рисовач, текста. После этого останутся еще задачи, где нужно будет что-то творческое. А творческих задач жопой жуй. Вот иишка вряд ли на протяжении 50-100 лет к такому приблизится. Ну и за эти 100 лет офк общество будет постепенно адаптироваться к реалиям. Людишки - они живучие как тараканы. Что-нибудь да придумают. Либо сломают все к хуям и начнут заново.
>>1459988 >Возможно, главмакакам в т.ч. нравится их главенствующая роль над остальным обществом макак, и даже если прямого практического смысла в этом больше не будет, они, я думаю, будут продолжать цепляться за власть. Так это дедам по приколу властвовать. Ну и миллениалам частично еще тоже. Зумерам эта хуерга вообще побоку. Есть мизерный шанс, что какое-то переосмысление человека и социума произойдет. Ну либо бумеры и миллениалы отомрут, тогда зумеры почувствуют свободу, наиболее ушлые переделят нажитое, и начинай все с начала.
>>1459843 Всё ещё не то. Даже описав богатый кум гемма будто не понимает что я хочу и очень неохотно подхватывает слова и тупит в позах при сексе, просто её этому не учили и никакой аблитерацией это не убрать. Эхх... Так не хочется русскую карточку на английском отыгрывать, но русик так сосёт...
>>1459793 >Это ты в пейперах прочитал, где служащие корпораций оценивают своего "универсального ассистента"? Нет, ещё хуже, я спросил у нейросети примерный объём по порядке для обучения нейросети. Даже если оставить 1/100 от этого количества - ситуация неподъёмная.
И мне кажется ты сильно заблуждаешься касательно мусорной информации. Знать о столице берлина ей не нужно, но знать другие языки нужно, так как это улучшает её мышление на основном языке. Но что-то ей нужно знать, просто как образец, жевачку для ума, что-то, на чём она будет учиться логике. Вообще без терминов и понятий этого не выйдет, и достаточно глупо игнорировать википедию или худ-лит. >Но вот вопрос: сколько "точности" нужно развратной чатбот-жене, цель которой - болтать со своим единственным пользователем на его компьютере? Охренительно много. Больше, чем для документации технической или статьи какой. Ты интуитивно мгновенно почувствуешь что что-то не так, человек очень хорошо чувствует вот это невербальное между слов - и если у тебя одна её фраза будет несогласовываться с другой, как будто у неё нет внутреннего состояния консистентного со своими убеждениями и их осознание, ты это за 0 секунд поймёшь. И я почти уверен, что никаким промтом ты это консистентное состояние и не задашь, а его надо ещё прям в веса засовывать. >Тебя будет наизнанку выворачивать из-за случайной опечатки в каждом десятом слове? Сомневаюсь. Другая задача. Не допускать опечатки может и lstm-сетка из одного слоя на 4096 нейронов. Я учил по своим записям из дневника, лол, на 1660 ti ноутбучной это заняло несколько минут, и в пунктуацию и правильные слова она обучилось. Это 16M сетка без датасета. Проблема будет не в опечатках, их ты можешь пофиксить отдельной сеткой или даже просто программой вроде ворда. Проблема будет в том, что внутренее консистентное состояние не будет ощущаться. А это очень важно, чтобы тебе было интересно, если речь о чём-то большем, чем имеющиеся ролеплей-сетки предлагают.
>>1459984 Я видел такое общество в crying suns, типичный капитализм.
И к слову там человечество оказалось обречено на крайне мучительную смерть из-за того что решило вот так давить на газ. Ещё и замудохали тех кто был против.
Кстати новая версия тюна у Драммера вышла: https://huggingface.co/TheDrummer/Magidonia-24B-v4.3 Еще Цидонька но её не тестировал еще. По мне так просто охрененная, хорошо держала 55к контекста, в РП показалась логичнее Геммы 27 расцензуренной и интереснее и кум и само РП. Буду дальше смотреть, сегодня всю ночь просидел. Единственное что пишет коротковато, по 600 токенов +-, но бывает и по 1600 иногда выдает (стоял лимит). Ризонинг вкл [think][/think], темпа 0,65, МинП 0,04, Dry 0.55 ренж 3500, такие настройки стояли. Ризонинг компактный, максимально по делу, никаких полотен.
>>1459147 >Taobao Хм, пишут вообще что сомнительная затея этот таобао. Там что-то поверх того, что написано вот на твоих ценах есть? Пошлина, какая таможенная, доставка, ещё что-то? Я пока не логинился, там всё на китайском, уже дома буду с этим разбираться завтра.
С другой стороны я что-то набрал, на таобао получилось 74к, на али 125к+10к(пошлина) за то же самое. За 75к на меня немного поворчит жена, говоря что иди зуб лечи, давай ремонт доделывать и вот это всё. А за 135к уже достаточно сильно поворчит. На самом деле зуб я просто не хочу идти лечить, а на ремонт времени нет, так как на выходных хочется погулять, или ещё что-то своё поделать. К тому же с али я знаком, заказывал всяких микроконтроллеров под сотню раз, знаю как ругаться с продавцами и что делать если кирпич пришлют, а на таобао как я понял с этим сложности.
В общем расскажи про это таобао, мне интересно. Насчёт карточек пока не уверен, но вот свою мелочёвку с микроконтроллерами я попробую оттуда тягать, где не будет обидно, если в какой-то из разов кирпич привезут.
>>1460093 Тестировал еще до релиза. Хорошо получилось, помнит очень много деталей.
Но это и плюс и минус. Персонаж может запомнить вещь, которая предотвращает продвижение сюжета и заставляет топтаться на месте, пока юзер не напишет сам, что сцена завершилась и все разошлись.
>>1459984 >Общество, в котором никто не может зарабатывать деньги из-за того, что всё автоматизировано? >Что "капитал" будет из себя представлять? Власть, очевидно. И материальные блага (недвижимость, возможность путешествовать, личные робокошкодевочки). Вряд ли коммунизм прокатит. Мы такие животные, что нам постоянно хочется получать больше и демонстрировать превосходство над окружающими. Так что описанный тобой сценарий маловероятен - такому просто не позволят случиться.
>>1460093 Ван 2.2, да. Но в аниму и всякое рисованное он очень плох, спасибо художникам пидорасам и хуесосам за то что наныли, и теперь очень мало такого включается в датасеты. А вот в реализме - прям умница (видеорелейтед, недавно генерировал), особенно если не полениться и ручками через Rife до 60fps добить.
>>1459964 > удалили > сходит с ума Ты уж определись, у тебя оно отсутствует или криво работает. >>1459984 Манямир поехавшего. Вот бы тебя во времена промышленной революции, инфаркт жопы бы схватил. >>1459990 Все так, это как lossy-lossy пережатие >>1460099 Потребуется посредник что все купит, упакует, доставит, это не бесплатно. Есть случаи когда цены там не финальные и нужно делать запрос продавцу. С наебом вероятность мала, потому что там дрочево на репутацию, но и возврат в случае чего будет очень геморойным. Зато проебаться на логистике на несколько месяцев посылка может легко. мимо
>>1460113 >Ты уж определись, у тебя оно отсутствует или криво работает. В режим текста у меня на чистой ламе не работает в отличии от кобольда, быстрый гугл скинул ссылку на вопрос в гитхабе где говорили что текст пресет вообще удалили. В логах консоли при каждом запуске вижу как прогружается чат темплейт, в целом я догадываюсь что можно прописать туда свой, но разве он не должен автоматом цепляться из таверны?
>>1460113 Понял, спасибо. Я сам видел, пишут 10-30% посреднику и без него сложно весьма. В цену в карточке не входит доставка, пишут около 1000/кг, с радиаторами тяжёлыми выйдет почти то же самое, что на али. Короче с али закажу, он по какой-то причине возит стабильно за 8-10 дней в мою локацию в МО, а в москву за 20-30 дней. И там хотя бы можно написать продавцу, что не надо изменять способ доставки на почту россии, лол. У них шиза с qr-кодами и приложением (в веб версии нет qr-кода), а приложение у меня не работает, как как оно настолько хорошее, что без сервисов гугла не работает. На специальном отдельном телефоне для установки приложений банков, почт россии, приложений пятёрочки и других сомнительных приложений (приложение банка 500 мб, это вообще что такое?) у меня отдельный телефон без гугл-сервисов.
>>1459621 >пока наконец не оборвёт крайние И карта не сильно таки пострадает, ибо псина перейдёт в х8. Не то чтобы я оправдывал покупку пали, но просто в данном случае проблема не катастрофическая. >>1459650 >1B версию? 8B, меньше они не лепили. >>1459657 >Один чертов кадр? На полторашке 5090 в 512х512 картинку высирает быстрее, чем гемма 27B свой ответ. >>1459669 А это покруче моего выломанного стопора. >>1459793 >Но вот вопрос: сколько "точности" нужно развратной чатбот-жене, цель которой - болтать со своим единственным пользователем на его компьютере? Девять девяток. >Яндекс тренировал сетку для Алисы, которая нужна Яндексу для его продуктов, которые по сути заменяют людям справочники. И что забавно, так это то, что трансформеры в принципе не подходят на роль справочников. >А ещё лучше пойти и шлюху снять, чтобы ИРЛ физика накладывала ограничения на ваши позиции в постели. От шлюх ограничений слишком много, увы. >>1459845 >не имеют реального влияния на визуал >рей трейсинг Шиз, таблы. И да, игры адаптируются под среднее железо. Никто не будет делать игру только под 5090. Средняя игра запускается на нищих 3060, потому что это самая популярная карта. >клауд гейминг сервисов Не взлетели. >>1459861 >сетевые игры уже по сути 50/50 работают по этой схеме В сетевых играх на сервере работает 0,5% вычислений. >>1459950 >где рп тюны на тюн аблитерации Думаю, они ломают модели нахуй. >>1459984 ИЧСХ, людям тоже ничего не нужно, кроме минералов и солнца. Но почему-то экономика существует. >>1460007 >Зумерам эта хуерга вообще побоку. И тут же запрещённые сети с демонстрацией неограниченного потребления. >>1460122 >с коробкой и чеком Чеки рисуются, ничего не значит.
>>1460185 >Чеки рисуются, ничего не значит. Вот щас кто-то побежит распечатывать фейк-накладную из Ситилинка, чтобы продать рабочую видеокарту, просто чтобы сымитировать ее "чистую родословную", ага блять.
Абсолютно нулевой шанс на такую хуйню, когда карта рабочая и не выглядит задристанной/вскрытой.
>>1460197 Да тупа для того чтобы побыстрее слить. Потому что на фоне остальных продавцов, объявление с чеком выглядит привлекательнее. И то что анон именно на нее внимание обратил - это подтверждает.
>>1460201 Смотри по профилям активных перекупов. Че у них берут, по таким ценам и расходится.
При идеальной карточке: > До 80, если хочешь продать по-быстрому (скорее всего барыге) > От 85 это территория товара от перекупов (барыга не клюнет, нормис - может быть)
Конкретно по твоей модели сам решай, стоит ли она наценки сверх рынка за 4080, но обычно людям похуй+поебать на модель. Есть исключения, если карта известна плохим питанием-охладом (или наоборот особо хорошим), но тут тебе самому придется изучать нюансы своей 4080 и делать выводы, стоит ли на нее завышать или занижать цену. В среднем по палате, повторюсь, люди срать хотели на модель - лишь бы работало как надо.
>>1460224 Рекомендую для объявы сделать видос с бенчем в каком-нибудь киберпанке, ну и метрика температур при нагрузке (я даже не уверен, стоит ли именно FurMark снимать - потому что барыги/ремонтники/майнеры часто его показывают - с одной стороны это плюс, а с другой стороны может насторожить пугливых). Народ очень нервный, майнерского говна боятся.
Особый акцент уделяй фоткам. В общем чтоб не гаражная обстановка и качество фоток при хорошем освещении. Ну и акцент на том, что она не вскрывалась и вообще карта-девственница.
>>1460210 Звучит логично, но мне лично как покупателю непонятно, почему я должен покупать б/у 4080 за 80 (и уж тем более больше), если есть 5070 ti за те же деньги новая из магазина. Посмотрел цены, они уже к сотке приблизились. И есть потенциал дальнейшего роста, учитывая ситуацию с памятью. А если ударяться в прогнозы, то как будто бы как со стороны покупателя, так и со стороны продавца наиболее разумным шагом будет включить ждуна. Продавцу - ждать повышения цен, а покупателю - ждать ещё дольше, когда продавцы, задрав цены, столкнутся с нулевым спросом и будут вынуждены откатывать обратно. Но возможно я неправ в своих прогнозах. Ну тогда это имеет больше смысла, но всё равно разрыв как-то маловат, учитывая что на одной чаше весов у нас б/у. Впрочем, продавахам и покупахам виднее, что там и за сколько продавать и покупать. Я лично "рынок" б/у вообще плохо понимаю, когда вижу цены, первый вопрос - "кто это берёт за столько"? Скорее впечатление, что продаваны продавать не хотят, хотят просто сидеть с объявлением и товаром на руках, пока он окончательно не протухнет. Предложения, которые хотя бы можно рассмотреть, приходится мониторить и вылавливать до перекупов, если объявлению больше пары часов и там вкусная цена, можно не звонить.
Аноны, а может кто скинуть готовый пресет для glm? Скачал с реддита несколько штук, но при импорте пишет что не найдено ни одной валидной секции и нихуя не импортируется.
>>1460229 Ну тут нет какой-то конкретной истины...
Категорий товара - ну примерно шесть. > 1. Крупный ритейл (DNS, Citilink, Regard и прочие "гипермаркеты железа"). > 2. Мелкий ритейл. Ларьки с Савёловского/Митинского рынков (не однодневки, а известные). > 3. Частный серяк, продажа нового забугорного товара с рук на Авито. > 4. Барыги. > 5. Адекватное Б/У. > 6. Всратое Б/У.
В группу "лох - не мамонт" входят > 1, 6 Люди покупают оверпрайс или кривое говно.
В группу "риск - мое второе имя" входят > 3, 4, 5 Никаких гарантий, рискуют все.
И вот дело в том, что мелкий ритейл отбирает потенциальных покупателей 5й катеоргии (адекватное б/у), банально из-за более привлекательных условий - ценник чуть выше и какая-никакая гарантия, от месяца до года. Я так брал БП на савёле один раз, он сдох - деньги вернули после отправки на диагностику (ждал месяц). Вот так-то.
>>1460248 https://rentry.org/geechan#model-specific-presets Есть гичан, только немного сам семплеры покрути. Общий промт - меняй в зависимости от типа карточки, он для вката подойдет, но глм не тупая и не вижу смысла зажимать её яйца в такие тиски. Семплеры по сути default, только top K - убери с 400 да температурой поиграйся в зависимости от выдачи.
>>1460116 Там все работает, рассказывай как ты запускаешь чистую ламу. В текст комплишне не может быть пресета, там отправляется сам текст и всем таверна заправляет. >>1460120 Если хочешь сразу пачку заказывать и не спешишь, а не одну и побыстрее, то есть смысл действительно изучить что там с таобао и подыскать выгодные условия. План б всегда есть. >>1460185 > На полторашке 5090 в 512х512 картинку высирает быстрее Быстрее чем токенов в секунду, слишком мелкая модель и нет смысла такое катать.
>>1459984 >Как вы назовёте общество, в котором никто не может зарабатывать деньги из-за того, что всё автоматизировано? Как ты представляешь, чтобы ситуация дошла до такого? Автоматизация не в один щелчок произойдет. Если планомерно будут увольняться люди на промежутке года например, будет расти безработица, это будет заметно для всех (а управленцы скорее всего и заранее будут это видеть), уже тогда какие-то действия начнут предприниматься. Скорее всего гос-ва начнут как-то это регулировать. Самый банальный вариант - безусловный базовый доход. Если никто ничего не начнет регулировать, у безработных людей будет копиться лишняя энергия, которую они с радостью потратят на всякие шатания режима и корпов, ибо заняться больше нечем и терять тоже нечего. Я думаю ни режим, ни корпы не захотят этого.
>>1460334 >Workflow поделишься? Это не в комфи, это тут: https://github.com/deepbeepmeep/Wan2GP Выбираешь Wan 2.2 -> Image2Video 14b -> Enhanced Lightning V2. По настройкам: 4 шага, оба CFG на единичку. Остальное опционально. У меня включена Sage + еще несколько оптимизаций из configuration -> general/performance. Memory Profile - под моё железо, т.е. 12/64.
>Если, оно, конечно в 12 врам влезет Влезет со свистом. И генерация довольно быстрая, 6 минут на видос в 480, 18 минут на 720. Я обычно тестирую промпты на низком разрешении, а потом когда найду годноту - уже в 720 ставлю генерироваться. Выглядит четче/лучше - вот тут в 720p как раз видео >>1460112
В Wan2GP и картинки можно, бтв. В зимаже 1080p картинка - минуту генерируется. В квене 1080p - 40 секунд (нужны 4steps лоры). Контролнеты и под видео и под картинки тоже есть.
А промпты под Ван лучше писать очень подробные, в стиле КИТАЙСКОЙ ПРОЗЫ квена. Я прям посекундно описываю что делает персонаж, что происходит на фоне, куда двигается камера, куда зумит и т.д.
Есть вопрос, связанный с превосходством маши... превосходными машинами. Есть те, кто тестировал РАМошизу ddr3? Какая там будет скорость у moe примерно уровня openai 120b oss? Что туда внятного вообще полезет из моделек? Есть идея собрать копрориг на уровне ddr3 128 Гб на серверной плате + условная v100 или какая-нибудь 3060, просто подбодрить конфиг, чтобы не все на памяти вращалось. Насколько такое вообще жизнеспособно?
>>1457001 (OP) Почаны, поднакиньте годных моделек до 30б для кодинга и в целом интеллекта всякого. Хочу потестить насколько их вообще можно раскочегарить за счет промптов, РАГов, еще чего.
Пока из шорт-листа Девстраль смолл 2, Квен 3 (кодер, инстракт, синкинг, 32б), ГПТ-осс.
Из того что мельком еще глядел, но отбросил по первому впечатлению: Квен2.5 (просто не оч, даже QwQ-32b), СтарКодер2 (вроде хвалят, но я не вкурил какой темплейт нужен, и он хуйню генерил), Гемма 3 (для кодинга как будто не самый топ, и тюнов нет), Дипсик некоторые мелкие модели (просто не оч).
Что еще стоит глянуть? Олмо, Немотрон, Априель, Эрни? Что это за модельки, достойны внимания?
>>1460515 На больших модельках, говорят, кванты не так сильно ебут интеллект, как на маленьких модельках. Так что 3й квант вполне имеет право на существование.
>>1460523 >моделек до 30б для кодинга >Квен 3 (кодер, инстракт, синкинг, 32б), ГПТ-осс А больше ничего и нет. Можешь еще поднапрячься пощупать Qwen-Next (реализация в жоре уже достаточно быстрая для практического использования) И Seed-OSS-36B - но она плотная и будет птицей обломинго
> Олмо, Немотрон, Априель, Эрни Для кодинга однозначно какашко. Как и Гранит.
>>1460516 У меня при генерации текста на ддр3,видеокарта гтх1660 в районе 57 градусов сидит. Практически чилит. А при генерации картинок до 80 доходит. Т.е. ЦП является горлышком. Вот и думой. Хотя учитывая что активных параметров 5b мне кажется на любом риге должна быть приемлемая скорость.
>>1460530 Вывалится гигабайт 5, при ddr4 40 гб/с это 8 т/с, ну с потерями на пересылку пусть 5. С ddr5 ещё лучше. Заслуживает, как минимум, рассмотрения и теста. Я 32B Q8 на 32 ГБ врама гонял, озу как раз ddr4, и вполне себе юзабельно было.
Описал мистральке свою вайфу. Попросил написать пропмпты для изображения-видео, которые понравились бы мужчине. > Продумай сценарии, обстоятельства, эмоции персонажа и окружения, которые могли бы интересовать мужской пол. От спокойных и меланхоличных до эротичных и вызывающих. Один из результатов - девушка на кухне. Нейросетка умнее меня. Я бы до такого не додумался вообще. У меня банально не хватило бы фантазии на такое. Смотрю, чем меня удивят другие. Гамма удивила, напихав в пропты мужиков. Гранит нана оказался довольно безыдейным, напромптил прямо нейропомои. Ни одна моделька не раздела девушку Дважды разные модельки мне предлогали девушку в белом платье на закате. Дважды разные модели предлагали девушку с кофе в руке. магистраль и квен более творческий, чем я, надо запомнить
>>1460516 >Насколько такое вообще жизнеспособно? Настолько, насколько ты готов подождать... >openai 120b oss Фигня таблично-гнездовая, Llama лучше. Имхо, они специально делали его тупым.
>>1460550 >нужно будет 16 плашек Можно найти платы на 24 слота RAM...
>>1460533 >Т.е. ЦП является горлышком. Только если все ядра CPU на 100% забиты. Иначе узкое место - это память или шина.
>>1460555 У всех тюнов мелко-мистраля (а девстраль не что иное как тюн) проблемы с удержанием контекста. Если это не создание каких-то скриптов простейших с 0 - мистраль пососет. Будет по нескольку раз читать одни и те же файлы и в конце концов залупится. Та же херня есть и в гопоте (причем даже большой). Но гопота немного(!) выигрывает за счет скорости и настроек ризонинга. И к мелкой гопоте есть нештатные, но стабильные настройки семплинга при которой она практически не лупиться. --temp 0.8 --min-p 0.05 --top-p 0.8 --top-k 40 --repeat-penalty 1.01 --presence-penalty 1.07
Если же посмотреть официальные настройки семплинга мистраля то увидим там --temp 0.15 - что сразу намекает на какой то пиздец со стабильностью модели.
>>1460561 У Flux2 в качестве текст-энкодера натурально мелко мистраль (гуфы от жоры правда могут не подойти комфи - какая-то несовместимость колхозов, да...) Так вот этап придумывания промптов на SFW изображение теперь можно вообще опускать и кормить флуксо-мистраль просто своей хотелкой написанной как если бы ты с ней разговаривал. И на русском. Можно даже стишки и поэмы скармливать.
>>1460566 > есть обратно-сексисткий мем Это сексистский мем? Нужно обижаться? мимолюблюпокушать >>1460568 Не улетает шишка если представляешь свою любимую вайфу в фартуке на голое тело? (уже опередили) >>1460569 > У всех Усредняешь по моргу и гнойному. Васян тюны такими быть и должны, а девстраль специально на большой контекст тюнился. >>1460584 Давай пикчу, будем видосы из нее делать.
>>1460584 > за отсутствием новых моделей Я вчера баттхёртил от анально забитой нвидиевской... немотрона что ли. Её максимально дубинкой били, чтобы она ничего не сказала лишнего. Небось там внутри ещё дохера проталкивания своих идей в выдаче. И хорошо отзывался о работе гранит-нано. Но гранит нано - работяга, а не выдумщик. Он работает, а не выдумывает увы. >>1460595 > если представляешь свою любимую вайфу в фартуке на голое тело? Да я и от простых видосиков >>1460561 обалдел. Что даже на голое тело не надо. Я просто и не представлял. Ну типа сам себе готовлю каждый день (раз в 3-7 дней готовлю, потом доедаю), сложно было представить в этом что-то эротичное. А нет, можно и эротично описать оказывается.
>>1460557 Потому, что генерация картинок и видео обычно упирается в считалку GPU, и то что еще и CPU с обычным RAM чем то занят - пофиг. А при тексте, особенно если это большой MoE - узким местом становится память и видеопамять. И любая дополнительная работа занимающая пропускную способность RAM = тормоза.
>>1460561 А есть сетка для интерполяции кадров? Я бы лучше нейросетевую дорисовку 12 фпс в 60 фпс посмотрел. По идее задача проще и она быстрее должна работать, чем секунда видео за минуту.
>>1460640 > А есть сетка для интерполяции кадров? Для этого используют RIFE VFI с нужным мультиплаером. Ну и апскейлер какой-нибудь с нужным коэффициентом scale_factor используешь свой любимый. Но она типа... не то что ты ожидаешь, не самое лучшее качество, зато очнеь быстро.
Ну что, кто протестит v100 в обучении лор? Я вот реально думал в начале года собрать риг на mi50 под это дело, но сразу стало понятно что эта идея полная хуйня. А на v100 как будто и нет. Было интересно, как v100 обучает на sdxl. На генерацию плевать, она и так быстрая. Но sdxl уже окончательно устарела, так что теперь скорее интересно че там по z-image? Она же на флеш атеншене, а его под v100 нет, правильно? Пишут что только xformers доступен. Там вот кто-то запилил поддержку FA на тритоне и под винду, но к сожалению только начиная с тьюринга, тобишь следующее поколение после v100 https://github.com/egaoharu-kensei/flash-attention-triton Обучают вроде как все в этой хуйне, в пару кликов. https://github.com/ostris/ai-toolkit Про v100 там нет инфы. Единственный пост с рилейтед-инфой - пиркил с реддита, лол... Простите за нерилейтед, но повторюсь, v100 водится только у вас. Мб продублирую вопрос в sdxl-треде.
>>1460651 Будет медленно, обучение не ее конек. Пытаться запускать откровенно лень из-за заведомо вялого перфоманса. В инфиренсе sdxl по сравнению с 3090 (возможно не все оптимизации задействованы, требуется уточнение) достигает 93% ее перфоманса на лоурезах и ~78% на крупных тайлах. В z-image аналогично от 80% на мелких до 63% на крупных. В wan2.2-14b там, где на 5090 одна итерация занимает 30 секунд тут овер 470секунд, так и не дождался. Модель фп8, должна помещаться в память полностью, так что подключение не должно влиять. В ллм скорость ~90% генерации и 70% процессинга от 3090. Если кто нормально шарит, уверен что оптимизировал и закинет референс скоростей - могу прогнать воркфлоу и замерить скорость.
>>1460640 Нормальной все еще нет. Это легчайшая задача для большой модели, но есть только всякое микроговно полезное для и так плавных сцен. >>1460645 >>1460648 Я с этой хуйней игрался еще лет 5 назад, оно как было говном, так и осталось. Нет контекста кадров, перекрывающиеся объекты пидорасит. Кстати ниша реальна не освоена, хоть сам иди и обучай модели. Главное понимать что для апскейла кадров НЕ достаточно двух смежных кадров, а надо как минимум еще по одному с конца и начала. Но видимо надо еще 5 лет подождать пока столь гениальная мысль посетит умы тех кто зачем-то тратил усилия на такой неюзабельный кал с очевидным результатом. По идее тут надо взять любой видеогенератор с невсратым вае, да и дотюнить его чисто на апскейл с окном в секунду-две. Хз как это сделать технически, но наверное если в модели есть инпут на референс-видео, делается несложно. Ну либо по пайплайну контролнетов.
>>1460640 Topaz AI? Я правда для обычных видиков использовал и в х2 фпс максимум, но вроде неплохо работало. Там сетки и для аниме стиля есть. На счет х5 фпс хз как сработает.
>>1460665 Кстати я когда тестил через кобольд, юзал дефолтный семплер simple balanced. Квант от анслота скорее всего был, q4 k m. Зацикливаний не было.
>>1460675 Хреновые 60фпс лучше идеальных 16фпс. Пользуюсь свп года с ~2014, рифом последние года полтора. Мне норм. Но в одном ты прав - всем реально почему-то похуй на интерполяцию кадров, и это грустно. Нужно больше конкуренции и больше моделей, хороших и разных.
>>1459001 Тебе подсказали Wan2GP, но лучше бери ComfyUI, потому что с ван2гп постоянно прибегают жаловаться, что не работает и никто не может подсказать, а у комфи гораздо лучше поддержка (но говно-интерфейс, но придется привыкнуть).
>>1460516 Если будет 4 канала или больше — то и скорость будет соответствующая, не так плохо.
Жизнеспособно в принципе. Но это именно 4 канала ddr3 = 2 канала ddr4, все дела, то есть ну самое простейшее, и gpt-oss-120b чисто за счет 5b активных попрет норм. Все что выше уже будет печалить.
>>1460690 Если ты смотришь кинцо и удивляешься, почему у тебя на 60гц+ экране дергаются фильмы в 23.976 фпс, ну блять, попробуй поставить рефреш рейт на 23.976 гц. Вся эта дерганность просто из-за несоответствия. А уж если ты надрачиваешь на эффект мыльной оперы (именно сама маняплавность), то в современных телеках и так реализована самая изощренная интерполяция для ебанутых, по сравнению с которой SVP ощущается застрявшим как раз в том далеком 2014 году. Проблемы не существует, она уже решена.
мимо жрал все эти SVP, потом понял каким был долбоебом
>>1460702 >в современных телеках Разумеется речь не идет о китайском калище и всяких сберах с алисами, или что там сейчас впаривают. В них поди интерполяция как в какой-нить Сосони 2010 года
>>1460702 >ты надрачиваешь на эффект мыльной оперы (именно сама маняплавность) this
>то в современных телеках и так реализована самая изощренная интерполяция для ебанутых У меня телек подключен как второй монитор к пекарне, в таком режиме это не включить.
Да никто и не говорит что свп или риф - ультимативное решение. Но это лучшее и единственное что у нас любителей мыльной оперы есть.
>>1460708 > Но это лучшее и единственное что можешь ещё утку дак стейшн lossless scaling использовать. Я так анимцо и фильмы смотрю. Ну те, на которые мне в целом плевать.
>>1460516 >>1460701 > 4 канала или больше > попрет норм Не попрет. Avx2 в платформах с 4 каналами появился начиная с haswell-ep и далее, а это уже ddr4. Без него можно даже не пытаться в инфиренс с оффлоадом, как и без 4х каналов на ддр3.
>>1460685 Qwen-Next 80 - целых две модели. Психокадзе Instruct и его брат Ассистентный Thinking Знаний чуть больше чем у 30. Скорость примерно такая же.
Уже заказал б/у материнку под люникс с V100 и тьмой линий/слотов. Это просто будет немного дольше, я 0 раз собирал ПК и у меня нет запчастей, приедет материнка - беру у дрога блок питания и плашку памяти, чтобы проверить материнку. Потом беру блок питания и плашку памяти, и уже их проверяю с помощью материнке. Потом ещё люникс ставить, который я 0 раз ставил. Первый шаг сделан, лол. Кстати, нашёл видос, где тип запускает нейросеть на V100, и что-то по виду у него под сотку токенов в секунду на сетке под всю память V100. Но это такое, я такой видос сам могу смонтировав сделал вывод текста с задержкой, там нихрена не ясно что и где он запускает.
>>1460648>>1460645>>1460678 А оно справится с аниме анимацией, где файл 24 кадра в секунду, а рисовка в 12 кадров в секунду? Причём нерегулярно, иногда все 24 кадра, иногда пропускаю каждый второй, иногда пропускаю 2/3. Речь именно об этом. Видео с 60 фпс до 300 очень хорошо и SVP делает в реалтайме.
>А можно и без нейросетки. Под винду версия 3 тоже бесплатно, а версия 4 визуально ничем не лучше 3 была, по крайне мере когда я последний раз тыкал. Алгоритм для интерполяции снятого на камеру видео я и сам в рамках хобби писал, в реальном времени он не работал и до svp не дотягивал, но это прям точно не магия. А вот с рисованной анимацией так не выйдет, это какая-то ИИ-полная задача. Как NP-полная, только ИИ-полная.
Я так понял, что с ~32b жить можно еще, но вот на что-то выше рассчитывать уже бесполезно, там скорость будет меньше токена. Но 32b можно запустить и без этой бюджетной некростанции.
>>1460747 >А оно справится с аниме анимацией, где файл 24 кадра в секунду, а рисовка в 12 кадров в секунду? Тут по хорошему надо сначала через ффмпег перегнать в 12 кадров, потом через риф в 48, а оставшиеся добить до 60 через свп, лол. Ебли много, но должно получиться ПРИЕМЛЕМО.
Если зальешь небольшой кусочкек на 10-20 секунд, могу попробовать сделать, всё равно заняться нечем под вечер.
>>1460726 Двощеру проще поверить в мировой заговор и свой неоспоримый авторитет, чем в то что он сам или Жора в очередной раз накосячили. >>1460747 Что за материнка? > и что-то по виду у него под сотку токенов в секунду на сетке 30a3 q6 больше 70т/с на пустом контексте. Проблема только в том, что врам хватает где-то на 70к контекста что грустновато, ну и оно просядет до 40т/с на них.
>>1460726 Похоже на то, что повторяется история как с minimax m2, который ломался с огромным ppl, если выгружать moe слои в озу. Только спустя несколько недель в жоре починили инференс, и модель стала нормально работать.
А вообще думаю что умничка 4 будет совсем скоро. Сначала они выпустили Гемини 3. Буквально только что дистиллировали ее в Гемини Флеш. Ну а дальше будет дистиллят в Гемму. Еще несколько дней потерпеть.
>>1460747 > Уже заказал б/у материнку под люникс с V100 и тьмой линий/слотов. Это просто будет немного дольше, я 0 раз собирал ПК и у меня нет запчастей, приедет материнка - беру у дрога блок питания и плашку памяти, чтобы проверить материнку. Потом беру блок питания и плашку памяти, и уже их проверяю с помощью материнке. Потом ещё люникс ставить, который я 0 раз ставил.
ого, ничоси у нас кадр нарисовался, надо выдать ему погремуху. бомжешиз? люниксошиз? "V100шиз" могут с другим V100шизом перепутать.
Мужики, ёпта бля. Тут такая тема. А какие сейчас инструменты самые топовые для вебмакак? Не тупо вайбкодинг, а работа в команде, я код писать и так умею, но от помощи не откожусь. Я ваще-то neovim люблю с плагинами, а все эти кодексы, копилоты и куросры не про это. Есть что-то что можно подключить к себе в neovim, чтобы он работало рядом с моей православной линукс консолью?
>>1460811 Да у меня доступ есть ко многим не локальным апишкам. Я собсно почему к локалкогосподам этот вопрос пишу, потому что api-холопы, которые сранча с проксей, это в основном дебилы конченные технически. В связи с этим я хотел спросить господ, которые умеют в пердолинг, может есть какие инструменты опенсорсные наподибе кодексов или курсоров, а там бы я сам свои api, ollamы, раги и хуяги подключил. Хочется кодить, как линукс господин с консолькой, но быть на сотрие прогресса.
>>1460804 >А какие сейчас инструменты самые топовые для вебмакак? >а все эти кодексы, копилоты и куросры не про это Но для веба в курсоре как раз запилили какой-то редактор визуальный + встроенный браузер + агент который его "глазами" смотрит. И во все это можно ручками вмешаться, сразу быстро править. >чтобы он работало рядом с моей православной линукс консолью? Как раз все топовые инструменты под ВЕБ не консольные, по очевидным причинам.
Клод код консольный, и его клоны. У меня даже в термуксе на ведре запускался спокойно. В 2 команды, лол, и готово. Как полноценный на десктопе. В этих клодкодах в принципе можно настроить шаблоны на ревью, анализ кода, если тебе не надо генерировать.
>>1460817 >может есть какие инструменты опенсорсные наподибе кодексов или курсоров, а там бы я сам свои api, ollamы, раги и хуяги подключил Ну хуй знает зачем тебе этот пердолинг ради пердолинга. Ну апи свое подключить можно, чтобы было не по подписке, а за токены. Есть такая хуйня чтобы другие модели подключать к клод коду https://github.com/musistudio/claude-code-router Но обычно тебе нужен именно сам клод в нем, ибо все остальное будет сосать. Штатно добавляется просто сторонний провайдер апи клода. Под всякие раги посмотри эту хуйню https://github.com/coleam00/Archon
>>1460831 > https://github.com/musistudio/claude-code-router Ставишь qwen-code @ Делаешь макрос для запуска который закидывает энвы с кастомным оаи-апи на твой локалхост или риг, или как-то еще настраиваешь окружение. @ Довольно урчишь без лишних костылей и специфики промптов под клодыню чтобы не сосать. По крайней мере раньше так было, врядли поменялось.
Удивительно что народ этого не знает и удивляется тетрису. А если у тебя квены на модели - так тем более, с эйром тоже отлично работает.
>>1460837 Клод то уже надрочен в среде клодкода работать, сжатие контекста, индексация (хотя есть ли она там вообще, хз) должны нормально работать. А с другими моделями это все легко начинает сыпаться и делать хуйню. Клодкод сейчас вообще самое адекватное наверное что можно особо не боясь оставить на пол-чата крутиться самостоятельно.
>>1460840 Изначально тулза была для жемини, остальные форкнули и правильно сделали. Для локальных моделей лучше всего работал именно квенкод, едва ли ситуация изменилась. Только если что-то из новых (другого формата) будет тоже приличным.
>>1460073 Кажется, ты единственный, кто серьёзно ответил и при этом достаточно разбираешься в теме. Спасибо.
>Даже если оставить 1/100 от этого количества... >Знать о столице берлина ей не нужно, но знать другие языки нужно, так как это улучшает её мышление на основном языке. Но что-то ей нужно знать, просто как образец, жевачку для ума, что-то, на чём она будет учиться логике. Качество vs количество. Я думаю, ты слишком переоцениваешь количество и при этом сильно недооцениваешь качество информации. Большие корпорации предпочитают количество качеству, т.к. банально дешевле заставить работать сервер с кучей видеокарт, чем специально обученных сотрудников... Однако, как показала практика, "механический турок" оказывается лучше, чем простое вливание грязных, непроверенных данных в огромных количествах. Значительный прогресс в LLM за последние годы - практически целиком за счёт улучшения датасетов в качестве, а не за счёт тупого увеличения количества.
Собственно, проблема Machine Learning в целом - это надежда на то, что некий алгоритм сможет сам, без поддержки человеком, стать подобен человеку в интеллектуальном плане. Вот только своих детей мы воспитываем в индивидуальном порядке, тщательно отбирая данные для обучения, создавая эти данные специально для обучения детей - а не просто кидаем детёныша в огромную библиотеку и ждём от него гениальных открытий как от взрослого учёного. Если рассматривать мозг человека как идеальную базу интеллекта, то при тренировке "как LLM" эта база, я предполагаю, будет очень разочаровывать.
>если у тебя одна её фраза будет несогласовываться с другой, как будто у неё нет внутреннего состояния консистентного со своими убеждениями и их осознание, ты это за 0 секунд поймёшь. И я почти уверен, что никаким промтом ты это консистентное состояние и не задашь, а его надо ещё прям в веса засовывать. Со своей собственной нейросеткой ты можешь что пожелаешь и куда пожелаешь засовывать. Можно организовать классический симулятор а-ля The Sims, соединив его с нейросетью параллельно тексту - т.е. нейросеть будет получать больше, чем просто текст. Человеческие эмоции фундаментально не являются нейросетью, это просто выделения набора веществ в кровеносной системе, которые триггерят нейроны. В компьютерной симуляции это может быть 1 число.
Но, на мой взгляд, проблема "консистентности" LLM заключается, опять же, в том, как и чему их обучают. Человеческий мозг учится "здесь и сейчас" - т.е. он проживает единственную жизнь, и это формирует самоощущение - целостную модель "себя". Это ТЫ управляешь своим телом, ТЫ видишь людей вокруг собственной точки наблюдения, ТЫ высказываешь определённые мнения, ТЫ проживаешь эту жизнь. Языковые модели сейчас лишены всего этого - они тренируются повторять случайные кусочки данных, собранных со всего интернета. Это как если бы человеческого ребёнка телепортировало - или даже переселяло в головы миллионов разных людей. Единственное более-менее консистентное обучение происходит тогда, как LLM учат быть "ассистентом": распознавать, когда юзер обращается к ассистенту, например, т.к. юзер воспринимает LLM как цельную, самостоятельную сущность. Но этого недостаточно.
Более того, возможно, что "промптинг" лишь мешает. Тренировка LLM для "следования промпту" требует воспринимать промпт как истину... Но промпт не обязательно истинный. Если в промпте написано "ты кошкодевочка, ты должна някать", это принуждает языковую модель выдавать токены "ня", но что это предоставляет модели как цельной "Я"-личности? И подобных промптов миллионы. Кто из них - "Я" для конкретной модели, а кто - всего лишь "игра"?
Короче, моё мнение: консистентность человека формируется благодаря консистентности данных, тренирующих мозг на определённое поведение; без консистентных данных даже совершенный алгоритм сформирует безликую, странную кучу, а не человека.
Но и одних качественных данных недостаточно...
>Я учил по своим записям из дневника >Это 16M сетка без датасета. Вряд ли твои записи из дневника сформированы специальным образом, так, что путём их чтения человеческий младенец станет человеком. Чистая нейросеть имеет даже меньше предустановок, чем младенец, но при этом учится речи быстрее - это не кажется странным? Думаю, также важен механизм взаимодействия нейросети с внешним миром...
Для чего вообще люди придумали "языки"? Чтобы передавать друг другу какую-то информацию. Какую информацию передаёт твоя нейросеть, когда ты её заставляешь выбирать следующий символ в тексте? Статистически этот символ может быть наиболее правильным, но человек выбирает символ, чтобы просигналить какую-то информацию наружу мозга. Естественно, что если ты тренируешь нейросеть на бездумный выбор наиболее вероятного символа, передавать важную информацию она не научится.
Если рассмотреть детей: мы учим ребёнка языку для получения информации о состоянии ребёнка, о его настроении, потребностях, а также о том, что он смог заметить вокруг себя только что или в прошлом. Это фундаментальная база для человека. Если б мы тупо натаскивали детей повторять наиболее вероятные в конкретном предложении слова, чему бы они смогли научиться? Следовать синтаксису нашего языка?
Вот если взять The Sims и аналогичные ей игры - у персонажей есть потребности, которые влияют на их состояние, которое влияет на выбор действий. Да, их интеллект крайне слаб и ничему не обучается, но это намного ближе к человеку, чем языковая модель. Да, персонаж не может написать поэму как Пушкин, но способен сообщить, когда его телу нужно в туалет, и использовать AStar для поиска пути к туалету. Этого достаточно для консистентной симуляции человека.
Суммарно, я думаю, верный путь будет таким: 1. Сделать хотя бы минимальную симуляцию тела, формирующую осмысленный фундамент интеллекта: причину взаимодействия с окружающим миром и его объектами, а не бестолковое повторение чужих слов. Сложностей в этом нет - даже игры 90-х такое умели. Главное, чтобы эта симуляция была непрерывной. 2. Сделать качественный, сфокусированный датасет, озабоченный конкретным виртуальным организмом: никаких лишних языков, никаких Википедий, никаких вопросников с ответами "ассистента" - лишь то, что жизненно необходимо для выживания человека в социальной среде, хоть она и на 50% виртуальна. 3. Обучать в режиме онлайн - т.е. "здесь и сейчас", в непрерывном потоке восприятия реальности (на 50% виртуальной), без безумных телепортаций по всему доступному Интернету в отрыве от реальности. Так формируется консистентность новой личности. 4. Относиться к результату как к реальной личности - отношение к ребёнку как к человеку крайне важно в формировании его как личности, иначе опять будет получаться рваная куча субличностей (гуглите DID). Проблема это именно техническая, а не этическая - взаимодействия будут частью "окружающей среды", следовательно, они должны быть консистентны.
Да, работы много, но к железу и данным требования минимальны по объёму/скорости, если исключить визуальный канал информации. Главное тут - чёткий контроль со стороны человека, а не "самообучение".
От корпораций такого ждать бесполезно, они там занимаются совсем другим. Мелкие лаборатории - теоретически, могут, но вряд ли выпустят в опенсурс. Желающим анонам остаётся только запилить самим. Повторюсь: дело не в мощности железа, а в задании конкретных целей и чётком контроле обучения.
>>1459774 >Не держи в себе, рассказывай как что-то будет. Так, блеать. Поставил сегодня, PCI-E через контроллер мматеринки, но это не суть важно для картиночек. Проверил в сценарии своего типичного использования: 1720х736 10 шагов Euler Normal, затем хайрез х2 (т.е. до 3440х1472) с тем же количеством шагов.
Тесла завелась с полпинка (только долго тупил, не поставив в биосе Above 4G decoding), сажу, естественно, пришлось отключить, но с первой сажей, говорят, работает, потом попробую. Пока что тот же клиент, но аргументы запуска --xformers --fast-fp16 (на что-то ругается, возможно хформерсы тоже не работают, а может сажа даже без аргумента пытается запуститься - пока хз)
Генерация: 10/10 [00:03<00:00, 2.76it/s] (даже без сажи быстрее 4060ti) Хуйрез: 10/10 [00:20<00:00, 2.07s/it] (а тут медленнее, скорее всего моментально троттлит под нагревом)
Греется - пиздец. Турбина воет как Юнкерс при пикировании. Надо как минимум менять термопасту и ставить другие прокладки. Ну и турбинку присмотреть другую, вдруг есть потише под такое посадочное место - у этой лопасти милипиздрические, для хоть какого-то потока скорость вращения должна быть огромной. Или, может, трубу какую соорудить от 120мм кулера прямо в отверстие турбины, или распидорасить стенку и продувать вдоль - хз пока в общем. Хотспот остывает крайне неохотно, даже без нагрузки показывает 50 градусов, из-за чего она не просто воет, а ещё и долго воет. Сгенерировать батч из 4-х изображений так и не решился, сгорит ещё.
>>1460912 Скинь тогда еще результаты 4060ти там где генеришь, особенно если не только xl а еще zimage, qwenedit, флюкс, ван и т.д. > Греется - пиздец. Пиздец это сколько? Для сравнения: версия с зеленым адаптером и 9см радиатором + среднепроизводительный 80мм крутилятор имеет суммарные габариты 100x100x170мм. Хз как китайские сумрачные гении этого добились, но управление вентилятором там работает очень даже адекватно. В принципе если нагрузка не больше 2-3 минут то можно ее вообще оставить без крутилятора и поближе к корпусным, в цикле с ~30% активным временем будет успевать остывать. С 80мм кулером под полной нагрузкой она лишь немного выделяется из общего шума, температура 62 градуса. Хз, может тебе просто взять ее родной радиатор и вынести на райзере?
>>1460516 >>1460718 AVX в llama.cpp почти не уступает AVX2, говорю как человек, запускавший два месяца назад. Может с тех пор что-то изменилось, но два месяца назад точно попрет, проверено на v2.
>>1460748 Ну, окей, не буду спорить, в теории же оно виднее, чем на практике.
>>1460775 Z-Image-Turbo с Qwen3-4b тебя чем-то не устраивает?
>>1460804 Путаешь, как раз работа в команде, которую ты просишь — не совсем то, а вот вайб-кодинг — заебато. Посмотри Claude Code, OpenCode, почти все CLI-клиенты предназначены именно для линухи.
Но рил ты если сам писать будешь, что чат для тебя больше подходит, чем программирование с инструментами.
>>1460835 Да? Охуенно, если так и там все как родное. Буду тестить завтра, спс за новость.
У кого-нибудь есть проблема с загрузкой моделей через llama.cpp в данный момент? Начал жаловаться на "error: cannot make GET request: SSL peer certificate or SSH remote key was not OK". Вроде ничего не делал на своей стороне.
Напрямую с сайта модели то качает с нормальной скоростью, то 5кб с падением до нуля. На двух провайдерах такая картина.
>>1460842 >а-ля The Sims, соединив его с нейросетью параллельно тексту >ТЫ проживаешь эту жизнь. Это интересно, да. У меня недоделанная поделка есть, где простой симулятор (уровня https://www.youtube.com/watch?v=fiWsaXuGPNo, у меня там статичные препятствия и надо грибы собирать за наиболее быстрое время. Хотя почему грибы - я даже рендер не делал толком, просто точки), и алгоритм по типу alphazero - но в непрерывном варианте и в моей вольной интерпретации: записываются отрывки по 10 секунд, и после сбора всех грибов/по таймеру считается кто сколько насобирал, и по записанным отрывка обучается, половина примеров положительные, половина отрицательные (точнее, там распределение по очкам). Но там супер простая сетка, около 10к параметров, есть чуть-чуть lstm-ячеек и сканер что вокруг за грибы и препятствия. Было интересно научатся ли они запоминать карту (например в лабиринте) и потом эту информацию использовать. Может быть начнут вообще сначала ходить линиями сканить карту, а потом собирать построив маршрут. Не знаю что получится. Как раз на V100 погоняю эффективнее, мои архитектуры нейронок ещё старше чем V100, оно без проблем справится.
Но в текст страшно лезть, я не верю что это можно обучить. Сделать симулятор посложнее вроде римворлд, где по таким же правилам как в alpha-zero оно играя само с собой научится (да, я знаю что есть другое название специально для алгоритма в непрерывном времени и пространстве, а не для дискретных игр как го или шахматы) действовать ещё можно. Но если закладывать текст - я думаю это или не взлетит, или нужно брать gemma3-1b (для скорости) + собственноручно обученная нейросеть с 10к параметров как с поиском грибов. Обычная не LLM нейросеть смотрит на врагов вокруг, на еду, на уровень жажды, на температуру, на проходимость клеток - и выдаёт параметры выполняющие роль нейромедиаторов, gemma3 же вызывается раз в секунду (то есть пешка остановилась подумать, а не на автомате продолжает деятельность) - и на вход от сети поменьше ей идут сигналы: бешенство (адреналин): 8, страх: 10, комфорт: 2, боль: 0 - ну и так далее, а она должна выдать json-команду с тем, куда пешке пойти и что делать руководствуясь этим + какая-то система саммари, обновления постоянно памяти и вот это всё. В общем это обычный агент фиксированный LLM-агент, к которому ещё вход от мелкой сетки идёт, а вот уже мелкая сетка путём выкручивания чисел страха, комфорта и прочего учится манипулировать большой (сравнительно) LLM-сеткой, а отбор как обычно - по признаку выживания.
В теории при бесконечной вычислительной мощности ты можешь и с нуля запуская пешек в симуляторе при возможности у них общаться добиться возникновения языка, как в том же alpha-zero без обучающих примеров, возможно это даже не самый плохой план (вроде как в случае шахмат и го она обучилась намного быстрее, чем альтернативная сетка с записями тьмы человеческих игр). Это даже логично, пассивное обучения на 40B токенах - это ты за обезъянами в окне смотришь. А когда ты можешь сам потрогать, попробовать, и получить обратную связь от своих действий - в следующем же раунде добавив результаты своих попыток в обучающие примеры - то прямая связь более непосредственная, возможно чего и выйдет. Как минимум это способ пробить потолок, выше которого люди не прыгаю.
Ещё вот этот канал изучи. https://www.youtube.com/watch?v=kojH8a7BW04 Там что-то очень похожее, только не грибы, а гонки. И он прям сначала учит их ездить, потом поощряет отдельно за то что они выполняют какой-то элемент, и... В общем посмотри, тебе понравится почти точно. Я уверен что прорыв будет, когда поймут как вообще без примеров обучать LLM на основе их действий.
>Но промпт не обязательно истинный. Я когда попросил gemma3-e4b проанализировать полностью наш диалог, понять чего я хотел и переписать полностью системный промт - она это сделала, я просто ctrl+c/ctrl+v его вставил, и в следующем раунде она за 2 сообщения ответила мне то, что я выбивал из неё 20 сообщений в первой попытке. Постоянная память туда же, если ты даёшь ей api для сохранения-чтения записей, которые идут после промта, то она намного более консистентна будет. Я не буду переписывать - меня сейчас придушат дома, если я спать не уйду, вот посмотри картинку с идеями, которыми я gpt5.2 мучил, на предмет делал ли кто такое. Возможно что-то из этого тебе интересно. Но опять же - это не учить с нуля, а правильно готовить существующую LLM. Не могу же я ей написать, что не поменяй промт, а скажи в каком тензоре какой вес тебе поменять, чтобы ты лучше следовала своим целям. >Короче, моё мнение: консистентность человека формируется благодаря консистентности данных, тренирующих мозг на определённое поведение Возможно...
>Да, работы много, но к железу и данным требования минимальны по объёму/скорости, если исключить визуальный канал информации. Главное тут - чёткий контроль со стороны человека, а не "самообучение". Не успеваю ответить. Я не согласен про минимальные требования к железу. И наоборот считаю, что самое интересное будет не контроль со стороны человека, а самообучение. Настоящее. Без примеров. В результате естественного отбора. Язык задать лишь как среду, чтобы навыки владения языком были лишь средством. Как у демонов из аниме про Фрирен, лол, что, плохо научились что ли?
Как мне кажется, я понимаю всё о чём - но я сильно расхожусь с тобой в оценках сложности и предпочитаю действовать последовательно: 2D симуляция без сложных абстракций на 10к параметров. 2D симуляция посложнее с ресурсами, едой, временами дня и другими сущностями, 100к параметров. ... ещё 10 шагов ... Обучение естественному языку и выработка нормальной системы принятия решений. Текущие LLM в моём понимании менее живые, чем Alpha-zero, машинки трекмании на видосе выше или даже stockfish. У последних есть цель и движение, они могут действовать в какой-то своей очень узкой реальности.А вот LLM+RAQ система и другой бред о котором я выше писал - сразу оживляет LLM, так как у неё признаки жизни появляются в виде цели и возможности совершенствоваться в некоторой степени. LLM тут не ядро, а просто продвинутый текстовый процессор. А сама жизнь заключена в обучении с подкрепление, в том числе в генетическом алгоритме или другой системе естественно отбора, такая есть во всех приведённых мною примерах. >предпочитаю действовать последовательно И поэтому же я риг из V100 соберу пожалуй, чтобы научится и лучше понять, чем сразу во все тяжкие с 5090/6000.
>>1460754 Нет. Перегнать в 12 фпс можно было и пять лет назад - и SVP более менее это сглаживал и так. Я в вебм-тред постил ещё очень давно. Не стоит даже и пробовать, не развидишь.
Речь именно чтобы в моментах где рисоваки использовали 24 - использовалось 24, а там где 12/8 - то, ну ты понял. Причём сейчас часто это постоянно прыгает, и одновременно одна деталь может быть в 24, а другая в 12. Прогонешь в 12 - потеряешь места где авторы посчитали нужны рисовать 24 кадра, и будут проблемы с пропусками чётных/нечётных кадров. Там же не фиксированные 12 кадров.
>>1460755 На самом деле я пока не до конца определился и заказал три. С двумя эпиками, совсем чудище, и даже дороже V100 32G. Чудище со 160 линией pcie. X399, не серверная.
Думаю больше в сторону последней, аргументов аж четыре: 1. Я хочу на постоянке держать своего дискорд-бота и ещё некоторые фичи для себя, например у меня приходит уведомление если магнитная буря сильнее G6 от NOAA и есть шанс увидеть северное сияние. Я один раз пропустил, как раз из-за того что программа была на моём ноуте, а я его с собой вёз, а прогноз лишь на 3 часа вперёд. Был бы на сервере - узнал бы. Включать громадное чудище, которое наверное в фоне будет греться и требовать кулеров - и маленькая аккуратненькая 399 для моих задач на их фоне выглядит подходящей. 2. Я воткну плашки по 4 ГБ самые обычные с авито по 700 рублей, будет 32 ГБ, хватит на всё. Я не гуглил именно насчёт материнок выше, но вроде как серверные карты обычный UDIMM не принимают часто. На всякий случай надыбал на время и RDIMM и UDIMM. 3. Я всё-таки хочу сначала попробовать насколько это удобно по заранее выбранному плану. Взять материнку с двумя эпиками, потом подумаю, а чего стакать V100, буду стакать 3090/5090, а потом уже и не бомжериг получится.
>>1460780 Можно что-то вроде"5 МБ/с шиз". Это у меня нет альтернативных провайдеров, и такая скорость загрузки. >люниксошиз? Нет, я очень не хотел. Причин аж три: 1. Я ещё хочу воткнуть туда 4 харда по 10-14 ТБ и сделать наконец таки хранилище всех файлов нормальное (чтобы и raid-фигня была, и контрольные суммы всех файлов проверялись - сначала думал говнокодить под винду, я это умею и могу (никакой реализации внятной готовой и стабильной со всеми функциями нет), а тут подвернулась идея с V100 - почему бы не использовать материнку сразу два раза, и дома в локалку воткнуть). А то у меня и умирал хард, и система бекапов мутная и каждый раз своя, и 10 тисков внешних по 1 ТБ - это бред какой-то. 2. Совместимость куды и всех нейротехнологий, многопроцессорных приблуд и прочего с люниксом очевидно выше. 3. Пункт 1 из прошлого пункта. Люникс лучше подходит для работы 24/7 и чтобы не кушать лишние 10 ГБ памяти.
>>1460934 >Хз, может тебе просто взять ее родной радиатор и вынести на райзере? Места в корпусе нет под подобные игрища, увы. >Пиздец это сколько? Хотспот нагрелся до 87, сама видеокарта показала 70+. Всё это менее чем за минуту. Выглядит так, словно там зубная паста вместо термопасты. В целом, наверное, поменяю в относительно ближайшее время темпопасту, термопрокладки, а после праздников что-нибудь напечатаю, чтобы дуть внутрь нормальным крутилятором.
>>1460962 >Z-Image-Turbo с Qwen3-4b тебя чем-то не устраивает? Другой анон, но да. Под аниме - только тюны сдхл. Пони там, люстра, все дела. Ни квен, ни флюкс, ни зимаж в аниме и редкие фетиши совершенно не умеют, многих концепций не знают. Это реализм-онли модели.
Вот тебе фэмили-фрэнли арты с люстры (примеры редкого фетиша), удачи воссоздать в любой современной нейронке.
>>1460978 > ехал люникс через люникс бля я не понимаю это ты троллируешь так или серьёзно пишешь. мы раньше люникс называли люниксом только чтобы потроллить линуксоидов. кароч засим нарекаю тебя "люниксошиз"
>>1460978 > не до конца определился и заказал три Pretty brutal. Ну и отлично, будет интересно посмотреть на такую сборку. >>1460978 > и raid-фигня была, и контрольные суммы всех файлов проверялись - сначала думал говнокодить под винду zfs Ну и кроме прыщей что-то иное там представить невозможно инб4 бсдя, зря оправдываешься перед поехом. >>1460979 > Места в корпусе нет под подобные игрища Так-то это меньше объема, чем занимают жирные видеокарты, обычно в корпусе можно найти вместо снизу или ближе в передней панели. > сама видеокарта показала 70+ Это нормально. Но что так быстро разогревается и при этом воет - не ок, или термопаста вялая, или радиатор очень печальный, возможно с пробитой испарительной камерой. >>1460988 Uohhhh похоже не будет
>>1460259 А можно как-то уменьшить размер выдачи? Вроде стоит как обычно 350 токенов, но пишет дохуя и не очень по делу, типа 70% воды когда можно в 2 предложения это уместить. Сначала нравилось, но быстро утомило эту муть читать, в итоге скипаю просто и трачу токены
>>1461097 Кажется это был я, но я не помню, чтобы это выкладывал... Нет, вообще там так начиналось - была обычная слоповая завязка типа "я сижу в комнате". На что гемма всегда отчевала что-то типа "к вам случит в дверь одноклассница/милфа/етц". И меня так заебал этот слоп, что я открыл портал в зоопарк, притащил оттуда каймановую черепаху и сделал так, что черепаха изнасиловала тян.
>>1460774 не будет 4 геммы. даже китайские зайки забили болт на обещания и высрали только 4.6V. а гугл еще и потролить решил - "нате, наслаждайтесь 270m, нам не жалко"
По какой причине гопота вообще непригодна для рп? Как туда вообще не протек рп датасет и зачем такое делать вообще? Гемма вот отлично может в обычное рп и сейфмакснута при этом
я так понимаю на русском из < 30b моделей, только qwen 30b a3b более менее (и его тюны)? MOE если не было ру датасета вообще двух слов связать не могут
Писал пару дней назад, многие советовали v100 или 3090 на 24гб, но я переобулся что хочу б\у карту и решил брать все новое, почитал что 5070ti на 16 гигов довольно хорошо справляется с ллм и картинками, собрал вот такую сборочку, думаю некороые комплектующие с озона заказать (проц, материнку и память) карту с днс, что думаете насчет подобного конфига? не будет ли проц избыточен для таких задач? или норм если я собираюсь добавить еще одну 5070ti как денюжка накопиться
>>1461269 С таким количеством оперативной (не видео памяти) ты сможешь только анус покрутить. Даже при картинко-генерации все будет в своп вываливаться сладостным геммороем. И SSD закончиться примерно за 2 недели
Оперативку минимум 64, лучше 96 или 128. Дорого? Ну да, брать надо было раньше, очевидно, что поделать. Видяха норм, но на вб 80к стоит, если хочешь — бери там, если готов чутка рискнуть (они рабочие, вопрос лишь с браком и возвратом, но, говорят, через роспотребнадзор мигом вертают). По поводу проца и частоты памяти — я не спец в амд, тут кто-то рассказывал, как амд камни надо выбирать, чтобы он псп выдавал нормальную. Может 9800?
>>1461382 Поясняю. Модель обучена смотреть код — размышлять — создавать команду на запись — писать код в файл — цикл… Она сама делает задачи за тебя: изучает проект, читает файлы, переписывает код, запускает, читает логи, дебажит, короче. Это все то же самое, что и ты делаешь, но просто: а) быстрее чем ты из-за скорости набора текста; б) агент видит весь контекст, а не только то, что ты подал в чат.
>>1460523 Ну я знаю что это можно, только в чате я сам контролирую контекст, я могу хоть целый проект закинуть в gemini 3 pro и бесплатно отработать миллион токенов, модель напишет хороший код. А с этими утилитами, что там, либо плати за токен, тогда будешь трястись за контекст. Либо локальные слабые модели, либо подписка что лучше но все равно модели из середнячков. И ради чего, что бы модель там могла файл создать консоль посмотреть, да я и так модели могу все это скинуть, сам могу файл создать.
>>1461049 вы меня с кем-то путаете, я гетеросексуал >>1461055 драконы ебущие машин это основа, база, фундамент если вы не ебёте свою машину то это просто потому что у вас машины нормальной не было
>>1461401 > если вы не ебёте свою машину Я только вчера масло менял, эта сучка слила 6 литров использованной смазки, а потом я начал заливать новое, свежее, пока она со звуками глыть глыть пыталась не подавился потоками густой жидкости. После чего отшлепав свою девочку по защите, я стал закручивать пробки. И нежно ввел ключ зажигания в её металлическую щелочку и она игриво затарахтела.
БРАТЬЯ БОМЖИ! СОБРАТЬЯ ПО НИЩЕВРАМУ! По результатам тыканья 235 квена, я пришел к выводу что негодяи риговички урчат на годноте, пока мы подбираем объедки!
>>1461392 Сломались например UNIT-тесты. И не один, а пяток. В проекте файликов так на 100. Весь проект в контекстное окно не влезет по любому. Искать в выдачи тестов, что там в каком файлике сломалось, сломался тест или подопытный unit - чтоб накормить этим LLM ... ну это как самому всю работу сделать. А править ошибки юнитов дело неблагодарное и муторное. Ну и вот... настраиваешь тулзу на проект. И просто ей говоришь - -"Хуярь тест. Вот комманда на запуск" Тест пук-среньк - ошибочек портяночка. ЛЛМ такая. - "Аааа, а кто это сделал" . Херак-херак файлы почитала. - "Да насяльника, теперь моя китайская морда усе понимает, насяльника. Я пошла исправлять насяльника. Все-все исправлю, насяльника!" Уходишь обедать, курить, дрочить, качаться пока он там правит. Если есть промпт шкиллы и уверенность в моделе (лол) можно еще ей в начальном промпте сказать, что бы она после правок ОПЯТЬ прогоняла тест и снова правила ошибки. Приходишь с обеда смотришь, что она там наворотила. Если проблемы простые - все будет пофикшено. Если проблемы с подковыркой - т.е. и человек хрен разберется там будет либо чит (типа тест проходит ВСЕГДА - Ну а чо "насяльника сказал, что бы тест не падал" ) либо лапки к верху.
>>1461417 Модель ехидно правит юнит-тест, чтобы всё сходилось. ... Задачка для ллм-сторителлера - придумать занимательное продолжение этой истории. Теги: упавший прод, анал, рейп, гуро, зоофилия с кабаном.
>>1461412 бля я машинокуколд походу, никогда масло сам не менял, отдаю свою милфочку другим мужикам > 235 это ты с ейром сравниваешь? ну а чё ты хотел, на 100Б больше параметров, считай двойной ейр.
>>1461417 Ну хз, не было такого кейса, модуль из nest js отлично влезает, вместе с тестами. Потом говоришь что хочешь поменять, исправить, и готово и в любом случае пока копировал посмотрел что поменялось, а так вслепую я не доверяю. gemini 3 pro вообще вещь сейчас ультимативная, а по подписке ее вроде нет, а за токены платить дорого
>>1461424 > отдаю свою милфочку другим мужикам Если у тебя нет своей ямы, это нормально. Лучше отдать девочку в руки потных механиков, чем угандошить гараж и себя ползая под ней.
> ну а чё ты хотел, на 100Б больше параметров, считай двойной ейр ЧСХ на самом деле разница хоть и ебет, но не так критично как переход с мистрали/геммы на Эйр. Но все равно на карточках что были облизаны Air на сотнях свайпов- ты прям видишь как даже в Q3 квен старается. Хоспаде, а что получают всякие энджоеры условной кими.
>>1461269 Ебануться, такая хуета за 250к. Может, конечно что-то случилось плюс цены на рам, но не настолько же. > 5070ti на 16 гигов Вялая, будешь потом жалеть что не взял больше. Хотя с другой стороны если критерий "новая" определяющий и неоспоримый, то дальше бюджеты уже сильно растут, так что особо без вариантов. > 32рам Совсем мало. > оверпрайс всратая материнка, голдовый бп по цене х1.5 от платины, мусор вместо ссд Плохо >>1461382 Потому что не пробовал и не понимаешь как работает. Для совсем простого можно и побыть прокладкой для чатика, но с чем-то сложнее даже просто выдать уже имеющийся код с его структурой будет заморочным. С готовой же тулзой ллм сама все прочтет, сформирует себе план действий, загуглит и изучит статьи с методами, найдет что-то похожее готовое на гите или еще откуда спиздить, напишет, отладит, структурирует и ридми оформит. А ты лишь на одну твою команду в начале. Кроме того в целом работает эффективнее и экономнее за счет того как это все в промпт упаковывается. >>1461412 > Я только вчера масло менял, эта сучка Лолбля, хорош. > урчат Тут еще с весны урчание идет.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: