Прошлые домены не функционирует! Используйте адрес ARHIVACH.VC.
24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!
Сортировка: за
Активный
452
8 августа 4:50
Активный
417
Midjourney тред #2 — Midjourney — это исследовательская компания и одноименная нейронная сеть, разрабатываемая ею. Это программное обеспечение искусственного интеллекта, которое создаёт изображения по текстовым описаниям. Оно использует технологии генеративно-состязательных сетей и конкурирует на рынке генерации изображений с такими приложениями, как DALL-E от OpenAI и Stable Diffusion. Midjourney была основана в 2016 году одним из создателей технологии Leap Motion Дэвидом Хольцем и в феврале 2020 года была поглощена британским производителем медицинского оборудования компанией Smith & Nephew. С 12 июля 2022 года нейросеть находится в стадии открытого бета-тестирования, и пользователи могут создавать изображения, посылая команды боту в мессенджере Discord. Новые версии выходят каждые несколько месяцев, и в настоящее время планируется выпуск веб-интерфейса. Сайт: https://www.midjourney.com Как пользоваться: https://www.youtube.com/results?search_query=%D0%BA%D0%B0%D0%BA+%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D1%82%D1%8C%D1%81%D1%8F+midjourney
8 августа 4:50
Активный
377
Этика ИИ #3 /ethics/ — Тред по вопросам этики ИИ. Предыдущий >>514476 (OP) Из недавних новостей: - Разработанная в КНР языковая модель Ernie (аналог ChatGPT) призвана "отражать базовые ценности социализма". Она утверждает, что Тайвань - не страна, что уйгуры в Синьцзяне пользуются равным положением с другими этническими группами, а также отрицает известные события на площади Тяньаньмэнь и не хочет говорить про расстрел демонстрантов. https://mpost.io/female-led-ai-startups-face-funding-hurdles-receiving-less-than-3-of-vc-support/ - ИИ - это сугубо мужская сфера? Стартапы в сфере искусственного интеллекта, возглавляемые женщинами, сталкиваются со значительными различиями в объемах финансирования: они получают в среднем в шесть раз меньше капитала за сделку по сравнению со своими аналогами, основанными мужчинами. Многие ИИ-стартапы основаны командами целиком из мужчин. https://www.koreatimes.co.kr/www/opinion/2023/10/638_342796.html - Исследователи из Кореи: модели ИИ для генерации графики склонны создавать гиперсексуализированные изображения женщин. В каждом изображении по умолчанию большая грудь и тому подобное. Это искажает действительность, потому что в реальности далеко не каждая женщина так выглядит. https://mpost.io/openai-may-already-reach-agi-but-will-try-to-downplay-progress-due-to-force-stop/ - Возможно, что OpenAI уже создали AGI, но замалчивают это, принижают свой прогресс и намеренно завышают планку того, что считается полноценным AGI. Тейки из предыдущего треда: 1. Генерация дипфейков. Они могут фабриковаться для дезинформации и деструктивных вбросов, в т.ч. со стороны авторитарных государств. Порнографические дипфейки могут рушить репутацию знаменитостей (например, когда в интернетах вдруг всплывает голая Эмма Уотсон). Возможен даже шантаж через соцсети, обычной тянки, которую правдоподобно "раздели" нейронкой. Или, дипфейк чтобы подвести кого-то под "педофильскую" статью. Еще лет пять назад был скандал вокруг раздевающей нейронки, в итоге все подобные разработки были свернуты. 2. Замещение людей на рынке труда ИИ-системами, которые выполняют те же задачи в 100 раз быстрее. Это относится к цифровым художникам, программистам-джуниорам, писателям. Скоро ИИ потеснит 3д-моделеров, исполнителей музыки, всю отрасль разработки видеоигр и всех в киноиндустрии. При этом многие страны не предлагают спецам адекватной компенсации или хотя бы социальных программ оказания помощи. 3. Распознавание лиц на камерах, и усовершенствование данной технологии. Всё это применяется тоталитарными режимами, чтобы превращать людей в бесправный скот. После опыта в Гонконге Китай допиливает алгоритм, чтобы распознавать и пробивать по базе даже людей в масках - по росту, походке, одежде, любым мелочам. 4. Создание нереалистичных образов и их социальные последствия. Группа южнокорейских исследователей поднимала тему о создании средствами Stable Diffusion и Midjourney не соответствующих действительности (гиперсексуализированных) изображений женщин. Многие пользователи стремятся написать такие промпты, чтобы пикчи были как можно круче, "пизже". Публично доступный "AI art" повышает планку и оказывает давление уже на реальных женщин, которые вынуждены гнаться за неадекватно завышенными стандартами красоты. 5. Возможность создания нелегальной порнографии с несовершеннолетними. Это в свою очередь ведет к нормализации ЦП феноменом "окна Овертона" (сначала обсуждение неприемлемо, затем можно обсуждать и спорить, затем это часть повседневности). Сложности добавляет то, что присутствие обычного прона + обычных детей в дате делает возможным ЦП. Приходится убирать или то, или другое. 6. Кража интеллектуальной собственности. Данные для тренировки передовых моделей были собраны со всего интернета. Ободрали веб-скраппером каждый сайт, каждую платформу для художников, не спрашивая авторов контента. Насколько этичен такой подход? (Уже в DALL-E 3 разработчики всерьез занялись вопросом авторского права.) Кроме того, безответственный подход пользователей, которые постят "оригинальные" изображения, сгенерированные на основе работы художника (ИИ-плагиат). 7. Понижение средней планки произведений искусства: ArtStation и Pixiv засраны дженериком с артефактами, с неправильными кистями рук. 8. Индоктринация пользователей идеями ненависти. Распространение экстремистских идей через языковые модели типа GPT (нацизм и его производные, расизм, антисемитизм, ксенофобия, шовинизм). Зачастую ИИ предвзято относится к меньшинствам, например обрезает групповую фотку, чтобы убрать с нее негра и "улучшить" фото. Это решается фильтрацией данных, ибо говно на входе = говно на выходе. Один старый чатбот в свое время произвел скандал и породил мем "кибернаци", разгадка была проста: его обучали на нефильтрованных текстах из соцсетей. 9. Рост киберпреступности и кража приватных данных. Всё это обостряется вместе с совершенствованием ИИ, который может стать оружием в руках злоумышленника. Более того, корпорация которая владеет проприетарным ИИ, может собирать любые данные, полученные при использовании ИИ. 10. Понижение качества образования, из-за халтуры при написании работ с GPT. Решается через создание ИИ, заточенного на распознавание сгенерированного текста. Но по мере совершенствования моделей придется совершенствовать и меры по борьбе с ИИ-халтурой. 11. Вопросы юридической ответственности. Например, автомобиль с ИИ-автопилотом сбил пешехода. Кому предъявлять обвинение? 12. Оружие и военная техника, автономно управляемые ИИ. Крайне аморальная вещь, даже когда она полностью под контролем владельца. Стивен Хокинг в свое время добивался запрета на военный ИИ.
8 августа 4:50
Сохранен
365
26 марта 17:44
Активный
314
8 августа 4:50
Активный
280
AI Chatbot General № 719 /aicg/ — AI Chatbot General № 719 БОТОДЕЛЫ!!!! Прикрепляйте новых ботов к оп-посту!!!! Общий вопросов по чат-ботам и прочего тред. Фронтенды • SillyTavern: https://github.com/SillyTavern/SillyTavern | https://docs.sillytavern.app | https://github.com/ntvm/SillyTavern (форк нв-куна) • Гайды на таверну: https://rentry.co/Tavern4Retards | https://rentry.org/STAI-Termux (на андроид) • NoAssTavern: https://github.com/Tavernikof/NoAssTavern | https://rentry.org/noasstavern • Agnai: https://agnai.chat/ • Risu: https://risuai.xyz/ • Adventure-UI: https://rentry.co/CYOA_AdventureUI • Cavern: https://github.com/Barbariskaa/Cavern Модели • Claude: https://docs.anthropic.com/en/docs • GPT: https://platform.openai.com/docs • Gemini: https://ai.google.dev/gemini-api/docs • Grok: https://docs.x.ai/docs • DeepSeek: https://api-docs.deepseek.com/ Пресеты • Бургерский список: https://rentry.org/jb-listing • Тредовский список: https://rentry.org/2ch-aicg-jb Полезности • Тредовский список: https://rentry.org/2ch-aicg-utils • Сборник рентри: https://rentry.org/mrhd Ботоводчество • Чуб: https://characterhub.org | https://chub.ai/characters • Гайды: https://rentry.org/meta_botmaking_list | https://rentry.co/card_theory • Боты анонов: https://rentry.org/2chaicgtavernbots | https://rentry.org/2chaicgtavernbots2 | https://rentry.org/2chaicgtavernbots3 • Бургерские боты: https://rentry.org/meta_bot_list Ресурсы • Бесплатные API: https://github.com/cheahjs/free-llm-api-resources • Арена: https://beta.lmarena.ai/ | https://web.lmarena.ai/ • OpenRouter: https://openrouter.ai/ • Чай: https://character.ai/ Прочее • Термины LLM: https://2ch-ai.gitgud.site/wiki/llama/ • База по Клоду: https://rentry.org/how2claude • Чекер ключей: https://github.com/kingbased/keychecker • OAI Прокси: https://gitgud.io/reanon/nonono/ Мета • Архив тредов: https://rentry.org/2ch-aicg-archives3 • Тредовые ивенты: https://rentry.org/2chaicgthemedevents • Реквесты ботоделам: https://rentry.org/2ch-aicg-requests2 • Локальные языковые модели: >>1292947 (OP) • Шаблон шапки: https://rentry.org/shapka_aicg Прошлый тред: >>1308489 (OP)
сегодня 18:24
Сохранен
215
8 октября 2024
Активный
205
Голосовых нейронок тред (TTS, STS, STT) #7 speech /speech/ — Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде. Прошлый тред: >> https://2ch.hk/ai/res/664162.html Вики треда: https://2ch-ai.gitgud.site/wiki/speech/ FAQ Q: Хочу озвучивать пасты с двача голосом Путина/Неко-Арк/и т.п. 1. Используешь любой инструмент для синтеза голоса из текста - есть локальные, есть онлайн через huggingface или в виде ботов в телеге: https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts Спейс без лимитов для EdgeTTS: https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui Так же можно использовать проприетарный комбайн Soundworks (часть фич платная): https://dmkilab.com/soundworks 2. Перегоняешь голос в нужный тебе через RVC. Для него есть огромное число готовых голосов, можно обучать свои модели: https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/ Q: Как делать нейрокаверы? 1. Делишь оригинальную дорожку на вокал и музыку при помощи Ultimate Vocal Remover: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/UVR 2. Преобразуешь дорожку с вокалом к нужному тебе голосу через RVC: https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/ 3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки. Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это. Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов. Q: Хочу говорить в дискорде/телеге голосом определённого персонажа. Используй RVC (запуск через go-realtime-gui.bat) либо Voice Changer: https://github.com/w-okada/voice-changer/blob/master/README_en.md Гайд по Voice Changer, там же рассказывается, как настроить виртуальный микрофон: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer (часть ссылок похоже сдохла) Q: Как обучить свою RVC-модель? Гайд на русском: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/RVC#создание-собственной-модели Гайд на английском: https://docs.aihub.wtf/guide-to-create-a-model/model-training-rvc Определить переобучение через TensorBoard: https://docs.aihub.wtf/guide-to-create-a-model/tensorboard-rvc Если тыква вместо видеокарты, можно тренить в онлайне: https://www.kaggle.com/code/varaslaw/rvc-v2-no-gradio-https-t-me-aisingers-ru/notebook?scriptVersionId=143284909 (инструкция: https://www.youtube .com/watch?v=L-emE1pGUOM ) Q: Надо распознать текст с аудио/видео файла Используй Whisper от OpenAI: https://github.com/openai/whisper Быстрый скомпилированный для винды вариант: https://github.com/Purfview/whisper-standalone-win Так же есть платные решения от Сбера/Яндекса/Тинькофф. Коммерческие системы https://elevenlabs.io перевод видео, синтез и преобразование голоса https://heygen.com перевод видео с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то https://app.suno.ai генератор композиций прямо из текста. Есть отдельный тред на доске >> Шаблон для переката: https://2ch-ai.gitgud.site/wiki/speech/speech-shapka/
8 августа 4:50
Сохранен
202
PygmalionAI тред №8 /pai/ — PygmalionAI тред №8 https://huggingface.co/PygmalionAI PygmalionAI - открытая модель, которая основана на GPT-J и дотренирована в основном с дампов из истории чатов в CharacterAI. Сделана анонами из 4chan, которые сидели в разделе /vt, а затем перешли в /g. Dev от обычной отличается тем, что активно разивается и допиливается, внедряя некоторые особенности. Главным минусом является то, что многие открытые модели использует в основе токенайзер от GPT-2, контекст которого ограничен в 2048 токенов. Другие модели, как GPT-3 и GPT-4, имеют закрытый исходный код. Для тех, у кого есть только Nvidia с 8ГБ видеопамяти, могут использовать Text generation web UI с GPTQ, который снизит точность до 4 бит. Если у вас мало видеопамяти, то только koboldcpp, который использует для работы процессор и оперативную память. Системные требования для PygmalionAI: 16 бит: 14-16 ГБ VRAM, 12ГБ RAM 8 бит: 8 ГБ VRAM, 6 ГБ RAM 4 бит: 4.6 ГБ VRAM, 3-4 ГБ RAM 4 бит Koboldcpp: 8 ГБ RAM Модели, которые квантизировали до 4 бит: GPTQ: https://huggingface.co/mayaeary/pygmalion-6b-4bit-128g - Original https://huggingface.co/mayaeary/pygmalion-6b_dev-4bit-128g - Dev https://huggingface.co/mayaeary/PPO_Pygway-6b-Mix-4bit-128g - микс, где основная модель PygmalionAI - 60%, которая была смешана с Janeway - 20% и pro_hh_gpt-j - 20%. https://huggingface.co/mayaeary/PPO_Pygway-V8p4_Dev-6b-4bit-128g - микс, в котором используется Dev версия PygmalionAI. GGML: https://huggingface.co/alpindale/pygmalion-6b-ggml GUI для PygmalionAI: 1.Text generation web UI https://github.com/oobabooga/text-generation-webui Colab: https://colab.research.google.com/github/oobabooga/AI-Notebooks/blob/main/Colab-TextGen-GPU.ipynb 2.TavernAI. https://github.com/TavernAI/TavernAI https://github.com/SillyLossy/TavernAI - форк, который может запуститься на Android. Colab: https://colab.research.google.com/github/TavernAI/TavernAI/blob/main/colab/GPU.ipynb 3.KoboldAI. https://github.com/KoboldAI/KoboldAI-Client - Official (Стабильная версия) https://github.com/henk717/KoboldAI - United (Экспериментальная версия) https://github.com/LostRuins/koboldcpp - версия, которая может запуститься на процессоре. Colab KoboldAI GPU: https://colab.research.google.com/github/koboldai/KoboldAI-Client/blob/main/colab/GPU.ipynb Colab KoboldAI TPU https://colab.research.google.com/github/KoboldAI/KoboldAI-Client/blob/main/colab/TPU.ipynb - Пока Google не исправит драйвера для TPU, эта версия бесполезна. Полезные ссылки: https://rentry.org/2ch-pygmalionlinks Промпты от анонов с 2ch: https://rentry.org/2ch-pygmaprompts Гайды по установке интерфейсов: https://rentry.org/pygmai-guifaq Шапка треда: https://rentry.org/2ch-pygma-thread Предыдущий тред >>203352 (OP)
21 февраля 2024
Активный
184
Нейродвача и искуственных борд тред — Недавно в бредаче всплыл интересный тред посвященный генератору постов двача на основе ИИ. И генератор совершенно не хуйня и он вполне себе хорошо копирует слог среднего анона и даже превосходит его. "Аноны" метко подшучивают над опом и темой его поста и если развитие проектов такого типа продолжиться то каждый "анон" в сгенереном треде будет иметь свое мнение и личность и можно будет уже самому с ними посраться, появятся шизы. Хочу создать тред исключительно по данной теме, если это продвинется дальше то каждый сможет иметь свой офлайн двач с куклами, пони, бесконечными консолесрачами и постами в стиле того самого без всяких новомодных течений. Можно будет вернуться в любую эпоху и имитировать даже несуществующие эпохи двача типа если бы двач существовал при царе Рюрике, Сталине и тд. Все приведено естественно как пример. Также реквестирую в тред любые материалы по теме генерации борд в режиме реального времени если они у вас имеются. Генератор тредшотов: https://glif.app/@Meson/glifs/cm2e1w1g300024yvf141n7ot0 https://arhivach.xyz/thread/1084063/
8 августа 4:50
Сохранен
176
Modelscope text-to-video — У нас есть Stable diffusion, NovelAI треды, теперь text-to-video нить иди. Из опенсорса, актуальная система - Modelscope, примерно на том же уровне развития что первый DALL-E или "сырой" Latent Diffusion до появления Stable Diffusion. Кадров выходит маловато, но есть модели типа FILM для интерполяции (нарисовать промежуточные кадры). Звука "из коробки" нет. На момент создания треда, эти два спейса рабочие: https://huggingface.co/spaces/MaxLess/text-to-video-synth https://huggingface.co/spaces/jwhh91/modelscope-text-to-video-synthesis Колаб https://colab.research.google.com/drive/1uW1ZqswkQ9Z9bp5Nbo5z59cAn7I0hE6R?usp=sharing Пишите промпт на английском - что-нибудь про объект и его происходящее действие (движение). Результат будет отображаться как пустой черный квадрат, но не пугайтесь - жмите "воспроизвести". Мои примеры на ОПе: 1. a car, perfect movie cinematic 2. luxurious car, perfect movie cinematic 3. first person shooter game, unreal engine 4. anime cinematic, anime girl female character dancing, unreal engine Цензура отсутствует, однако модель сравнительно слабая и с тоннами ватермарок.В основном она для "реалистичного стиля" - мультфильмы получаются так себе. На мой взгляд, ее наибольшая ценность в том, что она подтверждает возможность генерации видео, анимации и фильмов на сравнительно слабых видеокартах. Другой вариант - CogVideo от товарищей из КНР. Новинка от Runway, пока в закрытом тестировании: https://www.youtube.com/watch?v=trXPfpV5iRQ
29 июня 2024
Активный
171
ChatGPT-тред №20 /chatgpt/ — Общаемся с самым продвинутым ИИ самой продвинутой текстовой моделью из доступных. Горим с ограничений, лимитов и банов, генерим пикчи в стиле Studio Ghibli и Венеры Милосской и обоссываем пользователей других нейросетей по мере возможности. Общение доступно на https://chatgpt.com/ , бесплатно без СМС и регистрации. Регистрация открывает функции создания изображений (может ограничиваться при высокой нагрузке), а подписка за $20 даёт доступ к новейшим моделям и продвинутым функциям. Бояре могут заплатить 200 баксов и получить персонального учёного (почти). Гайд по регистрации из России (устарел, нуждается в перепроверке): 1. Установи VPN, например расширение FreeVPN под свой любимый браузер и включи его. 2. Возьми нормальную почту. Адреса со многих сервисов временной почты блокируются. Отбитые могут использовать почту в RU зоне, она прекрасно работает. 3. Зайди на https://chatgpt.com/ и начни регистрацию. Ссылку активации с почты запускай только со включенным VPN. 4. Если попросят указать номер мобильного, пиздуй на sms-activate.org или 5sim.biz (дешевле) и в строку выбора услуг вбей openai. Для разового получения смс для регистрации тебе хватит индийского или польского номера за 7 - 10 рублей. Пользоваться Индонезией и странами под санкциями не рекомендуется. 5. Начинай пользоваться ChatGPT. 6. ??? 7. PROFIT! VPN не отключаем, все заходы осуществляем с ним. Соответствие страны VPN, почты и номера не обязательно, но желательно для тех, кому доступ критически нужен, например для работы. Для ленивых есть боты в телеге, 3 сорта: 0. Боты без истории сообщений. Каждое сообщение отправляется изолировано, диалог с ИИ невозможен, проёбывается 95% возможностей ИИ 1. Общая история на всех пользователей, говно даже хуже, чем выше 2. Приватная история на каждого пользователя, может реагировать на команды по изменению поведения и прочее. Говно, ибо платно, а бесплатный лимит или маленький, или его нет совсем. Промты для хорошего начала беседы для разных ситуаций https://github.com/f/awesome-chatgpt-prompts Перед тем, как идти в тред с горящей жопой при ошибках сервиса, сходи на сайт со статусом, может, это общий сбой https://status.openai.com/ Приложение на андроид https://4pda.to/forum/index.php?showtopic=1073274 Чат помнит историю в пределах контекста, размер которого зависит от модели. Посчитать свои токены можно здесь: https://platform.openai.com/tokenizer Что может нейросеть: - писать тексты, выглядящие правдоподобно - решать некоторые простые задачки - писать код, который уже был написан Что не может нейросеть: - писать тексты, содержащие только истину - решать сложные задачи - писать сложный код - захватывать мир С последними обновлениями начинает всё чаще сопротивляться написанию NSFW историй и прочего запрещённого контента. Кумеры со всего мира в печали. Прошлый тред тонет по адресу: >>1125882 (OP)
сегодня 16:58
Активный
166
ИИ-видео №13 /video/ — Генерируем свое (и постим чужое) в Hunyuan, Wan, Veo3, Luma Dream Machine, Hailuo Minimax, Kling, Sora, Vidu, Runway, Pixverse, Pika и др. сервисах. 1. Hailuo Minimax https://hailuoai.video/ 2. Kling https://klingai.com/ 3. Sora от OpenAI https://openai.com/sora/ 4. Luma Dream Machine https://lumalabs.ai/ 5. Vidu https://www.vidu.com/create 6. Pixverse https://app.pixverse.ai/ 7. Pika https://pika.art/try 8. Runway Gen. 4 https://runwayml.com/ 9. Wan от Alibaba https://wan.video/ 10. Veo3 от Google https://deepmind.google/models/veo/ Сайты, где можно попробовать генерации на разных моделях https://nim.video/ https://pollo.ai/ https://www.florafauna.ai/ Коллекция ИИ-видео: https://www.reddit.com/r/aivideo/ Локальные модели 1. Hunyuan от Tencent https://hunyuanvideoai.com/ https://github.com/Tencent/HunyuanVideo 2. Wan от Alibaba https://github.com/Wan-Video/Wan2.1 https://github.com/Wan-Video/Wan2.2 3. MAGI-1 от Sand AI https://sand.ai/magi https://github.com/SandAI-org/MAGI-1 Локальный UI https://github.com/comfyanonymous/ComfyUI Установка локальных моделей Hunyuan Video: https://comfyanonymous.github.io/ComfyUI_examples/hunyuan_video/ Wan 2.1: https://comfyanonymous.github.io/ComfyUI_examples/wan/ Wan 2.2: https://comfyanonymous.github.io/ComfyUI_examples/wan22/ Гайд для использования Wan 2.2: https://alidocs.dingtalk.com/i/nodes/EpGBa2Lm8aZxe5myC99MelA2WgN7R35y Альтернативные ноды ComfyUI Hunyuan Video: https://github.com/kijai/ComfyUI-HunyuanVideoWrapper Wan 2.1: https://github.com/kijai/ComfyUI-WanVideoWrapper Квантованные чекпоинты Hunyuan Video (GGUF): https://huggingface.co/Kijai/SkyReels-V1-Hunyuan_comfy/tree/main Wan 2.1 (GGUF): https://huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf/tree/main Wan 2.1 (NF4): https://civitai.com/models/1299436?modelVersionId=1466629 Где брать готовые LoRA https://civitai.com/models Hunyuan Video: https://civitai.com/search/models?baseModel=Hunyuan%20Video&sortBy=models_v9 Wan 2.1: https://civitai.com/search/models?baseModel=Wan%20Video&sortBy=models_v9 Обучение LoRA https://github.com/tdrussell/diffusion-pipe Предыдущий тред >>1287986 (OP)
сегодня 15:26
Сохранен
123
17 ноября 2023
Активный
112
Stable Diffusion технотред #20 /tech/ — ИТТ делимся советами, лайфхаками, наблюдениями, результатами обучения, обсуждаем внутреннее устройство диффузионных моделей, собираем датасеты, решаем проблемы и экспериментируем Тред общенаправленныей, тренировка дедов, лупоглазых и фуррей приветствуются Предыдущий тред: >>1118663 (OP) ➤ Софт для обучения https://github.com/kohya-ss/sd-scripts Набор скриптов для тренировки, используется под капотом в большей части готовых GUI и прочих скриптах. Для удобства запуска можно использовать дополнительные скрипты в целях передачи параметров, например: https://rentry.org/simple_kohya_ss https://github.com/bghira/SimpleTuner Линукс онли, бэк отличается от сд-скриптс https://github.com/Nerogar/OneTrainer Фич меньше, чем в сд-скриптс, бэк тоже свой ➤ GUI-обёртки для sd-scripts https://github.com/bmaltais/kohya_ss https://github.com/derrian-distro/LoRA_Easy_Training_Scripts ➤ Обучение SDXL https://2ch-ai.gitgud.site/wiki/tech/sdxl/ ➤ Flux https://2ch-ai.gitgud.site/wiki/nai/models/flux/ ➤ Гайды по обучению Существующую модель можно обучить симулировать определенный стиль или рисовать конкретного персонажа. ✱ LoRA – "Low Rank Adaptation" – подойдет для любых задач. Отличается малыми требованиями к VRAM (6 Гб+) и быстрым обучением. https://github.com/cloneofsimo/lora - изначальная имплементация алгоритма, пришедшая из мира архитектуры transformers, тренирует лишь attention слои, гайды по тренировкам: https://rentry.co/waavd - гайд по подготовке датасета и обучению LoRA для неофитов https://rentry.org/2chAI_hard_LoRA_guide - ещё один гайд по использованию и обучению LoRA https://rentry.org/59xed3 - более углубленный гайд по лорам, содержит много инфы для уже разбирающихся (англ.) ✱ LyCORIS (Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion) - проект по созданию алгоритмов для обучения дополнительных частей модели. Ранее имел название LoCon и предлагал лишь тренировку дополнительных conv слоёв. В настоящий момент включает в себя алгоритмы LoCon, LoHa, LoKr, DyLoRA, IA3, а так же на последних dev ветках возможность тренировки всех (или не всех, в зависимости от конфига) частей сети на выбранном ранге: https://github.com/KohakuBlueleaf/LyCORIS Подробнее про алгоритмы в вики https://2ch-ai.gitgud.site/wiki/tech/lycoris/ ✱ Dreambooth – для SD 1.5 обучение доступно начиная с 16 GB VRAM. Ни одна из потребительских карт не осилит тренировку будки для SDXL. Выдаёт отличные результаты. Генерирует полноразмерные модели: https://rentry.co/lycoris-and-lora-from-dreambooth (англ.) https://github.com/nitrosocke/dreambooth-training-guide (англ.) https://rentry.org/lora-is-not-a-finetune (англ.) ✱ Текстуальная инверсия (Textual inversion), или же просто Embedding, может подойти, если сеть уже умеет рисовать что-то похожее, этот способ тренирует лишь текстовый энкодер модели, не затрагивая UNet: https://rentry.org/textard (англ.) ➤ Тренировка YOLO-моделей для ADetailer: YOLO-модели (You Only Look Once) могут быть обучены для поиска определённых объектов на изображении. В паре с ADetailer они могут быть использованы для автоматического инпеинта по найденной области. Подробнее в вики: https://2ch-ai.gitgud.site/wiki/tech/yolo/ Не забываем про золотое правило GIGO ("Garbage in, garbage out"): какой датасет, такой и результат. ➤ Гугл колабы ﹡Текстуальная инверсия: https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/sd_textual_inversion_training.ipynb ﹡Dreambooth: https://colab.research.google.com/github/TheLastBen/fast-stable-diffusion/blob/main/fast-DreamBooth.ipynb ﹡LoRA https://colab.research.google.com/github/hollowstrawberry/kohya-colab/blob/main/Lora_Trainer.ipynb ➤ Полезное Расширение для фикса CLIP модели, изменения её точности в один клик и более продвинутых вещей, по типу замены клипа на кастомный: https://github.com/arenasys/stable-diffusion-webui-model-toolkit Гайд по блок мерджингу: https://rentry.org/BlockMergeExplained (англ.) Гайд по ControlNet: https://stable-diffusion-art.com/controlnet (англ.) Подборка мокрописек для датасетов от анона: https://rentry.org/te3oh Группы тегов для бур: https://danbooru.donmai.us/wiki_pages/tag_groups (англ.) NLP тэггер для кэпшенов T5: https://github.com/2dameneko/ide-cap-chan (gui), https://huggingface.co/Minthy/ToriiGate-v0.3 (модель), https://huggingface.co/2dameneko/ToriiGate-v0.3-nf4/tree/main (квант для врамлетов) Оптимайзеры: https://2ch-ai.gitgud.site/wiki/tech/optimizers/ Визуализация работы разных оптимайзеров: https://github.com/kozistr/pytorch_optimizer/blob/main/docs/visualization.md Гайды по апскейлу от анонов: https://rentry.org/SD_upscale https://rentry.org/sd__upscale https://rentry.org/2ch_nai_guide#апскейл https://rentry.org/UpscaleByControl Старая коллекция лор от анонов: https://rentry.org/2chAI_LoRA Гайды, эмбеды, хайпернетворки, лоры с форча: https://rentry.org/sdgoldmine https://rentry.org/sdg-link https://rentry.org/hdgfaq https://rentry.org/hdglorarepo https://gitgud.io/badhands/makesomefuckingporn https://rentry.org/ponyxl_loras_n_stuff - пони лоры https://rentry.org/illustrious_loras_n_stuff - люстролоры ➤ Legacy ссылки на устаревшие технологии и гайды с дополнительной информацией https://2ch-ai.gitgud.site/wiki/tech/legacy/ ➤ Прошлые треды https://2ch-ai.gitgud.site/wiki/tech/old_threads/ Шапка: https://2ch-ai.gitgud.site/wiki/tech/tech-shapka/
вчера 15:40
Сохранен
109
Google Gemini №1 — Гугл выкатили нечто ЭПИЧЕСКОЕ. Мультимодальная модель, способная понимать не только текст, но и картинки, видео, аудио инпуты, способная генерировать картинки и текст в пределах одной модели, не используя стороннии как это делает например ChatGPT. Ссылки: Интродакшн к Gemini: https://deepmind.google/technologies/gemini/#introduction Google Bard, где можно потыкать (Нужен впн) среднюю по возможностям Gemini модель (Всего их три): https://bard.google.com/chat Крутой видос с демонстрацией возможностей: https://www.youtube.com/watch?v=UIZAiXYceBI Кратки FAQ: — Зачем этот тред, если уже есть мертвый Bard тред? — Gemini =/= Bard, Бард - это всего лишь интерфейс для общения, в виде чата. Он реализован на одной из гугловских моделей, раньше это был убогий PaLM теперь его переведут на Gemini. Gemeni же - это ядро, это то к чему разработчики будут иметь доступ через апи, это мозг, это самв револючионная нейросетка, которая единолично имеет хайпа больше чем сам Bard.
26 января 22:11
Сохранен
97
Главный прорыв десятилетия! — Пару дней назад учёные из MIT представили революционную архитектуру глубокого обучения KAN, которая произвела фурор среди исследователей, став настоящей сенсацией. Говорят, что возможно это самый грандиозный прорыв в ИИ за последние 50 лет. Многие его окрестили, как Deep Learning 2.0 В основе всех архитектур, к которым мы привыкли, лежит многослойный перцептрон (MLP). У него есть веса и нейроны, в которых расположены функции активации. Этой парадигмой ученые пользуются с 1957 года, когда ее предложил Фрэнк Розенблатт. А что, если мы переместим функции активации на веса и сделаем из обучаемыми? Звучит как бред, но yes, we KAN. KAN (Kolmogorov-Arnold Networks) - новая парадигма, в которой исследователи реализовали перемещение активаций на «ребра» сети. Кажется, что решение взято из ниоткуда, но на самом деле тут зашита глубокая связь с математикой: в частности, с теоремами универсальной аппроксимации и аппроксимации Колмогорова-Арнольда. KAN работает намного точнее, чем MLP гораздо большего размера, и к тому же лучше интерпретируется. Авторы KAN доказали, что ему требуется во много раз меньше нейронов, чтобы достичь точности MLP. Также KAN гораздо лучше генерализует данные и лучше справляется с аппроксимацией сложных математических функций (мы увидели это на примерах), у него, можно сказать, "технический склад ума". В статье исследователи также показали, как KAN помогает решать дифференциальные уравнения и (пере)открывает законы физики и математики. Единственный минус: из-за обучаемых активаций тренится все это дело в разы дольше, чем MLP. Но это не точно, так как исследователи пока даже не пытались провести оптимизацию скорости обучения. Возможно сегодня мы наблюдаем рождение Deep Learning 2.0. Ведь такой подход меняет вообще все, от LSTM до трансформеров. Эпоха AGI теперь становится куда ближе. Тут подробнее простыми словами: https://datasecrets.ru/articles/9 Ссылка на препринт: https://arxiv.org/abs/2404.19756 Код тут: https://github.com/KindXiaoming/pykan
17 января 22:52
Сохранен
92
14 марта 2024
Сохранен
86
18 февраля 19:10
Сохранен
82
Разумный ИИ невозможен — На текущих архитектурах и железе. Биология определяет жизнь через набор свойств: Гомеостаз — стабильность. Размножение — создание вариативных копий. Эволюционность — адаптация через изменения. Раздражимость — реакция на стимулы. Адаптивность — активное взаимодействие с внешней средой. Интеллект — способность живых существ к целеполаганию, планированию, обучению, рефлексии, моделированию и решению задач. В широком смысле, интеллект это более сложный механизм позволяющий организмам быть более гибкими и эффективнее выполнять предыдущие свойства. На более высоких уровнях включает в себя наличие идентичности, самоосознания, разумности. То есть, организм это стабильная, адаптивная система активно взаимодействующая со средой, у которой в результате репликации образуются полезные мутации позволяющие ей выживать. Ключевым является наличие среды с которой приходится взаимодействовать, например у некоторых червей есть генетически закреплённая морфология рецепторов и нейронов развившаяся в результате эволюции, что позволяет им рефлекторно реагировать на токсичную среду. В каком-то смысле их поведение запрограммировано. Сложные многоклеточные организмы состоят из организмов помельче, к которым так же относятся все эти правила. Они так же адаптивны и изменчивы. Недостаточно просто собрать кучу нейронов, провести рандомные связи между ними и надеяться что это сработает. Организм должен развиваться эволюционным путём закрепляя полезные мутации, формируя сложную топологию связей, которая отвечает вызовам окружающей среды. Как работают биологические аналоги В мозге происходит то что можно охарактеризовать как порядок из хаоса. Мало того что среда постоянно меняется, меняется и внутреннее состояние организма. На уровне нейронов есть множество переменных и случайностей, вроде случайного соотношения ионов на мембране, вероятностной специфики высвобождения нейромедиатора и его количества, спонтанной генерации спайка, что в масштабе приводит к случайному усилению случайных связей и ослаблению других, а в динамике к закреплению новых связей и новым реакциям. Текущие нейросети вроде GPT фиксированы, они не передают спайки, они не умеют добавлять новые нейроны, кратковременно или долговременно усилять и ослаблять связи, новые связи не растут, их веса статичны, активация строго определена, в них нет множества случайных переменных, аналога тормозящих и активирующих нейромедиаторов, я уже не говорю про закрепление эволюционно полезных связей, их архитектура нацелена на целенаправленное конечное обучение и выполнение чёткой задачи, они не автономны, а тупое масштабирование которым занимается Openai не приведёт к появлению осознанного субъективного восприятия. Это будет супер-продвинутый справочник, который хорошо пишет код и выполняет заданные ему людьми цели. Для появления первого цифрового организма отсутствует даже цифровая среда, в которой этот организм мог бы развиваться. Пытались сделать нематоду, что требовало особой архитектуры, моделирования мышц, рецепторов, среды, условно питательных веществ. Сделали в итоге какую-то ерунду, на упрощенной всратой архитектуре, которая даже не живая, а будет ли она живая большой вопрос. Про психику Это тело, мозг(сети-сетей-сетей-гиперсетей) где каждая сеть имеет свою эволюционно сформированную топологию, морфологию, специализацию, функцию, реакции посредством которых в результате индивидуального развития формируется психика: распознавание себя в зеркале, определение своих границ, разделение внутреннего и внешнего мира. Неизвестно какая будет психика у ИИ и будет ли вообще, потому что её появление это процесс динамический и эволюционный. Чтобы смоделировать всё это даже в упрощённом варианте нужны огромнейшие вычислительные мощности и правильная архитектура. В обратном случае, это будет не более чем продвинутый справочник за 500 млрд.
14 июля 12:30
Сохранен
48
17 января 2024
Сохранен
45
12 ноября 2023
Сохранен
42
24 апреля 2023
Сохранен
40
5 декабря 2024
Сохранен
39
14 октября 2023