Прошлые домены не функционирует! Используйте адрес
ARHIVACH.VC.
24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна.
Подробности случившегося. Мы призываем всех неравнодушных
помочь нам с восстановлением утраченного контента!
Для мониторинга интернета и выявления запрещенной законом информации Роскомнадзор использует несколько автоматизированных систем. С их помощью удалось значительно повысить скорость и точность поиска противоправного контента — от продажи наркотиков и призывов к суициду до экстремистских материалов и детской порнографии. О том, как именно работают эти системы, в интервью «Известиям» рассказал заместитель руководителя Роскомнадзора Вадим Субботин.
— Очевидно, что объем деструктивного контента растет пропорционально в целом ежегодно растущим объемам информации, которые пользователи публикуют в Сети. Когда стало понятно, что с помощью одного только ручного мониторинга уже не справиться с такими масштабами «запрещенки»?
— Еще в 2012 году мы говорили только о трех видах самой опасной информации — детской порнографии, пропаганде наркотиков и призывах к суициду. Но прошло совсем немного времени, и список существенно расширился. Добавилась информация, направленная на вовлечение детей в совершение преступлений, сведения о способах изготовления взрывчатки, пропаганда смены пола и др. Проще говоря, информационных угроз стало настолько много, что одних только глаз дежурных мониторщиков и сигналов от бдительных граждан уже недостаточно. Тем более что часть запрещенной информации мы должны блокировать очень оперативно — взять хотя бы призывы к терроризму.
Время реагирования ведомства на противоправный контент с момента его появления сейчас составляет от нескольких минут до шести часов. Многое также значит и контекст: есть материалы, для оценки которых экспертам необходимо глубокое погружение. Это может занимать определенное время, но, как показывает практика, от подобной экспертной оценки зависит правильность принятия решения о блокировке информации. А его в конечном итоге, подчеркну, всегда принимают эксперты — наши штатные психологи, лингвисты, искусствоведы.
— Какие именно автоматизированные системы есть в арсенале ведомства?
— Для мониторинга сетевых СМИ мы используем Автоматизированную систему мониторинга средств массовых коммуникаций. Для мониторинга материалов на теле- и радиоканалах, соответственно, используется Автоматизированная система мониторинга теле-, радиовещания. За поиск противоправного контента на интернет-сайтах и в соцсетях отвечает «Чистый интернет», который состоит из различных модулей, анализирующих текстовую информацию, транскрибирующих аудио. В системах применяются различные нейросетевые технологии, есть наработки, которые показывают определенные результаты в автоматизированном анализе изображений и видео (например, модуль «Окулус).
— По данным Brand Analytics, сейчас только в соцсетях пользователи публикуют 3 млрд сообщений в месяц. А как ваши системы при таких объемах контента определяют, за что хвататься в первую очередь?
— Фактически они имитируют пользовательское поведение. Сначала интернет-пространство «пылесосят» краулеры, или поисковые роботы, — в некотором роде наши «рядовые помощники», для которых запросы составляют эксперты ведомства. Затем найденная информация проходит несколько стадий проверки.
На первой фильтруется повторяющийся и удаленный контент — остается только доступный и уникальный. Дальше начинается этап, который может задействовать различные модули наших аналитических систем — по отдельности или вместе. Например, это анализ лингвистическими словарями, который с помощью регулярных выражений ищет текстовые совпадения. Или единый модуль анализа (ЕМА), который с помощью нейросетевых моделей ищет смысловые признаки нарушений в тексте.
Объясню на примере. Допустим, система скачала пост из соцсети с текстом и изображением, в которых есть реклама наркотического маркетплейса. Лингвистический словарь найдет определенные маркеры, например название маркетплейса и сопутствующие ключевые слова. ЕМА подтвердит контекстуальное содержание, а «Окулус» определит на изображении логотип маркетплейса и ссылку на него.
— Какова точность выявления запрещенной информации?
— За счет комплексной работы модулей по большинству типов запрещенной информации нам удалось достичь высокой точности выявления — по особо опасным для граждан видам запрещенной информации до 98%. На старте работы системы этот показатель достигал только 10%.
Ключевая роль ИИ в мониторинге — это анализ информации и снижение нагрузки на операторов за счет отсеивания материалов без признаков нарушений. В сутки в среднем автоматизированная система скачивает около полумиллиона релевантных материалов, после последовательного анализа системой и обработки оператором остается около 2 000 материалов с нарушениями законодательства РФ. Автоматизированное «сито» позволяет операторам сосредоточиться на более сложных и требующих глубокой экспертизы задачах. В результате эффективность работы существенно возрастает, а затраты на обработку информации значительно снижаются.
— Но мы пока не можем сказать, что «ИИ всегда прав»?
— Не можем. Да, в процессе работы системы возникают и ложные срабатывания из-за неоднозначности языка, полисемии слов и контекстных нюансов, которые наши модели могут — в редких случаях — интерпретировать некорректно. Но доля ложных срабатываний крайне мала, что достигается за счет комплексного подхода к обучению, включая использование разнообразных датасетов, регулярную валидацию и внедрение механизмов постобработки результатов.
Как вы понимаете, мы создали уникальный комплекс систем и алгоритмов, каждый из которых интегрирует специализированные лингвистические словари и адаптивные поисковые алгоритмы. Процесс разработки таких систем — очень тонкая и сложная инженерная работа, здесь нужно понимать особенности контента и многомерной настройки архитектур. Во-первых, огромный объем данных требует масштабируемого и распределенного хранения, что усложняет архитектуру системы. Во-вторых, необходимо иметь качественные и достаточно объемные датасеты для обучения. За годы работы с запрещенной информацией у нас их накопилось достаточно. В-третьих, обучение моделей на таких данных занимает значительное время и вычислительные ресурсы, тем более что необходимо постоянно обновлять модели из-за изменчивости данных.
Крайне важно было интегрировать машинное обучение, которое способно самостоятельно выявлять новые паттерны и контексты, обеспечивая более гибкую и точную обработку текстов. Многие языковые явления, такие как сарказм, ирония, скрытые призывы или эмоциональные оттенки, не понять без учета окружающего текста и ситуации. За счет машинного обучения с использованием контекстуальных моделей учитывается последовательность слов и их взаимосвязи, а значит, повышается качество понимания смысла и снижается количество ошибок при интерпретации сложных высказываний.
Еще один важный аспект — объяснимость, или интерпретация, результатов моделей. Важно понимать, почему модель приняла то или иное решение, какие признаки были наиболее значимыми. В нашей системе реализованы методы интерпретации, что позволяет операторам получать прозрачные и понятные объяснения работы моделей в сложных категориях запрещенной информации, повышая доверие и облегчая выявление ошибок. К слову, сейчас мы работаем примерно с 30 типами запрещенной информации.
https://iz.ru/1914988/izvestia/popytki-destabilizacii-obsestva-ishodasie-iz-za-rubeza-ostautsa-sereznoi-problemoi