>>332897434 (OP) Коротко: звучит громко, но это не «магия», а старая тема в NLP — автоматическое определение гендера автора по стилю письма (author profiling). Этим занимаются лет 15+. Что реально стоит за такими новостями Компьютер не «понимает пол». Он ищет статистические языковые паттерны:
частота местоимений
длина предложений
эмо-лексика
использование уменьшительно-ласкательных форм
пунктуация, эмодзи
темы и словарь
По огромным корпусам текстов модель учится угадывать вероятности. Это примерно как:
«По почерку можно предположить возраст и характер» — только в цифрах.
Насколько это работает В академических работах обычно:
70–85% точность на «чистых» данных
но резко падает в реальной жизни
Почему падает:
женщины и мужчины пишут очень по-разному внутри групп
стиль зависит от возраста, профессии, соцсетей, культуры
тексты можно легко «замаскировать»
Т.е. модель угадывает не биологический пол, а социальные и культурные паттерны письма. Главный подвох таких новостей Журналисты пишут «определяет пол человека», а корректнее:
«угадывает вероятность гендера автора по стилю текста в обученной выборке».
Это огромная разница. Ограничения и спорные моменты
Стереотипы Модель учится на данных → данные содержат культурные стереотипы.
Легко обмануть Попроси LLM переписать текст — точность резко падает.
Не универсально Работает хуже:
на коротких текстах
на технарях 😄
на формальном стиле
на людях, пишущих «нейтрально»
Этический вопрос Использование для HR/модерации — очень спорно.
Мой вывод Это не прорыв, а очередная вариация задачи author profiling + хороший PR заголовок. Если убрать хайп, новость переводится так:
«Сделали классификатор текста с вероятностным угадыванием гендера».