Meta Superintelligence Labs выкатила свою первую модель после девятимесячного создания ии-стека с нуля. Сразу после этого акции Meta взлетели вверх.
На бенчмарках по логике и мультимодальности показывает себя практически на равных с большой четвёркой (anthropic, openai, google, xai), завезли мультиагентный режим, ну и сама Мета называет это первым шагом на пути к персональному сверхинтеллекту.
По признанию самих разработчиков, это их сверхэффективная мини-модель и она пока сосёт в агентных задачах с долгим планированием и кодинге. Но из сильного - нормально шарит в визуальной логике и всяких стем-задачах и распознавании объектов. Шарит в медицине, её результаты валидировали тысячи топовых врачей. В режиме contemplating mode выбивает рекордные 58 процентов в humanity's last exam и 38 в frontierscience research, то есть это уровень gemini deep think и gpt pro. Вычисления в обучении с подкреплением растут плавно и логарифмически линейно на пасс 1 и 16. Мультиагентная оркестрация позволяет скейлить производительность, и при этом задержка ответа не растет пропорционально. На бенчмарке AIME заметили фазовый переход, сначала модель растягивает цепочку рассуждений, потом сжимает её из-за штрафов за длину, а потом снова растягивает, чтоб выдать более точный ответ.
Надо понимать, что 99% нормисов инстаграма и треадс не пишут код или научные статьи, им нужен ии для повседневных вещей, поэтому эта мини-модель отлично подходит для интеграции в соцсети.
Meta Superintelligence Labs выкатила свою первую модель после девятимесячного создания ии-стека с нуля. Сразу после этого акции Meta взлетели вверх.
На бенчмарках по логике и мультимодальности показывает себя практически на равных с большой четвёркой (anthropic, openai, google, xai), завезли мультиагентный режим, ну и сама Мета называет это первым шагом на пути к персональному сверхинтеллекту.
По признанию самих разработчиков, это их сверхэффективная мини-модель и она пока сосёт в агентных задачах с долгим планированием и кодинге. Но из сильного - нормально шарит в визуальной логике и всяких стем-задачах и распознавании объектов. Шарит в медицине, её результаты валидировали тысячи топовых врачей. В режиме contemplating mode выбивает рекордные 58 процентов в humanity's last exam и 38 в frontierscience research, то есть это уровень gemini deep think и gpt pro. Вычисления в обучении с подкреплением растут плавно и логарифмически линейно на пасс 1 и 16. Мультиагентная оркестрация позволяет скейлить производительность, и при этом задержка ответа не растет пропорционально. На бенчмарке AIME заметили фазовый переход, сначала модель растягивает цепочку рассуждений, потом сжимает её из-за штрафов за длину, а потом снова растягивает, чтоб выдать более точный ответ.
Надо понимать, что 99% нормисов инстаграма и треадс не пишут код или научные статьи, им нужен ии для повседневных вещей, поэтому эта мини-модель отлично подходит для интеграции в соцсети.
Выпуск крупной модели ожидается чуть позже.