Недавно DeepMind сообщила о появлении ещё более сильной системы компьютерного го, способной играть в го лучше, чем все предыдущие версии AlphaGo. Новинка получила название AlphaGo Zero. Эта платформа научилась играть в го без обучения на партиях, сыгранных человеком, сама по себе.
В «базе знаний» AlphaGo Zero — правила го и больше ничего. Тем не менее, программа очень быстро совершенствуется, играя сама с собой. Разработчики утверждают, что Zero освоила правила игры всего за несколько часов. Спустя три дня самообучения AlphaGo Zero победила AlphaGo Lee, версию ИИ, которая победила Ли Седоля со счетом 4:1 в 2016 году.
Через 21 день система играла уже на уровне AlphaGo Master — версии платформы, которая в этом году одолела лучших игроков мира в го из списка топ-60, включая чемпиона мира Кэ Цзе во всех трех партиях. Через 40 дней тренировок в играх против самой себя Zero без особого труда справилась со всеми своими прародителями. Ту систему, которая выиграла у Ли Седоля, AlphaGo Master одолела со счетом 100:0. По мере обучения система создавала «дерево» возможных ходов, оценивая последствия каждого.
Разработчики дали новой системе лишь основную информацию о правилах игры. В базу не заложили информацию об играх чемпионов. Система обучилась всему сама, играя со своей копией миллионы раз. На один ход уходило около 0,4 секунд. Если бы человек захотел пройти такое же количество партий, то ему понадобилось бы несколько тысяч лет. После каждой новой партии веса в нейросети и другие компоненты обновлялись. Интересно, что у AlphaGo Zero всего один слой нейросети, а на не два, как у предыдущих версий.
>>1633842 Рандомный уебан в правительстве сверхдержавы. А из за таких уебанов в правительствах мы все в жопе. Хотя учитывая что их выбрали люди - похуй, заслужили.
>>1633862 Но в каждой отрасли машина превзошла человека. AlphaGo в го, Stockfish, Komodo и другие в шахматах, обычный ноут вычисляет в тысячи и миллионы раз быстрее чем человек.
>>1633855 Нет никаких рандомных уебанов. Такие программы не делаются с нуля рандомными уебанами. Это планомерное развитие при поддержке гос-ва и ТНК. Погугли глобализацию.
>>1633912 >AlphaGo в го, Stockfish, Komodo и другие в шахматах Но это правда игрушки. ИИ направить бы в нужное русло, как предложил первый анон - запилить полноценный автопилот на легковых машинах, автобусах и грузовиках.
>>1633994 Ну там немного не так все работает. Сначала мы ждем, пока он высрет следующий ход, потом в награду кормим его градиентами. А его цель, чтобы градиенты стали как можно вкуснее.
>>1634171 Я не могу говорить за компанию (это почти наверняка конфиденциальная информация). Я лично считаю, что разговоры о сильном и слабом ИИ это какая-то ерунда. Мне кажется, что развитие ИИ в чем-то наши ожидания превосходит (тот же пример с го), а в чем-то разочаровывает, и точно так же будет и дальше. Условно, мы можем очень долго колупаться с NLP, но внезапно найти лекарство от рака.
>>1633958 Я примерно понимаю, как работает глубокое обучение, когда в программу засовывают огромный массив исходных данных для обучения. Но как вот работает хуита описанная ОПом, которая по заданным правилам умудряется сама обучатся?
>>1634680 Фишка в том, что оно не считает ходы. Это уже не та технология, что обыгрывала каспарова. Ходов слишком много. АльфаГо "чувствует" куда нужно ставить фишки, чтобы выиграть, и чувствует она это острее всех на планете. И работает она на обычном компе.
Даже странно, что био-мозг, типа сформированный эволюцией за "миллионы" лет настолько тупой и проигрывает любому ноуту, причем на кремнии, это даже не кванты.
>>1634556 Ну смотри, интуиция здесь такая. Тебе нужны для обучения эти самые огромные массивы данных. При этом обучение не слишком эффективно, если ты обучаешься на играх, которые сильно ниже или сильно выше твоего уровня. Кроме того, данных для обучения все-таки не бесконечно много и они не идеальны (человеки ошибаются). А как получить много игр, которые твоего уровня? Очевидно, играя с самим собой. Тут есть ряд заковык, например, если твоя стратегия вырождается в нечто неэффективное или слишком однообразное, но в статье рассказано, как с этим быть.
В «базе знаний» AlphaGo Zero — правила го и больше ничего. Тем не менее, программа очень быстро совершенствуется, играя сама с собой.
Разработчики утверждают, что Zero освоила правила игры всего за несколько часов. Спустя три дня самообучения AlphaGo Zero победила AlphaGo Lee, версию ИИ, которая победила Ли Седоля со счетом 4:1 в 2016 году.
Через 21 день система играла уже на уровне AlphaGo Master — версии платформы, которая в этом году одолела лучших игроков мира в го из списка топ-60, включая чемпиона мира Кэ Цзе во всех трех партиях.
Через 40 дней тренировок в играх против самой себя Zero без особого труда справилась со всеми своими прародителями. Ту систему, которая выиграла у Ли Седоля, AlphaGo Master одолела со счетом 100:0. По мере обучения система создавала «дерево» возможных ходов, оценивая последствия каждого.
Разработчики дали новой системе лишь основную информацию о правилах игры. В базу не заложили информацию об играх чемпионов. Система обучилась всему сама, играя со своей копией миллионы раз. На один ход уходило около 0,4 секунд. Если бы человек захотел пройти такое же количество партий, то ему понадобилось бы несколько тысяч лет. После каждой новой партии веса в нейросети и другие компоненты обновлялись. Интересно, что у AlphaGo Zero всего один слой нейросети, а на не два, как у предыдущих версий.
https://itc.ua/news/razrabotchiki-deepmind-sozdali-samoobuchaemuyu-neyroset-novyiy-algoritm-dlya-igryi-v-go-na-ee-osnove-alphago-zero-razgromil-prezhnego-chempiona-alphago/