Метод Google для игры в го стал самообучаемым

Подразделение Google DeepMind представило AlphaGo Zero, последнюю версию алгоритма для игры в го. Версия Zero не нуждается в людях. Как сообщается, этот ИИ-самоучка уже победил своего предшественника и абсолютного чемпиона AlphaGo, выиграв все 100 игр.

Исследователи говорят, что они ничего не запрограммировали в игре Го, кроме правил игры.

Новая система AlphaGo Zero уже не нуждается даже в первых человеческих знаниях, процесс обучения основан только на механизме игры с самим собой. И с 29 миллионами таких игр, сыгранных против себя всего за три дня, система AlphaGo Zero стала лучшим игроком в мире. Нет! В отличие от AlphaGo, у Zero всего одна нейросеть вместо двух, но этого было достаточно. Со временем AlphaGo Zero начал выполнять ходы, нетипичные даже для профессиональных игроков.

Новая и не менее совершенная версия AlphaGo Zero, напротив, состоит всего из одной нейронной сети, которой лишь объяснялось, что является главным атрибутом игры — доской. Они добавили, что программа AlphaGo Zero победила более старую версию, которая победила китайского чемпиона по го. Компания также утверждает, что использование недавно созданной самообучающейся нейронной сети, используемой для создания AlphaGo Zero, не будет ограничиваться настольными играми.

DeepMind подчеркнул, что они освободили метод от ограничений человеческого разума. По словам одного из экспертов DeepMind Ника Хинса, ИИ лучше людей играет в древнюю китайскую игру, но в других областях он не блещет: он создан для решения узкого круга задач.