ИИ научился проходить классические игры 1980-х годов

Ученые разработали искусственный интеллект (ИИ), который способен пройти классические видеоигры 1980-х годов, такие как Pitfall и Montezuma's Revenge. Исследователи считают, что алгоритмы помогут роботам лучше ориентироваться в реальных условиях.

Новый подход помог создать систему, способную справиться с классическими играми Atari, такими как Montezuma's Revenge и Pitfall

Ранее с подобными играми-платформерами ИИ не мог справиться. Тогда ученые использовали обучение с подкреплением – способ машинного обучения, который включает вознаграждение за успешное действие. Однако из-за сложности видеоигр и огромного количества препятствий и лабиринтов такой подход не работал.

К примеру, если ИИ нужно выполнить ряд сложных действий, чтобы достичь указанного места, и он получает вознаграждение только по прибытии в пункт назначения, тогда он не получает обратной связи относительно множества отдельных шагов, предпринятых на пути к цели. Другой способ: награждать ИИ за каждый шаг к цели. Однако из-за этого система будет игнорировать разветвления и другие пути.

В исследовании, опубликованном в журнале Nature, ученые разработали новый подход, основанный на создании архива областей, который ИИ уже посетил. Этот способ решает «две основные проблемы, которые препятствовали исследованию предыдущих алгоритмов».

Первая проблема – отстраненность. Она возникает, когда система не ведет учет областей, которые она не исследовала. Например, когда робот достигает разветвления, он должен выбрать один путь и отказаться от другого. Отстраненность означает неспособность системы позже вспомнить, что существовал альтернативный путь, который также необходимо изучить.

Вторая проблема – «сход с рельсов». Если система все-таки решит исследовать новые области, то она может отвлечься от первоначальной задачи.

Новое «семейство алгоритмов», которые ученые назвали Go-Explore, основано на непрерывном архивировании каждой развилки или области, с которой сталкивается ИИ. Это помогает запомнить путь и в любой момент вернуться к необследованной области.

Новому ИИ удалось превзойти средний человеческий результат в игре Pitfall (другие системы не могли набрать в ней ни одного балла). Go-Explore также набрал 1,7 миллиона очков в игре Montezuma's Revenge, побив мировой рекорд в 1,2 миллиона очков.

Исследователи считают, что их система, обходящая проблемы отстраненности и «схода с рельсов», может успешно использоваться роботами в производстве и дома. Она также поможет роботам-спасателям в зоне бедствий, где, как и в видеоиграх, необходимо преодолевать препятствия и исследовать новые области.