Новый алгоритм TEXPLORE-VENIR позволит роботам учиться еще быстрее, чем сейчас — за каждое новое знание они будут получать награду.
Роботов «научили» быть любопытными
Человекоподобный робот Nao

На протяжении нескольких лет разработчики компьютерных программ для роботов пытались создать «алгоритм любопытства», однако повторить человеческую любознательность было довольно сложно. По их словам, большинство методов не могут оценить «пробелы» в знаниях робота и понять, что ему будет интересно.

Однако Тодду Хестеру из Google DeepMind в Великобритании и Питеру Стоуну из Техасского университета в США удалось создать алгоритм, позволяющий компьютерной программе «проявлять любопытство», самостоятельно изучая окружающую среду. Новый подход позволит роботам учиться еще быстрее, чем сейчас. Исследователи назвали алгоритм TEXPLORE-VENIR — он основывается на технике «подкрепляющего обучения».

Эта техника работает по следующему принципу: когда программа приближается к решению проблемы (например, выходу из лабиринта), то получает некоторое вознаграждение. Предполагается, что, получив награду, в будущем она снова попытается достичь какой-либо цели. Исследователи немного изменили технику «подкрепляющего обучения» таким образом, чтобы программа получала вознаграждение просто за новое знание, даже если оно не помогает достичь цели. Например, TEXPLORE-VENIR зарабатывает бонусы, когда изучает картину мира, ищет отдаленные места на карте или осваивает кулинарные рецепты.

Хестер и Стоун протестировали свой алгоритм в двух сценариях. Первым из них стал виртуальный лабиринт из 4-х комнат, соединенных между собой запертыми дверями. Боту — просто компьютерной программе — нужно было исследовать территорию, найти ключ, взять его и открыть дверь. За каждую открытую дверь он зарабатывал 10 очков. Чтобы достичь наивысшего балла, ему было дано 3000 «шагов».

Когда при помощи алгоритма TEXPLORE-VENIR бот изучил местность (потратив на это 1000 «шагов»), то заработал 55 очков. При этом если он использовал другие алгоритмы, то получал от 0 до 35 очков. Когда программе пришлось одновременно исследовать местность и отпирать двери, с помощью TEXPLORE-VENIR она заработала 70 баллов, а в других случаях — менее 5.

Ко второму эксперименту исследователи подключили человекоподобного робота Nao. При помощи алгоритма TEXPLORE-VENIR ему нужно было выполнить три задания: ударить по музыкальной тарелке, найти и поднести к глазам розовую ленту и нажать на кнопку, расположенную на его ноге. На каждое задание Nao получил 200 «шагов», и еще 400 «шагов» ему было дано на «обучение» (изучение предметов). По результатам 13-ти попыток он нажал на кнопку 7 раз, ударил по тарелке в 1-м из 5-ти случаев и в итоге стал быстрее находить розовую ленту.

Алгоритм TEXPLORE-VENIR показал хорошие результаты, однако излишнее любопытно может снизить продуктивность робота, считают сторонние исследователи. Может получиться так, что внутренняя мотивация робота на получение награды за обучение превысит его внешнюю мотивацию решить поставленную задачу. Поэтому важно найти баланс между двумя видами мотивации.