Компьютер впервые обучился кооперации в играх, целью которых является достижение наилучшего результата для всех игроков. Это оказалось на порядок сложнее, чем обучить машину побеждать в соревновательных играх, таких как шахматы или шашки. Но именно этот фактор в будущем поможет в разы улучшить взаимодействие человека и искусственного интеллекта.
Искусственный интеллект учится сотрудничеству лучше людей

Двадцать лет назад суперкомпьютер победил тогдашнего действующего чемпиона мира по шахматам Гарри Каспарова. Совсем недавно исследователи ИИ разработали программы, которые могут побеждать людей в более требовательных к вычислительной технике играх, таких как го и покер. Но это все игры типа «победитель получает все», в которых один игрок выигрывает, а остальные проигрывают. Исследования не были рассчитаны на совместные игры, целью которых является кооперация игроков для оптимизации результатов для всех участников — даже если логика говорит о том, что игрок может улучшить свой личный результат, «предав» других игроков.

Классическая теория игр предполагает «дилемму заключенного», где двум людям предъявлено обвинение в преступлении. Каждому может быть назначено наказание, скажем в 1 год, если оба останутся верны друг другу и не признают своей вины. Если один выдаст другого, то он попадет на свободу, в то время как другой останется в тюрьме надолго. Если оба обвиняют друг друга, то оба же и получат срок, но более длительный, к примеру 2 года. Индивидуальная стратегия предполагает предательство и риск, а коллективная — неизбежное, пусть и краткое заключение.

Якоб Крандалл, компьютерный ученый из Университета Бригама Янга в Прово, штат Юта, и его коллеги хотели посмотреть, смогут ли машины научиться играть в такие игры. Таким образом, исследователи заставили людей и компьютеры вместе играть компьютерные версии стратегических игр, в том числе и «генератор переменного тока». Команды состояли из двух человек, двух компьютеров или одного человека и одного компьютера. Исследователи протестировали 25 различных алгоритмов машинного обучения — программ ИИ, которые могут улучшить их производительность, автоматически отыскивая корреляции между ходами и результатами.

К огорчению ученых, ни один алгоритм не выбрал стратегию сотрудничества. Но затем они обратились за вдохновением к эволюционной биологии. Почему бы не ввести ключевой элемент человеческого сотрудничества — способность общаться? Таким образом, исследователи интегрировали 19 заранее написанных предложений, таких как «Я меняю свою стратегию», «Я принимаю ваше последнее предложение» или «Вы предали меня», которые можно было бы отправлять партнерам после каждого срока. Со временем компьютеры должны были понять смысл этих фраз в контексте игры, используя алгоритм обучения.

На этот раз выделился один из 25 алгоритмов, получивших название S # (произносится «эс шарп», по аналогии с языком программирования C#, «си шарп»). Когда ему было дано описание ранее неизвестной игры, он научился сотрудничать со своим партнером всего за несколько ходов. И к концу игры команды, состоящие только из машин, работали вместе почти 100% времени, тогда как люди сотрудничали в среднем около 60% времени. «Алгоритм машинного обучения научился быть лояльным», говорит Крандалл.

Такая надежность может быть благом для алгоритмов, которые учатся принимать решения для автономных машин, беспилотных самолетов или даже оружия на поле битвы. «Пока сотрудничество подобное продемонстрированному не было целью», полагает Даника Крагич, робототехник Королевского технологического института KTH в Стокгольме. Вместо этого, добавляет она, большая часть работы сосредоточена на создании автономных технологий, которые могут превзойти человеческие способности, от распознавания лиц до игры в покер. «Машины должны делать больше, чем конкурировать», говорит Крэндалл, которая полагает, что исследования в области робототехники, которые подчеркивают кооперативность, могут служить моделью для ИИ в будущем.