20.03.2024, 11:13

Deepmind разработала универсального агента игровых вселенных

Google Deepmind представила обучаемого агента виртуальных вселенных — SIMA, который может следовать инструкциям на естественном языке и выполнять задачи в условиях различных видеоигр. Цель ученых — создать агента для любых виртуальных или физических сред, в которых он сможет выполнять сложные инструкции человека.

Владимир Губайловский

Теги:

Искусственный интеллект

Нейросети

Нейронауки

Deepmind разработала универсального агента игровых вселенных

Универсальный агент SIMA. Deepmind

SIMA сегодня способен выполнять только вполне конкретные инструкции. Человек говорит: «Принеси дрова», и SIMA в любой виртуальной среде найдет дрова и принесет. Но если человек скажет: «Я замерз», SIMA не догадается, что нужно принести дрова и развести костер. А цель именно в том, что SIMA догадался, как человека согреть и согрел даже в физическом мире.

Видеоигры являются ключевым испытательным полигоном для систем искусственного интеллекта (ИИ). Как и реальный мир, игры представляют собой богатую среду обучения с гибкими настройками в реальном времени и постоянно меняющимися условиями и целями.

В предыдущей работе с играми Atari система AlphaStar обучилась играть в StarCraft II на уровне гроссмейстера. Теперь DeepMind сообщила о новом достижении: игровом ИИ-агенте, который обучается и живет в условиях самых разных игровых вселенных.

SIMA — сокращение от Scalable Instructable Multiworld Agent (масштабируемый обучаемый многомировой агент). Deepmind разработала SIMA в сотрудничестве с разработчиками игр. Это первый случай, когда агент продемонстрировал, что он может «жить» и развиваться в целом спектре игровых миров и следовать инструкциям на естественном языке, как это делает человек.

Научиться играть хотя бы в одну видеоигру — это технический подвиг для системы ИИ, но если научиться следовать инструкциям в различных игровых настройках, можно создать полезных агентов ИИ для любой среды. SIMA и другие исследования агентов игровых вселенных — это своего рода «песочница», которая помогает понять, как лучше использовать системы искусственного интеллекта.

Обучение с помощью видеоигр

Deepmind сотрудничала с восемью игровыми студиями для обучения и тестирования SIMA в девяти различных видеоиграх, таких как No Man’s Sky, Hello Games и Teardown. Каждая игра в портфолио SIMA — это новый интерактивный мир, и агент многое знать и уметь, чтобы в нем действовать: от простой навигации и поиска ресурсов до управления космическим кораблем или, например, изготовления шлема.

Ученые использовали четыре исследовательские среды, включая совсем новую, которую они создали с помощью Unity. Она получила название «Строительная лаборатория». Здесь агенты учатся работать со строительными блоками, создавать новые объекты и интуитивно понимать физический мир, например, узнают, что камни падают вниз.

Изучая различные игровые миры, SIMA показывает, как язык связан с игровым поведением. Сначала ученые записали работу пары игроков-людей в игровой вселенной, при этом один игрок наблюдал и давал команды другому, который уже следовал инструкциям. Затем ученые предложили игрокам играть самостоятельно, а потом пересматривать запись своих действий и записывать инструкции, которым они интуитивно следовали в игре. Таким образом создавались языковые описания игр.

Реализация SIMA включала и предварительно обученную модель машинного зрения и базовую модель, которая включает в себя память и обработку команды от клавиатуры и мыши.

Deepmind

SIMA: универсальный ИИ-агент

SIMA — это агент искусственного интеллекта, который воспринимает различные условия окружающей среды, а затем предпринимает действия для достижения поставленной перед ним цели. SIMA включает в себя модели, предназначенные для обработки изображений и языка, и модель, которая может предсказать, что будет дальше, если агент предпримет те или иные действия. Все эти модели создавались на основе обучающих данных, специфичных для настроек 3D в портфолио SIMA.

ИИ-агенту не нужен доступ ни к исходному коду игры, ни к специальным API. Для его обучения нужны только два потока входных данных: изображения на экране и инструкции на естественном языке, которые дает пользователь. SIMA понимает и команды от клавиатуры и мыши, которые можно использовать для управления центральным персонажем игры.

На сегодня версия SIMA оценивается по 600 базовым навыкам, включая навигацию (например, «поверни налево»), взаимодействие с объектами («поднимись по лестнице») и использование меню («открой карту»). Пока SIMA справляется только с довольно простыми задачами, которые можно выполнить примерно за 10 секунд.

Ученые планируют, что в будущем (совсем близком) агенты научатся решать задачи, требующие стратегического планирования высокого уровня и состоящие из множества подзадач, например «Найди ресурсы и построй лагерь». Это важная цель для ИИ в целом: большие языковые модели породили мощные системы, которые могут собирать знания о мире и генерировать планы, но в настоящее время они не умеют действовать от нашего имени.

Способность к обобщению

Ученые показали, что агент, обученный на многих играх более приспособлен, чем агент, который научился играть только в одну игру. По оценке разработчиков, агенты SIMA, обученные на наборе из девяти 3D-игр значительно превзошли специализированных агентов, обученных только на одной игре.

Более того, агент, обученный во всех играх, кроме одной, показал и в той игре, которую он совсем не знал, почти такие же хорошие результаты, как и агент специально обученный в этой среде. Эта способность функционировать в совершенно новых условиях показывает способность SIMA к обобщениям, выходящим за рамки его опыта. Это многообещающий результат, однако необходимы дополнительные исследования, чтобы SIMA могла работать на человеческом уровне как в тех играх, на которых она обучалась, так и в незнакомых игровых вселенных.

По мере того, как SIMA обучается все большему количеству миров, модель становится все более универсальной и способной решать стратегические задачи. В конечном счете, исследования направлены на создание агентов ИИ, которые понимают, чего от них хотят, и безопасно выполняют широкий спектр задач, поставленных перед ними человеком и в интернете и в реальном мире.