Специалисты британской компании DeepMind научили искусственный интеллект понимать объемное пространство по одному плоскому изображению — так же, как это делаем мы, когда смотрим на фотографию, например, комнаты.
Редакция ПМ
ИИ научился представлять пространство по одной картинке

Для того, чтобы компьютер создал математическое описание пространства, заполненного объектами, обычно нужна большая база изображений. сделанных с разных ракурсов. Объекты на этих изображениях предварительно подписываются вручную. Разработчик и специалист по ИИ Али Эслами (S. M. Ali Eslami) и его коллеги в DeepMind нашли способ обходиться без таких баз данных, создание которых требует многих часов работы человека.

Как и человеческий мозг, ИИ Generative Query Network (GQN), созданный Эслами и его коллегами, домысливает невидимое и предполагает, что скрывается за поворотами. Если вы смотрите на стол и видите всего три ножки, вы знаете, что есть четвертая, и представляете ее расположение; посмотрев на комнату с одного ракурса, вы примерно представляете, как она выглядит с других; такого же результата добивались в DeepMind от GQN.

Сейчас для того, чтобы создать математическую модель пространства, GQN требуется несколько изображений с разных ракурсов; обработав их, ИИ моделирует трехмерное пространство и генерирует изображения с новых ракурсов, в котором учитывает расстояния между объектами и расположение источника освещения. Для простых пространств ему достаточно одной картинки.

Описание GQN опубликовано в журнале Science.

Понравилась статья?
Подпишись на новости и будь в курсе самых интересных и полезных новостей.