Разработка группы исследователей из MIT способна не только улучшить качество распознавания визуальных образов, но и, возможно, пролить свет на некоторые тайны работы человеческого мозга.
Маска, я тебя знаю!: Внимательная система распознавания изображений
Новая система распознавания объектов, разработанная исследователями MIT и Калифорнийского университета, ищет простейшие элементы визуального образа исследуемого объекта и определяет их связи, затем комбинирует эти элементы в более сложные фигуры, затем создает комбинацию этих комбинаций... и т.д., пока не сформирует модель целостного объекта, напоминающую штриховой рисунок.

Распознавание объектов — одна из ключевых тем исследований, связанных с машинным зрением. В конце концов, компьютер, умеющий видеть, но не понимающий, на что смотрит, будет не слишком полезен.

Исследователи из MIT совместно с коллегами из Калифорнийского университета в Лос-Анджелесе разработали новую технологию, которая сделает распознавание объектов проще в реализации, а также позволит эффективнее использовать память компьютера. Привычная система распознавания при попытке определить, какой именно объект она видит на цифровом изображении, обычно начинает с поиска ключевых особенностей изображения. Так, система распознавания лиц попытается обнаружить участки картинки, напоминающие глаза, рот, нос, а потом проанализирует правильность их взаимного расположения. Разработка таких систем опирается на человеческую интуицию и субъективное мнение: программист решает, какие фрагменты изображения указать в качестве ключевых. Это значит, что для каждого нового типа объектов, добавляющегося в репертуар программы, необходимо начинать с нуля определение и задание характеристических особенностей.

При этом система, предназначенная для распозавания миллионов различных типов объектов, окажется невообразимо большой. Каждый объект должен иметь свой собственный, уникальный набор из трех-четырех ключевых частей, но эти части будут выглядет по разному из-под разных углов, и т. п. — поэтому каталогизация всех этих наборов данных потребует места для хранения огромного количества информации.

Исследователи из Массачусетского технологического института описали подход, который решает обе эти проблемы сразу. Как и большинство систем распознавания визуальных образов, их система обучается узнавать новые объекты путем «тренировок» на цифровых изображениях с пометками о типе соответствующего объекта. Но при этом сведения о том, какие ключевые элементы следует искать, не является необходимым начальным условием. Для каждого помеченного объекта система определяет самые мелкие фрагменты — вплоть до коротких отрезков линий. Затем она фиксирует последовательности, в которых эти элементы связаны между собой, образуя более сложные фигуры. Затем — ищет взаимосвязи этих более сложных фигур, и так до тех пор, пока не будет построена иерархическая модель всего исследуемого объекта.

Как только система сводит воедино этот каталог по направлению снизу вверх, она проходит его сверху вниз, отсеивая излишнюю информацию. Так, в наборе данных о лошади, изображенной в профиль, самым верхним слоем будет являться целостное представление об объекте «лошадь», а вот второй сверху слой уже может включать одновременно и изображение лошадиного крупа, одной задней ноги и части живота, и изображение части крупа и обеих задних ног. В подавляющем большинстве случаев система способна определить, что оба этих изображения соответствуют одной части объекта «лошадь», и вырезать одно из них из своей иерархии.

Хотя иерархический подход добавляет новые информационные слои к существующим цифровым изображениям, в конечном итоге он позволяет более рационально использовать ресурсы компьютера, поскольку различные объекты могут иметь общие «части» в каталоге. Т. е. на нескольких различных уровнях каталогов, описывающих лошадь и оленя, будет много общих данных. В некотором приближении то же самое будет справедливо для лошадей и автомобилей. В том случае, если некоторая фигура является общей для двух и более наборов данных, необходимо хранить информацию о ней только в одном экземпляре. В результате, чем больше типов объектов учится распознавать система, тем меньшее количество частей каждого последующего объекта ей необходимо запоминать.

При этом, по мнению разработчиков, данная программа представляет собой нечто большее, чем просто новый (хотя и весьма эффективный) способ распознавания объектов. Возможно, используемый алгоритм поможет разгадать некоторые загадки работы человеческого мозга. Дело в том, что в распознавании визуальных образов, как правило, участвуют от 5 до 7 определенных участков мозга, но никто не может сказать наверняка, что именно они делают. Новая система распознавания данных не ограничена в количестве слоев, которые она должна создавать в каждой иерархической модели, она попросту объединяет данные до тех пор, пока не получит представление о целостном объекте. Каково же было удивление исследователей, когда они обратили внимание на то, что система с завидным постоянством ограничивается 5−7 слоями! Это позволяет выдвинуть гипотезу о том, что в мозге человека происходит подобная же обработка визуальных образов.

Исследователи сообщают, что во время тестов их система выполняла свою работу ничуть не хуже существующих систем распознавания образов. Но до человеческого мозга ей еще далеко: на данном этапе система способна распознавать только двумерные изображения. Чтобы приблизиться к уровню, на котором обрабатывает визуальную информацию мозг человека, программа должна включать в себя множество дополнительных данных о текстурах и контурах трехмерных объектов.

По сообщению MIT News