В MIT научили компьютер определять контекст по аудиозаписи

За последние годы компьютеры научились неплохо распознавать изображения и речь. Однако распознавание звуков естественной среды – скажем, всех голосов и шумов новогодней вечеринки, или шума воды, — задача куда более сложная, чем распознавание одного голоса (с которым отлично справляется почти каждый смартфон). Новая система, разработанная в MIT, научилась различать контекст только немногим хуже, чем это делает человек.

В лаборатории кибернетики и искусственного интеллекта MIT разработали первую систему, которая умеет по аудиозаписи определять ситуацию, в которой запись была сделана. Система будет представлена на конференции по нейронным системам обработки информации, которая пройдет на следующей неделе в Массачусетсе.

Системы автоматического распознавания речи — результат машинного обучения, когда компьютер ищет паттерны по огромной базе ранее загруженных данных. В начале процесса машинного обучения данные нужно вручную «объяснять» компьютеру. Однако для системы, разработанной в MIT, вручную «комментировать» данные, вводимые в компьютер, не пришлось: вместо этого исследователи использовали видеозаписи с вмонтированным звуком.

Сначала система распознавала объекты на видео и интерпретировала ситуацию, а затем выявляла схожие паттерны в сопровождающих видео аудиозаписях, и таким образом училась определять, что происходит, без помощи видео.

Создатели протестировали систему на двух крупных базах аннотированных видео, и она оказалась на 13−15% более точной, чем ее предшественники, и определяла правильно 74% видео там, где люди справляются с 81%. Система способна отличить звук детского праздника, где все говорят по-китайски, от звуков ночного леса, вечеринки в финском клубе или концерта симфонического оркестра, автомобильных гонок и зоопарка.