Искусственный интеллект, распознающий речь даже на шумном фоне

Теперь ИИ распознает ваш голос даже в шумной толпе

Устройства, вроде Amazon Echo или Google Home, обычно подчиняются приказам, если источник голоса один. В комнате, заполненной людьми, они бесполезны. Теперь ученые решили это исправить.

Теперь ИИ может отделять друг от друга голоса множества одновременно говорящих людей в реальном времени. Это придаст автоматическому распознаванию речи значительное развитие, и вскоре такие системы могут быть и в лифте на вашей работе.

Технология, разработанная исследователями из Лаборатории электрических исследований Мицубиси в Кембридже, Массачусетс, и впервые была продемонстрирована в этом месяце в Токио.

Она использует технику машинного обучения под названием «глубокое аггрегирование» для определения уникальных черт в «отпечатке голоса» различных людей. Затем она группирует различные черты каждого говорящего вместе, что позволяет различить отдельные голоса друг от друга в точности реконструировать, что говорит каждый человек. Систему тренировали на 100 англоговорящих людях, но она разделяла голоса, даже если требуемый человек говорил по-японски.

Система может разделить и реконструировать речь двух человек, говорящих в один микрофон с 90% точностью. С тремя говорящими точность понижается до 80%. И в том, и в другом случае система никогда раньше не слышала людей, которых анализировала.

В предварительных испытаниях такой ИИ различал до пяти голосов одновременно, и это может быть использовано как в домашних системах, так и в системах автоматического распознавания\голоса.