Как устроен искусственный интеллект: распознавание речи

Каждый из нас сталкивается с таким загадочным явлением, как искусственный интеллект, в повседневной жизни — именно он позволяет голосовым помощникам и поисковым системам распознавать человеческую речь и угадывать желания пользователей. Сегодня мы расскажем о том, как именно устроена эта технология и какие перспективы ждут эту сферу разработок в ближайшее время.
Как устроен искусственный интеллект: распознавание речи

Искусственный интеллект — это очень обширный термин, в рамках которого уже существуют и еще находятся в стадии разработки множество алгоритмов, предназначенных для выполнения широчайшего спектра практических задач. Но что на самом деле умеют современные программы искусственного интеллекта, и какими принципами они руководствуются во время работы? Сегодня мы поговорим про одну из ключевых особенностей машинного разума, с которой каждый из нас регулярно сталкивается в повседневности — способностью голосовых помощников распознавать человеческую речь.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Распознавание голоса

Для измерения голоса программа использует ряд звуковых параметров: частоту и длину звуковой волны в определенный момент времени. К примеру, когда вы общаетесь с популярным голосовым помощником Alexa, ПО разбивает ваш голос на 25-миллисекундные слайды, а потом преобразует каждый из отрезков в цифровые сигнатуры. После этого сигнатурные блоки сравниваются с внутренним каталогом звуков программы, пока количество совпадений не будет достаточно высоким, чтобы ИИ «перевел» цифры в понятный ему буквенный запрос.

Языковая модель

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Понаблюдайте за экраном телефона во время использования Siri или Google Assistant, и вы увидите, что набор слов изменяется в процессе того, как вы произносите слова. Происходит это из-за того, что программное обеспечение с каждым следующим «шагом» тоже сравнивает полученный результат с внутренней базой данных и выстраивает слова в зависимости от совпадений. По словам Рохита Прасада, главного ученого подразделения Alexa, которое принадлежит Amazon, «языковая модель обучается многим миллиардам слов в форме текста». Порядок слов тоже играет немаловажную роль: это можно заметить и с помощью обычной поисковой системы Google, которая порой выдает разные данные по идентичным запросам, в которых переставлена местами всего лишь пара слов.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Перспективы распознавания речи

Алан Блэк из Институт языковых технологий имени Карнеги рассуждает о том, что для всех специалистов из крупных компаний наиболее интересным является поиск предела возможностей их собственной системы. «Когда программа говорит "Я не могу этого сделать", вот тогда ситуация становится по-настоящему интересной», шутит он. Впрочем, это ив самом деле так: реагирование на непредсказуемые запросы пользователя даже является одной из основных задач, которую исследуют студенческие кружки, которые борются за премию Alexa Prize — а это целых 2,5 миллиона долларов. Их задача состоит в том, чтобы создать чат-бота, предназначенного для общения с людьми, задающими последовательные и осмысленные вопросы. Информация в данном случае обновляется раз в 20 минут. Звучит как довольно простая задача даже для рядового программиста, но на практике общение программы с живыми людьми всегда сопряжено с отступлениями от темы диалога, спонтанными фразами и прочими нарушениями. Программа, которая научится работать с ними так же хорошо, как реальный человек, станет огромным прорывом для всей индустрии ИИ.