Учёные разработали систему, которая распознаёт беззвучную речь и превращает её в слышимую при помощью нейросети

Теперь, чтобы быть услышанным, даже не нужно говорить вслух!

Хотя при чтении «про себя» мы не произносим слова вслух и не произносим никаких звуков, мозг всё равно заставляет мышцы голосового тракта двигаться, пусть и намного меньше, чем при «обычной» речи – этот процесс называется субвокализацией. Инженеры умеют считывать эти мышечные сокращения различными методами — в основном при помощи электромиографии, которая регистрирует электрическую активность мышц при помощи электродов на шее и лице.

Однако существующие интерфейсы для распознавания субвокализации пока способны превращать беззвучную речь лишь в текст, поэтому американские учёные из Калифорнийского университета в Беркли решили разработать алгоритм, который мог бы «озвучивать» мышечные сокращения. Его обучили на трёх типах данных: записи слышимой речи и активности мышц как во время слышимой, так и неслышимой речи. В основе их метода лежит преобразование исходных сигналов.

Алгоритм учитывает все три сигнала – две электромиограммы и слышимую речь. На первом этапе он находит оптимальное соответствие между двумя сигналами – слышимой и неслышимой речи, а на втором, используя полученное соответствие, создаёт из аудиозаписи слышимой речи аудиозапись речи из электромиограммы, то есть неслышимой речи. Такой алгоритм необходим для обучения нейросети, которая делает то же самое, получая на вход не три вида сигнала, а всего один – электромиограмму неслышимой речи.

Исследователи использовали рекуррентную нейросеть с долгой краткосрочной памятью, а данные, полученные на выходе из неё, передаются в нейросеть WaveNet, декодирующую их в аудиозапись человеческого голоса. Для обучения был собран датасет из 20 часов записи слышимой и беззвучной речи, представленной в виде трёх типов данных. После обучения разработчики проверили понятность генерируемых записей.

В качестве метрики учёные использовали стандартную пословную вероятность ошибки — сумму изменённых, отсутствующих и лишних слов, поделённую на общую длину текста. Для простых фраз, наподобие дат и других чисел, вероятность ошибки полноценной нейросети составила 3,6, а для той, которую обучали только на слышимой речи, она составила 88,8. Для сложных фраз, вроде отрывков из книг, разница была не такой большой: 74,8 к 95,1 при проверке человеком и 68 к 91,2 при проверке системой распознавания речи Mozilla DeepSpeech.