Сигналы мозга преобразованы непосредственно в устную речь

Ученые Колумбийского университета создали систему, превращающую человеческие мысли в понятную нам речь. Контролируя мозговую деятельность, система может реконструировать слова, «произносимые» мысленно с беспрецедентной ясностью.

Исследования показывают, что, когда люди говорят или даже думают, что говорят, в их мозгу появляются характерные паттерны активности. Четкая схема сигналов также возникает, когда мы слушаем, как кто-то говорит, или воображаем, что слушаем. Специалисты довольно давно думали, что эти паттерны можно расшифровать и превратить в нечто понятное для окружающих.

Ранние попытки расшифровать сигналы мозга были построены на основе простых компьютерных моделей, которые анализировали спектры звуков. Этот подход не дал внятных результатов.

Авторы исследования попытались использовать вокодер — компьютерный алгоритм, который может синтезировать речь после обучения по записи разговоров людей. Это та же технология, которая используется Amazon Echo и Apple Siri для формирования устного ответа на наши вопросы.

Чтобы научить вокодер интерпретировать мозговую деятельность ученые попросили пациентов, страдающих эпилепсией, и уже перенесших операцию на головном мозге, выслушать фразы разных людей. Их мозговая активность в это время замерялась. Эти нейронные паттерны использовались как обучающая информация для вокодера.

Затем исследователи попросили тех же пациентов прослушать цифры от 0 до 9, звучащие через динамик. Сигналы мозга в этот момент фиксировались и далее использовались для «обучения» вокодера. Звук, производимый вокодером в ответ на эти сигналы, анализировался и очищался с помощью нейронных сетей.

Конечным результатом был роботизированный голос, повторяющий последовательность чисел. Чтобы проверить точность записи, ученые поручили людям прослушать запись и сообщить, что они услышали.

«Мы обнаружили, что люди могут понимать и повторять звуки примерно в 75% случаев, что значительно превосходит любые предыдущие попытки», — говорит доктор Нима Месгарани (Nima Mesgarani), один из авторов работы. Лучшая понятность была особенно очевидной при сравнении новых записей с результатами ранних опытов, основанных на спектрограмме.

Авторы полагают, что их разработка может уже в близком будущем быть использована для создания практически применимых средств коммуникации.