Нейросеть научилась распознавать музыку фортепиано по ролику, даже если звука нет

Не так уж сложно представить компьютерную программу, которая могла бы визуально определять, какие музыкальные произведения исполняются в видеороликах с игрой на фортепиано, даже если включить их без звука. Однако новая система искусственного интеллекта идет дальше, реалистично воспроизводя в цифровом виде саму музыку.
Нейросеть научилась распознавать музыку фортепиано по ролику, даже если звука нет

Ученые обучили нейросеть распознавать мелодию по положению рук и длительности нажатия клавиш

Технология, известная как Audeo, была разработана командой Вашингтонского университета. Она включает в себя программное обеспечение с искусственным интеллектом, которое было обучено примерно на 172 000 кадров видео с изображением пианиста Пола Бартона, играющего музыку классических композиторов, таких как Моцарт и Бах.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

При анализе беззвучного видео система начинает с наблюдения за тем, какие клавиши нажимаются в каком порядке, определения отдельные ноты и их расположение. Тем не менее, она также воспринимает силу нажатия на каждую клавишу и время ее удержания — это позволяет определить интенсивность каждой ноты и продолжительность времени, в течение которого она сохраняется под звуком последующих проигрываемых нот. Также учитываются отличительные акустические характеристики фортепиано.

Затем эти данные преобразуются в формат, понятный для существующего цифрового синтезатора. По словам ученых, когда синтезатор воспроизводит музыкальный файл, тот звучит очень похоже на оригинальную фортепианную музыку, а не просто как 8-битный рингтон.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

При тестировании Audeo было поручено воспроизвести фортепианную музыку на основе видеороликов без звука, на которых Бартон играет музыкальные произведения, которых система раньше не видела. Когда приложения для распознавания музыки, такие как SoundHound, проанализировали эти репродукции, они смогли распознать музыкальное произведение с точностью около 86%. В свою очередь, когда приложения проанализировали оригинальный звук фортепиано в тех же видеороликах, точность их распознавания поднялась до 93%. Этот разрыв должен уменьшаться по мере дальнейшего развития технологии.

«Мы надеемся, что наше исследование откроет новые способы взаимодействия с музыкой», — заявил профессор Эли Шлизерман, старший автор исследования. «Например, одним из будущих возможных приложений является то, что Audeo может быть расширен до виртуального пианино с камерой, записывающей только руки человека. Кроме того, поместив камеру поверх настоящего пианино, Audeo потенциально может помочь учиться студентам-новичкам, отслеживая позицию их рук.»