20.11.2020, 12:40

Робот-пылесос научили шпионить за людьми. Даже без микрофона

Сингапурские учёные разработали метод, позволяющий распознавать звуки в комнате при помощи робота-пылесоса, не оснащённого микрофоном – для этой цели они применили встроенный лидар.

Теги:

Xiaomi

Воздержитесь от конфиденциальных разговоров во время работы робота-пылесоса

Технология считывания звука по вибрациям окружающих предметов сама по себе не является новинкой – наверняка вы видели подобный процесс в зарубежных фильмах, где сидящие в микроавтобусе детективы направляют на окно квартиры некий гаджет и слышат всё, что происходит внутри. Этот метод действительно работает, но требует применения весьма дорогостоящего оборудования и визуального контакта с комнатой.

Учёные из Национального университета Сингапура разработали альтернативный метод, для реализации которого годится обычный робот-пылесос, оборудованный лидаром – как правило, он имеется в топовых моделях. Пылесос использует его как лазерный дальномер, с помощью которого он составляет точную карту помещения. К примеру, в использованной инженерами модели лидар вращается с частотой пять герц и записывает 360 значений за оборот.

Исходя из этих характеристик, он способен регистрировать колебания в одной точке с частотой пять герц — этого недостаточно для записи речи или других звуков. Электрическую цепь в блоке лидара учёные изменили так, что он смог регистрировать расстояние без вращения — того же эффекта можно добиться и модификацией прошивки. Это позволило направлять датчик на одну точку и записывать данные с частотой 1,8 килогерца, что уже гораздо выше, но всё ещё недостаточно для анализа речи.

Тогда инженеры воспользовались программным комплексом Dustcloud и с его помощью записали с лидара данные об интенсивности колебаний. После получения данных с лидара алгоритмы проводят их фильтрацию – в частности, интерполяцию для пустых фрагментов сигнала, получающихся из-за того, что луч не вернулся на датчик, пиковую нормализацию, фильтруют низкочастотный шум и усиливают сигнал в области низких частот, причём отдельно для множества небольших интервалов частот.

В результате получается файл, в котором достаточно данных, чтобы по ним можно было восстановить звуки. После предварительной обработки спектрограмму сигнала подают на свёрточную нейросеть, которая относит сигнал к одному из знакомых классов. Авторы показали практическую применимость метода на нескольких задачах: определение произнесённых цифр, пола говорящего, начальной музыкальной заставки телепередачи, а также распознавание личности говорящего.

Инженеры установили пылесос напротив мусорного ведра, которое выступало в качестве «мишени» лазерного излучателя и включали звук громкостью 70 децибел на колонке, стоящей в 20 сантиметрах. В результате они получили достаточно высокую точность распознавания для такого метода: 96% для определения пола, 91% для цифр, 90% для телепередач и 67,5% для определения личности.