Віддалене прослуховування через вібрації смартфона

Дослідники з Університету штату Пенсильванія представили новий спосіб віддаленого прослуховування телефонних розмов, використовуючи слабкі вібрації, що виникають під час роботи динаміка смартфона. Застосовуючи міліметровий радар та сучасні алгоритми розпізнавання мови, науковці довели, що навіть на відстані до трьох метрів можна отримати дані, які дозволяють частково розшифрувати зміст розмови.

Про це розповідає ProIT

Механізм розпізнавання розмов через вібрації смартфона

У ході експерименту спеціалісти використали міліметровий радар — технологію, яка сьогодні активно впроваджується у безпілотних транспортних засобах, сенсорах руху та системах 5G. Завдяки цьому пристрою вдалося зафіксувати малопомітні коливання корпусу смартфона, спричинені відтворенням мови через динамік. Ці дані передавалися до штучного інтелекту, зокрема до модифікованої моделі Whisper з відкритим кодом.

Точність розпізнавання на середньому обсязі з 10 тисяч слів досягла 60%. Попереднє дослідження цієї ж групи у 2022 році дозволило ідентифікувати окремі слова, літери та цифри з точністю 83%.

“Коли ми розмовляємо по мобільному телефону, ми схильні ігнорувати вібрації, що передаються через динамік і змушують вібрувати весь телефон. Якщо ми вловимо ці вібрації за допомогою віддалених радарів та застосуємо машинне навчання, щоб розпізнавати сказане, використовуючи контекстні підказки, ми зможемо розпізнавати цілі розмови”, — пояснює перший автор дослідження Суредай Басак.

Використання штучного інтелекту та потенційні ризики

Дослідники адаптували модель Whisper, яка зазвичай обробляє чистий аудіосигнал, для роботи з «зашумленими» даними радара. Для цього було застосовано метод низькорангової адаптації, що дозволило перенавчити лише 1% параметрів моделі під специфічні вимоги експерименту.

За словами науковців, розроблена система була створена винятково для експериментальних цілей, з урахуванням можливих дій зловмисників. Дослідники підкреслили, що точність розшифрування можна підвищити за допомогою ручного редагування на основі контексту попередніх розмов або шляхом коригування окремих слів і фраз.

Автори порівнюють цей метод із читанням по губах, де людина може вловити лише 30–40% сказаного, проте компенсує недостатню точність за рахунок контексту. Метою дослідження було визначити, чи можна використати такі інструменти для несанкціонованого прослуховування розмов, і чи існує потенційна загроза конфіденційності користувачів.

Результати роботи були презентовані на конференції ACM у 2025 році.