Исследователи из Университета штата Пенсильвания представили новый способ удалённого прослушивания телефонных разговоров, используя слабые вибрации, возникающие во время работы динамика смартфона. Применяя миллиметровый радар и современные алгоритмы распознавания речи, учёные доказали, что даже на расстоянии до трёх метров можно получить данные, позволяющие частично расшифровать содержание разговора.
Об этом сообщает ProIT
Механизм распознавания разговоров через вибрации смартфона
В ходе эксперимента специалисты использовали миллиметровый радар — технологию, которая сегодня активно внедряется в беспилотные транспортные средства, сенсоры движения и системы 5G. Благодаря этому устройству удалось зафиксировать малозаметные колебания корпуса смартфона, вызванные воспроизведением речи через динамик. Эти данные передавались в искусственный интеллект, в частности в модифицированную модель Whisper с открытым кодом.
Точность распознавания на среднем объёме из 10 тысяч слов достигла 60%. Предыдущее исследование этой же группы в 2022 году позволило идентифицировать отдельные слова, буквы и цифры с точностью 83%.
“Когда мы разговариваем по мобильному телефону, мы склонны игнорировать вибрации, которые передаются через динамик и заставляют вибрировать весь телефон. Если мы поймаем эти вибрации с помощью удалённых радаров и применим машинное обучение для распознавания сказанного, используя контекстные подсказки, мы сможем распознавать целые разговоры”, — объясняет первый автор исследования Суредай Басак.
Использование искусственного интеллекта и потенциальные риски
Исследователи адаптировали модель Whisper, которая обычно обрабатывает чистый аудиосигнал, для работы с «защумлёнными» данными радара. Для этого был применён метод низкоранговой адаптации, что позволило перенастроить лишь 1% параметров модели под специфические требования эксперимента.
По словам учёных, разработанная система была создана исключительно для экспериментальных целей, с учётом возможных действий злоумышленников. Исследователи подчеркнули, что точность расшифровки можно повысить с помощью ручного редактирования на основе контекста предыдущих разговоров или путём корректировки отдельных слов и фраз.
Авторы сравнивают этот метод с чтением по губам, где человек может уловить лишь 30–40% сказанного, однако компенсирует недостаточную точность за счёт контекста. Целью исследования было определить, можно ли использовать такие инструменты для несанкционированного прослушивания разговоров и существует ли потенциальная угроза конфиденциальности пользователей.
Результаты работы были презентованы на конференции ACM в 2025 году.