Sophos News

Por qué aprender mecanografía podría protegerte del espionaje de audio

Hoy en día es peligrosamente fácil hacer grabaciones de audio, ya sea por accidente o a propósito.

Podrías acabar con una copia permanente de algo que pensabas que estabas discutiendo en privado, conservada indefinidamente en un archivo de nombre poco interesante en tu teléfono o portátil, gracias a haber pulsado “Grabar” por error.

Otra persona podría acabar con una transcripción permanente de algo que no querías que se conservara en absoluto, gracias a que pulsó “Grabar” en su teléfono o portátil de una forma que no era obvia.

O podrías grabar a sabiendas una reunión para más tarde, por si acaso, con el aparente consentimiento de todos (o al menos sin ninguna objeción activa por parte de nadie), pero nunca llegar a borrarla del almacenamiento en la nube hasta que sea demasiado tarde.

Sistemas de sonido furtivos

En comparación con las grabaciones de vídeo, que son bastante preocupantes por lo fácil que resulta captarlas de forma encubierta, las grabaciones de audio son mucho más fáciles de captar subrepticiamente, dado que el sonido “pasa por las esquinas”, mientras que la luz, en general, no.

Por ejemplo, un teléfono móvil colocado en posición horizontal sobre un escritorio y apuntando directamente hacia arriba, puede captar con fiabilidad la mayoría de los sonidos de una habitación, incluso los procedentes de personas y sus ordenadores, que serían totalmente invisibles para la cámara del teléfono.

Del mismo modo, el micrófono de tu portátil grabará una sala entera, aunque todos los demás estén al otro lado de la mesa, mirando a la parte posterior de tu pantalla.

Peor aún, alguien que no esté en absoluto en la sala, pero participe a través de un servicio como Zoom o Teams puede oír todo lo que se retransmite desde tu lado siempre que tu propio micrófono no esté silenciado.

Los participantes en reuniones a distancia pueden grabar todo lo que reciban de tu parte, y pueden hacerlo sin tu conocimiento o consentimiento si capturan el flujo de audio sin utilizar las funciones integradas del propio software de la reunión.

Y eso plantea la pregunta de siempre: ¿Qué pueden averiguar los fisgones además de lo que se dice en la sala?

¿Qué pasa con lo que escribes mientras se celebra la reunión, tal vez porque estás tomando notas, o porque tecleas tu contraseña durante la reunión, por ejemplo, para desbloquear el portátil porque el salvapantallas ha decidido que estabas ausente?

Los ataques solo mejoran

Recuperar pulsaciones de teclas de grabaciones subrepticias no es una idea nueva, y los resultados en los últimos años han sido sorprendentemente buenos, entre otras cosas porque:

Un trío de informáticos británicos (parece que se conocieron en la Universidad de Durham, en el noreste de Inglaterra, pero ahora están repartidos por todo el país) acaba de publicar un artículo de revisión e investigación sobre esta misma cuestión, tituladoA Practical Deep Learning-Based Acoustic Side Channel Attack on Keyboards (Un ataque práctico al canal lateral acústico de los teclados basado en el aprendizaje profundo).

En el documento, los investigadores afirman haber:

…logrado una precisión de clasificación del 95% en las pulsaciones de teclado de ordenador portátil grabadas por teléfono, lo que representa mejores resultados para los clasificadores que no utilizan modelos de lenguaje y la segunda mejor precisión observada en toda la bibliografía estudiada.

En otras palabras, su trabajo no es totalmente nuevo, y aún no están en el primer puesto general, pero el hecho de que sus técnicas de reconocimiento de pulsaciones no utilicen “modelos de lenguaje” tiene un importante efecto secundario.

Los modelos lingüísticos, en sentido amplio, ayudan a reconstruir datos de mala calidad que siguen patrones conocidos, como estar escritos en inglés, haciendo correcciones probables automáticamente, como averiguar que el texto reconocido como “dada brech notidifivatipn” es muy probable que sea “data breach notification”.

Pero este tipo de corrección automatizada no sirve de mucho con las contraseñas, dado que incluso las frases de contraseña suelen contener solo fragmentos de palabras o iniciales, y que el tipo de variedad que solemos introducir en las contraseñas, como mezclar mayúsculas y minúsculas o insertar signos de puntuación arbitrarios, no se puede “corregir” de forma fiable precisamente por su variedad.

Así que un reconocedor de primer nivel del tipo “oye, acabas de pulsar la tecla P” que no dependa de saber o adivinar qué letras has tecleado justo antes o justo después es probable que haga un mejor trabajo a la hora de averiguar o adivinar cualquier cosa no estructurada y pseudoaleatoria que escribas, como cuando introduces una contraseña.

Talla única

Curiosamente, y lo que es más importante, los investigadores observaron que las muestras de audio representativas que capturaron cuidadosamente de su dispositivo elegido, un Apple MacBook Pro 16″ modelo 2021, resultaron no ser específicas del portátil que utilizaron.

En otras palabras, dado que los modelos de portátil suelen utilizar componentes idénticos, los atacantes no necesitan acceder físicamente a tu portátil primero para capturar los datos de partida necesarios para entrenar sus herramientas de reconocimiento de pulsaciones.

Suponiendo que tú y yo tengamos un tipo de portátil similar, con el mismo modelo de teclado instalado, entonces cualquier “firma sonora” que yo capture en condiciones cuidadosamente controladas de mi propio ordenador probablemente pueda aplicarse más o menos directamente a las grabaciones en directo que luego se obtengan de tu teclado, dadas las similitudes físicas y acústicas del hardware.

¿Qué hacer?

He aquí algunas sugerencias fascinantes basadas en las conclusiones del artículo: