Hoy en día es peligrosamente fácil hacer grabaciones de audio, ya sea por accidente o a propósito.
Podrías acabar con una copia permanente de algo que pensabas que estabas discutiendo en privado, conservada indefinidamente en un archivo de nombre poco interesante en tu teléfono o portátil, gracias a haber pulsado “Grabar” por error.
Otra persona podría acabar con una transcripción permanente de algo que no querías que se conservara en absoluto, gracias a que pulsó “Grabar” en su teléfono o portátil de una forma que no era obvia.
O podrías grabar a sabiendas una reunión para más tarde, por si acaso, con el aparente consentimiento de todos (o al menos sin ninguna objeción activa por parte de nadie), pero nunca llegar a borrarla del almacenamiento en la nube hasta que sea demasiado tarde.
Sistemas de sonido furtivos
En comparación con las grabaciones de vídeo, que son bastante preocupantes por lo fácil que resulta captarlas de forma encubierta, las grabaciones de audio son mucho más fáciles de captar subrepticiamente, dado que el sonido “pasa por las esquinas”, mientras que la luz, en general, no.
Por ejemplo, un teléfono móvil colocado en posición horizontal sobre un escritorio y apuntando directamente hacia arriba, puede captar con fiabilidad la mayoría de los sonidos de una habitación, incluso los procedentes de personas y sus ordenadores, que serían totalmente invisibles para la cámara del teléfono.
Del mismo modo, el micrófono de tu portátil grabará una sala entera, aunque todos los demás estén al otro lado de la mesa, mirando a la parte posterior de tu pantalla.
Peor aún, alguien que no esté en absoluto en la sala, pero participe a través de un servicio como Zoom o Teams puede oír todo lo que se retransmite desde tu lado siempre que tu propio micrófono no esté silenciado.
Los participantes en reuniones a distancia pueden grabar todo lo que reciban de tu parte, y pueden hacerlo sin tu conocimiento o consentimiento si capturan el flujo de audio sin utilizar las funciones integradas del propio software de la reunión.
Y eso plantea la pregunta de siempre: ¿Qué pueden averiguar los fisgones además de lo que se dice en la sala?
¿Qué pasa con lo que escribes mientras se celebra la reunión, tal vez porque estás tomando notas, o porque tecleas tu contraseña durante la reunión, por ejemplo, para desbloquear el portátil porque el salvapantallas ha decidido que estabas ausente?
Los ataques solo mejoran
Recuperar pulsaciones de teclas de grabaciones subrepticias no es una idea nueva, y los resultados en los últimos años han sido sorprendentemente buenos, entre otras cosas porque:
- La calidad de los micrófonos ha mejorado. Los dispositivos de grabación suelen captar ahora más detalles en una gama más amplia de frecuencias y volúmenes.
- Los tamaños de almacenamiento portátil han aumentado. Se pueden utilizar mayores velocidades de transmisión de datos y almacenar muestras de sonido sin comprimir, sin que se agote el espacio en disco.
- La velocidad de procesamiento ha aumentado. Ahora los datos pueden seleccionarse rápidamente incluso de conjuntos de datos enormes, y procesarse con modelos de aprendizaje automático cada vez más complejos para extraer de ellos información utilizable.
- La ciberseguridad es cada vez más importante. Colectivamente, ahora somos más los que nos preocupamos por protegernos de la vigilancia no deseada, lo que hace que la investigación sobre el espionaje sonoro sea cada vez más corriente.
Un trío de informáticos británicos (parece que se conocieron en la Universidad de Durham, en el noreste de Inglaterra, pero ahora están repartidos por todo el país) acaba de publicar un artículo de revisión e investigación sobre esta misma cuestión, titulado “A Practical Deep Learning-Based Acoustic Side Channel Attack on Keyboards” (Un ataque práctico al canal lateral acústico de los teclados basado en el aprendizaje profundo).
En el documento, los investigadores afirman haber:
…logrado una precisión de clasificación del 95% en las pulsaciones de teclado de ordenador portátil grabadas por teléfono, lo que representa mejores resultados para los clasificadores que no utilizan modelos de lenguaje y la segunda mejor precisión observada en toda la bibliografía estudiada.
En otras palabras, su trabajo no es totalmente nuevo, y aún no están en el primer puesto general, pero el hecho de que sus técnicas de reconocimiento de pulsaciones no utilicen “modelos de lenguaje” tiene un importante efecto secundario.
Los modelos lingüísticos, en sentido amplio, ayudan a reconstruir datos de mala calidad que siguen patrones conocidos, como estar escritos en inglés, haciendo correcciones probables automáticamente, como averiguar que el texto reconocido como “dada brech notidifivatipn” es muy probable que sea “data breach notification”.
Pero este tipo de corrección automatizada no sirve de mucho con las contraseñas, dado que incluso las frases de contraseña suelen contener solo fragmentos de palabras o iniciales, y que el tipo de variedad que solemos introducir en las contraseñas, como mezclar mayúsculas y minúsculas o insertar signos de puntuación arbitrarios, no se puede “corregir” de forma fiable precisamente por su variedad.
Así que un reconocedor de primer nivel del tipo “oye, acabas de pulsar la tecla P” que no dependa de saber o adivinar qué letras has tecleado justo antes o justo después es probable que haga un mejor trabajo a la hora de averiguar o adivinar cualquier cosa no estructurada y pseudoaleatoria que escribas, como cuando introduces una contraseña.
Talla única
Curiosamente, y lo que es más importante, los investigadores observaron que las muestras de audio representativas que capturaron cuidadosamente de su dispositivo elegido, un Apple MacBook Pro 16″ modelo 2021, resultaron no ser específicas del portátil que utilizaron.
En otras palabras, dado que los modelos de portátil suelen utilizar componentes idénticos, los atacantes no necesitan acceder físicamente a tu portátil primero para capturar los datos de partida necesarios para entrenar sus herramientas de reconocimiento de pulsaciones.
Suponiendo que tú y yo tengamos un tipo de portátil similar, con el mismo modelo de teclado instalado, entonces cualquier “firma sonora” que yo capture en condiciones cuidadosamente controladas de mi propio ordenador probablemente pueda aplicarse más o menos directamente a las grabaciones en directo que luego se obtengan de tu teclado, dadas las similitudes físicas y acústicas del hardware.
¿Qué hacer?
He aquí algunas sugerencias fascinantes basadas en las conclusiones del artículo:
- Aprende mecanografía. Los investigadores sugieren que la mecanografía al tacto es más difícil de reconstruir de forma fiable mediante grabaciones de sonido. Los mecanógrafos táctiles suelen ser mucho más rápidos, silenciosos, suaves y coherentes en su estilo, además de utilizar menos energía al pulsar las teclas. Suponemos que esto hace que sea más difícil aislar las pulsaciones de teclas individuales para analizarlas en primer lugar, además de hacer que las firmas sonoras de las distintas teclas sean más difíciles de distinguir.
- Mezclar mayúsculas y minúsculas en las contraseñas. Los investigadores observaron que cuando se mantenía pulsada la tecla Mayús antes de introducir una pulsación, y se soltaba después, las firmas sonoras individuales eran mucho más difíciles de aislar y comparar. (¡Esas molestas reglas de construcción de contraseñas pueden ser útiles después de todo!)
- Utiliza 2FA siempre que puedas. Aunque dispongas de un sistema 2FA que te obligue a teclear un código de 6 dígitos desde tu teléfono (lo que mucha gente hace sujetando el teléfono con una mano y cazando los números con la otra), cada código solo funciona una vez, por lo que recuperarlo no ayuda mucho a un atacante ladrón de contraseñas.
- No escribas contraseñas u otra información confidencial durante una reunión. Si te quedas fuera de tu portátil por el salvapantallas o por un tiempo de espera de seguridad, considera la posibilidad de salir brevemente de la sala mientras vuelves a conectarte. Un pequeño retraso puede ser muy útil.
- Silencia tu propio micrófono todo lo que puedas. Habla o teclea, pero no hagas las dos cosas a la vez. Los investigadores sugieren que las grabaciones de Zoom son lo suficientemente buenas para recuperar las pulsaciones (aunque creemos que sólo las probaron con grabaciones locales de Zoom de alta calidad, no con grabaciones de menor calidad basadas en la nube iniciadas por participantes remotos), así que, si eres la única persona en tu puesto, silenciando tu micrófono controlarás que pulsaciones llegan a oír los demás.
Dejar un comentario