Un equipo de investigadores de universidades británicas ha entrenado un modelo de aprendizaje profundo que puede robar datos de las pulsaciones de teclas del teclado utilizando un micrófono con una precisión del 95%.
Cuando Zoom se utilizó para entrenar el algoritmo de clasificación de sonido, la precisión de predicción disminuyó al 93%, lo que sigue siendo peligrosamente alto y un récord para ese medio.
Este tipo de ataque afecta gravemente la seguridad de los datos del objetivo, ya que podría filtrar contraseñas, conversaciones, mensajes u otra información confidencial a terceros malintencionados.
Además, a diferencia de otros ataques de canal lateral que requieren condiciones especiales y están sujetos a limitaciones de velocidad de datos y distancia, los ataques acústicos se han vuelto mucho más simples debido a la abundancia de dispositivos con micrófono que pueden lograr capturas de audio de alta calidad.
Esto, combinado con los rápidos avances en el aprendizaje automático, hace que los ataques de canal lateral basados en sonido sean factibles y mucho más peligrosos de lo que se anticipaba anteriormente.
Escuchando las pulsaciones de teclas
El primer paso del ataque es grabar las pulsaciones de teclas en el teclado del objetivo, ya que esos datos son necesarios para entrenar el algoritmo de predicción. Esto se puede lograr a través de un micrófono cercano o del teléfono del objetivo que pueda haber sido infectado por malware que tiene acceso a su micrófono.
Alternativamente, las pulsaciones de teclas se pueden grabar a través de una llamada de Zoom, donde un participante malintencionado hace correlaciones entre los mensajes escritos por el objetivo y su grabación de sonido.
Los investigadores recopilaron datos de entrenamiento presionando 36 teclas en un MacBook Pro moderno 25 veces cada una y grabando el sonido producido por cada pulsación.
Luego, produjeron formas de onda y espectrogramas a partir de las grabaciones que visualizan diferencias identificables para cada tecla y realizaron pasos específicos de procesamiento de datos para aumentar las señales que se pueden utilizar para identificar las pulsaciones de teclas.
Las imágenes del espectrograma se utilizaron para entrenar «CoAtNet», que es un clasificador de imágenes, y el proceso requirió algunas experimentaciones con los parámetros de época, tasa de aprendizaje y división de datos hasta lograr los mejores resultados de precisión de predicción.
En sus experimentos, los investigadores utilizaron la misma computadora portátil, cuyo teclado se ha utilizado en todas las computadoras portátiles de Apple durante los últimos dos años, un iPhone 13 mini colocado a 17 cm del objetivo y Zoom.
El clasificador CoANet logró una precisión del 95% a partir de las grabaciones del teléfono inteligente y del 93% a partir de las capturadas a través de Zoom. Skype produjo una precisión más baja pero aún utilizable del 91,7%.
Posibles mitigaciones
Para los usuarios que están muy preocupados por los ataques acústicos de canal lateral, el documento sugiere que pueden intentar cambiar los estilos de escritura o usar contraseñas aleatorias.
Otras posibles medidas de defensa incluyen el uso de software para reproducir sonidos de pulsaciones de teclas, ruido blanco o filtros de audio de pulsaciones de teclas basados en software.
Es importante tener en cuenta que el modelo de ataque demostró ser muy efectivo incluso contra un teclado muy silencioso, por lo que agregar amortiguadores de sonido en teclados mecánicos o cambiar a teclados de membrana es poco probable que ayude.
En última instancia, el uso de autenticación biométrica siempre que sea posible y el uso de administradores de contraseñas para evitar la necesidad de ingresar información confidencial manualmente también son factores mitigantes.
Vía: BleeppingComputer