En un contexto donde interactuamos diariamente con chatbots y herramientas impulsadas por inteligencia artificial, solemos formular preguntas simples, como “¿Cuál será el clima hoy?” o “¿Funcionarán los trenes a tiempo?”. Sin embargo, quienes no están involucrados en el desarrollo de estas tecnologías podrían asumir erróneamente que toda la información se procesa en un sistema único y omnisciente. La realidad, como se destacó en la reciente conferencia Black Hat Europe 2024, es mucho más compleja, y estos sistemas podrían ser vulnerables a ataques maliciosos.
Durante la presentación de Ben Nassi, Stav Cohen y Ron Bitton, se detalló cómo los actores maliciosos pueden eludir las salvaguardias de un sistema de IA para subvertir sus operaciones. A través de preguntas específicas, se puede manipular el sistema para que genere respuestas dañinas, como provocar un ataque de denegación de servicio.
Para muchos, un servicio de IA se percibe como una única fuente de información, pero en realidad, depende de múltiples componentes interconectados, denominados «agentes». Por ejemplo, una consulta sobre el clima y el estado de los trenes requeriría datos de dos agentes diferentes. El modelo, o «planificador», es el encargado de integrar esta información para formatear respuestas. Además, existen mecanismos de seguridad que impiden al sistema responder preguntas inapropiadas o fuera de su ámbito.
No obstante, los ponentes demostraron que estas salvaguardias pueden ser manipuladas. Preguntas específicas pueden activar bucles interminables, donde un atacante puede formular una pregunta que siempre genera una respuesta prohibida, saturando así el sistema y provocando un ataque de denegación de servicio. En un escenario cotidiano, un atacante podría enviar un correo a un usuario con un asistente de IA que incluya una consulta diseñada para ser inofensiva, pero que el sistema trate como insegura, creando un ciclo de peticiones que agota los recursos del sistema.
La técnica se vuelve aún más sofisticada si el atacante logra extraer información sobre las salvaguardias del sistema. A través de preguntas aparentemente inofensivas sobre el funcionamiento y la configuración de la IA, se puede obtener suficiente información que permita enviar comandos al sistema, concediendo acceso privilegiado al atacante en caso de que un agente tenga derechos de acceso.
La presentación dejó claro que estas interacciones constituyen un ataque de ingeniería social sobre un sistema de IA. La manipulación a través de preguntas que el sistema está dispuesto a responder puede permitir a actores maliciosos reunir piezas de información para eludir las restricciones y extraer más datos, o incluso hacer que el sistema realice acciones inapropiadas. En el peor de los casos, si uno de los agentes tiene derechos de acceso a archivos, podría ser utilizado para cifrar datos y bloquear el acceso a otros, una situación que muchos reconocen como un incidente de ransomware.
La ingeniería social de un sistema de IA pone de manifiesto la necesidad de una cuidadosa consideración y configuración al implementar estas tecnologías, de modo que no sean susceptibles a ataques que comprometan su integridad y funcionalidad.
Fuente: WeLiveSecurity by eSet.