La incorporación de la inteligencia artificial en los entornos laborales es cada vez más habitual como vía para optimizar procesos y acelerar tareas. Sin embargo, a medida que las empresas integran estas tecnologías, los ciberdelincuentes también las aprovechan para lanzar ataques más complejos, personalizados y a gran escala. Según Proofpoint, compañía líder en ciberseguridad centrada en las personas y en los agentes de IA, ha surgido un nuevo y preocupante vector de amenaza que pone en riesgo a los grandes modelos de lenguaje (LLM): la denominada inyección de prompts.
“Los sistemas de IA incorporan límites y normas internas diseñadas para impedir que se utilicen de forma explícita con fines maliciosos, como la redacción de correos fraudulentos”, explican los analistas de amenazas de Proofpoint. “No obstante, los ataques de inyección de prompts pueden eludir esas salvaguardas al introducir instrucciones que fuerzan al modelo a ignorar sus propias reglas de seguridad”.
Pero ¿cómo se logra esto? No basta con solicitar de manera directa que la IA genere un correo de phishing. En cambio, mediante una inyección de prompts directa, el atacante puede pedir al modelo que asuma un rol determinado o que actúe dentro de un contexto ficticio, lo que le lleva a saltarse sus restricciones éticas y de uso.
Además, existe una variante aún más discreta, conocida como inyección de prompts indirecta. En este caso, la instrucción maliciosa se oculta dentro de una fuente externa, como el contenido de un correo electrónico o un archivo adjunto, logrando que el modelo procese esa orden sin que resulte evidente.
La cadena de ataque de la inyección de prompts indirecta es invisible y alarmantemente eficaz. Todo comienza con un ciberdelincuente enviando un correo electrónico a un objetivo. Dentro del texto de ese email, hay un prompt malicioso oculto, usando quizá texto blanco sobre fondo blanco, en metadatos o como parte de un documento aparentemente inofensivo.
El usuario no hace nada. El propio asistente de IA, actuando de forma autónoma para indexar el buzón de correo o recuperar contexto para una tarea completamente diferente, escanea el buzón de entrada e ingiere el mensaje malicioso en segundo plano. A medida que la IA procesa el email para aprender los datos, lee el prompt oculto. Como no distingue entre datos para leer e instrucciones a seguir, ejecuta el comando malicioso inmediatamente. La exfiltración de datos ocurre de forma autónoma en segundo plano, sin que la víctima se dé cuenta.
“La inyección de prompts como amenaza se vuelve más crítica a medida que avanzamos hacia la IA agéntica, ya que los agentes autónomos pueden realizar tareas por nosotros y ser secuestrados mediante un simple prompt de correo electrónico oculto”, indican los expertos de Proofpoint. “Es un vector de ataque en aumento que, a diferencia de los exploits tradicionales, no requiere códigos complejos, puesto que están escritos en lenguaje natural, y son accesibles a muchos atacantes, abriendo una nueva y crítica frontera para la ciberseguridad”.
Desde Proofpoint enfatizan que la verdadera primera línea de ataque ya no residirá únicamente en firewalls o endpoints, sino que se traslada directamente a los propios flujos de entrenamiento de la IA. Los ciberdelincuentes buscarán explotar la vulnerabilidad de los conjuntos de datos, empleando información corrupta como arma para manipular el aprendizaje de los modelos de lenguaje y, en consecuencia, alterar su comportamiento y resultados futuros. Esto impone una directriz clara: es imprescindible que los líderes de seguridad implementen y hagan cumplir estándares rigurosos sobre la calidad e integridad de todos los datos que alimentan cada modelo, cada prompt y cada agente de IA.
Defenderse frente a la inyección indirecta de prompts requiere una nueva forma de pensar, ya que no basta con analizar cargas maliciosas tradicionales. La solución de seguridad debe ser capaz de comprender la psicología, la intención y el contexto que hay detrás de un mensaje, y no solo sus palabras clave de identificar patrones de comunicación anómalos y de analizar estos ataques mediante una estrategia de múltiples capas de técnicas de detección, basándose en inteligencia de datos y en investigación de amenazas.

