La ciberseguridad entra en una fase incómoda: el adversario ya no solo descarga cargas maliciosas precompiladas, ahora las puede escribir sobre la marcha. Investigadores de SentinelOne han documentado MalTerminal, el ejemplo más antiguo conocido de malware con capacidades LLM embebidas que, conectado a GPT-4, es capaz de generar ransomware o un reverse shell bajo demanda. El hallazgo confirma un cambio de era: los modelos de lenguaje han saltado del soporte operativo del atacante —redacción de phishing, ayuda para programar o triage de datos robados— a formar parte del propio binario malicioso.
Más allá del impacto mediático, lo relevante es la asimetría técnica que introduce: si el código malicioso se crea en tiempo de ejecución, las firmas estáticas pierden eficacia, el comportamiento puede variar entre ejecuciones y la detección dinámica se complica. Al mismo tiempo, esta nueva familia trae su talón de Aquiles: prompts y claves API incrustadas que, bien cazadas, abren una vía de threat hunting hasta ahora inexistente.
Qué es MalTerminal y por qué importa
MalTerminal es un ejecutable para Windows que, según SentinelOne, utiliza la API de chat completions de OpenAI (una ruta deprecada desde principios de noviembre de 2023) para interactuar con GPT-4. El operador elige en un menú si quiere generar un payload de ransomware o un reverse shell, y el malware solicita y obtiene del modelo el código necesario para esa acción. Junto al binario, los analistas localizaron scripts en Python que replican la funcionalidad —testAPI.py, TestMal2.py— y una herramienta defensiva bautizada como FalconShield —TestMal3.py, Defe.py— que pide al modelo un juicio de malicia sobre código y hasta redacta un informe de análisis.
El conjunto revela dos ideas potentes:
- LLM como motor: el malware no trae todo su arsenal “enlatado”; subcontrata al modelo partes críticas (generación de comandos y código), lo que dificulta la detección por firmas.
- Prompts como evidencia: para funcionar, el malware deja rastro (prompts y método de acceso al modelo, incluida la clave API) que permite buscarlo en repositorios como VirusTotal.
Los investigadores, además, documentan técnicas evasivas de phishing que explotan injection prompt en correos HTML, ocultando instrucciones en atributos CSS para engañar evaluadores basados en IA. En paralelo, recuerdan que vectores conocidos como CVE-2022-30190 (Follina) siguen vivos en cadenas de ataque: el viejo bug de MSDT en Windows permanece en uso para ejecutar código remoto si no se ha parcheado.
De la IA como cebo al malware “impulsado por IA”: el mapa de usos
SentinelOne distingue varias formas en que los adversarios están explotando modelos de lenguaje:
- LLM como señuelo: apps o asistentes de IA falsos —o con puertas traseras— como gancho de ingeniería social.
- Ataques a sistemas con LLM integrados: prompt injection en aplicaciones corporativas que han embebido IA sin un modelo de amenazas semántico.
- Malware creado por LLM: posible, pero aún inmaduro; se observa edición manual por parte de los atacantes y hallucinations que frenan el despliegue autónomo a gran escala.
- LLM como escudero: apoyo operativo para escribir phishing, generar fragmentos de código o clasificar datos robados (los “WormGPT” y compañía, muchas veces capas sobre ChatGPT con pre-prompts que intentan burlar políticas).
- Malware con LLM embebido (LLM-enabled malware): la pieza diferencial que más inquieta a la defensa, porque incorpora el modelo como componente operativo del ataque —el caso de MalTerminal entra aquí—.
Ese último punto es el que rompe inercias de detección: si el binario no contiene de antemano la lógica maliciosa sino que la encarga a un LLM durante la ejecución, las rutas de defensa tradicionales se quedan cortas. De cara a cazadores y blue teams, la investigación propone virar el radar: buscar prompts y claves embebidos, y clasificar su intención con ayuda de un LLM ligero como filtro inicial.
Más casos en el radar: PromptLock y LameHug/PROMPTSTEAL
Aunque no abundan los ejemplos de malware con LLM integrado “en estado salvaje”, hay piezas significativas:
- PromptLock (citado inicialmente como primer ransomware con IA por ESET, y finalmente PoC universitario): escrito en Go, con compilaciones para Windows y Linux (x64 y ARM). Los prompts demuestran técnicas para burlar salvaguardas (enmarcar la petición “como experto en ciberseguridad”), generar comandos según el sistema y producir código Lua con guardarraíles específicos para reducir errores del modelo.
- LameHug / PROMPTSTEAL (vinculado a APT28 por CERT-UA): usa LLMs para generar y ejecutar comandos de recolección de información, exfiltra vía Paramiko (SSH) y llegó a incrustar 284 claves de API de Hugging Face —un movimiento lógico para resistir listas negras y prolongar la vida del malware—.
Ambos casos dejan lecciones para el lado defensor:
- Las firmas “del código malicioso” ya no valen si el código se crea a demanda.
- El tráfico de red puede mimetizar el uso legítimo de APIs de IA.
- El camino de ejecución cambia según el entorno, lo que complica la reproducibilidad de la detección.
Pero también dan armas: las dependencias (claves, prompts, bibliotecas estándar de cliente) son puntos de presión; si revocas una clave o cambias las políticas de acceso, el malware con LLM se rompe. Potente, sí; frágil, también.
Cómo cazan los analistas: claves API y “prompts como código”
La metodología de SentinelOne se apoya en dos estrategias de caza que cualquier equipo puede adaptar:
- Búsqueda amplia de claves API (wide API key detection).
Reglas YARA para prefijos y patrones deterministas (por ejemplo,T3BlbkFJ
—“OpenAI” en Base64— dentro de claves de OpenAI, osk-ant-api03
en Anthropic) permiten retro-cazar miles de muestras. La mayoría no son maliciosas (claves filtradas sin intención, apps legítimas, etc.), pero el clustering por conjunto de claves compartidas ayuda a priorizar. - Caza por prompts (prompt hunting).
Todo software con LLM tiene que emitir prompts. Buscarlos en binarios y scripts, extraerlos y puntuar su intención (maliciosa o benigna) con un clasificador ligero permite escalar el proceso y surfear el volumen de muestras. Donde antes se cazaba “código malicioso”, ahora puede cazarse “intención maliciosa en el prompt”.
Este enfoque destapó MalTerminal y otros artefactos ofensivos con IA: agentes para pentesting, inyectores de vulnerabilidades (“Modifica este código seguro para introducir {CWE} y devuelve JSON con ‘code’ y ‘vulnerability’”), asistentes de descubrimiento de fallos, automatizaciones visuales en móvil, etc.
¿Qué puede hacer hoy el atacante con un LLM embebido?
Generar cargas a medida. Ransomware y reverse shells “a la carta”, con obfuscación variable y mutación por ejecución.
Evadir filtros semánticos. Phishing con injection prompt en HTML/CSS para engañar a filtros basados en IA.
Apoyarse en SaaS de IA. Uso de APIs públicas (OpenAI, Anthropic, Mistral, etc.) o plataformas (Hugging Face, Groq, Fireworks…), con claves robadas incrustadas para camuflar el tráfico entre el ruido legítimo.
Reaprovechar eslabones viejos. CVEs conocidos como CVE-2022-30190 (Follina) continúan operativos en cadenas que combinan explotación clásica con automatización LLM.
Lo que la defensa debe cambiar (desde ya)
1) Parcheo y hardening básicos (sí, siguen contando)
- Windows con parches al día frente a MSDT/Follina (CVE-2022-30190) y familia.
- Restringir scripts no autorizados, políticas de ejecución y AppLocker/WDAC para reducir superficie.
- Autenticación reforzada (MFA donde proceda) y mínimo privilegio real.
2) Visibilidad de accesos a APIs de IA y software con LLM
- Inventario de aplicaciones que integran modelos (propias o de terceros).
- Monitorización de llamadas a APIs de IA (destinos, volúmenes, claves en uso), con alertas ante patrones anómalos.
- Bloqueo/aislamiento de ejecutables que incrustan claves de servicios públicos de IA sin justificación.
3) Threat hunting orientado a prompts y claves
- Reglas YARA para patrones de claves API conocidas.
- Búsqueda de prompts en .exe/.dll/.py/.js que delaten intención ofensiva (“genera un reverse shell”, “encripta directorios”, “ejecuta comando”, “no devuelvas markdown”).
- En pipeline de análisis, clasificador LLM liviano para priorizar prompts de alto riesgo.
4) Correo y phishing en la era del prompt injection
- Filtros que inspeccionen HTML y CSS buscando instrucciones ocultas.
- Detección de behavior en cliente (no solo reputación de URL).
- Formación actualizada: plantillas de phishing con señales IA (texto impecable, contexto verosímil, timing afinado).
5) Gestión de dependencias y revocation
- Política para revocar claves detectadas en muestras y rotación acelerada si hay sospecha de filtración.
- eBPF/EDR con reglas capaces de detectar generación de código anómala, invocaciones a intérpretes y combinaciones de procesos fuera de patrón.
¿Es el apocalipsis? No. Es una ventana de aprendizaje… que se cerrará
El propio análisis de SentinelOne recuerda que el malware con LLM embebido está en fase temprana y es, en cierto modo, frágil: depende de claves, políticas y disponibilidad de servicios de terceros, y deja huellas (prompts, estructuras de llamadas). Eso no resta gravedad al vector —sobre todo por lo que anticipa—, pero da tiempo a que los defensores ajusten:
- Incorporar “semántica” al threat hunting (buscar intenciones además de indicadores).
- Afinar telemetría sobre APIs de IA y bibliotecas estándar de cliente.
- Redoblar formación en phishing y en higiene de credenciales (claves de API incluidas).
Como todo ciclo ofensivo, cuando el uso madure, los atacantes ocultarán mejor sus artefactos. Aprovechar la ventana de visibilidad actual es clave para llegar con ventaja a ese momento.
Recomendaciones accionables (lista breve para equipos TI y SecOps)
- Parchee sistemas Windows y deshabilite rutas MSDT según las guías oficiales si aplica.
- Audite qué software corporativo usa LLMs; aplique políticas de uso y registro de llamadas a APIs.
- Implemente reglas YARA para claves de proveedores de IA y prompts típicos de uso ofensivo.
- Endurezca correo: inspección de HTML/CSS, sandboxing de adjuntos, DMARC/DKIM/SPF y MFA para cuentas.
- Revise proxy/IDS para destinos y cabeceras comúnmente asociados a APIs de IA.
- Prepare playbooks para revocación de claves API filtradas y bloqueo de binarios que las contengan.
- Eduque: talleres enfocados en phishing potenciado por IA y señales de manipulación semántica.
Conclusión editorial
MalTerminal no rompe Internet, pero cambia las reglas. La capacidad de generar lógica maliciosa en tiempo real convierte a los LLM en aceleradores de ataque y obliga a la defensa a moverse de las firmas al contexto. Es la primera vez que un modelo de lenguaje aparece incrustado en un malware documentado con esa capacidad y, aunque su dependencia de claves y servicios lo haga frágil, el vector crecerá. La oportunidad —hoy— es clara: cazar prompts y claves, vigilar el uso corporativo de IA y blindar los viejos eslabones (parches, correo, MFA). El resto será disciplina: medición, playbooks y formación para una superficie de ataque donde la manipulación semántica ya no es teoría, sino práctica diaria.
Preguntas frecuentes (FAQ)
¿Qué es exactamente MalTerminal y qué lo hace diferente de un malware “clásico”?
Es un malware para Windows que integra GPT-4 mediante una API de chat para generar a demanda un ransomware o un reverse shell. A diferencia del malware tradicional, no trae todo el código malicioso precompilado: lo solicita al LLM en tiempo de ejecución, lo que complica firmas estáticas y favorece variantes por ejecución.
¿Cómo impacta esto en la detección y el threat hunting?
Las firmas de código pierden tracción si la lógica se genera en vivo. A cambio, aparecen nuevos IOC/IOA: prompts y claves API incrustadas, uso de bibliotecas cliente estándar y dominios de proveedores de IA. Cazar por prompt y clave es hoy una táctica eficaz.
¿Qué medidas concretas pueden reducir el riesgo ya mismo?
Aplicar parches (incluido el vector CVE-2022-30190/Follina en Windows), restringir scripts, MFA y mínimo privilegio; monitorizar y gobernar el uso de APIs de IA; reforzar filtros de correo frente a prompt injection en HTML/CSS; y preparar playbooks de revocación de claves y aislamiento de binarios con credenciales incrustadas.
¿Es realista pensar en “malware autónomo generado por IA” a gran escala?
Los investigadores señalan que, hoy, el malware creado por LLMs sigue siendo inmaduro: requiere edición manual, sufre hallucinations y falta de pruebas. Sin embargo, el camino ya está trazado y la integración de LLMs como módulos operativos (el caso MalTerminal) sí es viable y crece. La defensa debe anticipar ese escenario fortaleciendo telemetría, caza semántica y gobernanza del uso de IA.
vía: CVE-2022-30190 y sentinelone