Project Ire: El clasificador de malware autónomo de Microsoft que piensa como un ingeniero inverso

Microsoft ha presentado Project Ire, un prototipo de agente de inteligencia artificial autónomo capaz de analizar y clasificar software sin necesidad de contexto previo. Es decir, reproduce el complejo proceso de la ingeniería inversa manual, pero con la velocidad de las máquinas. Nacido de la colaboración entre Microsoft Research, Microsoft Defender Research y Discovery & Quantum, este sistema representa un avance clave en la clasificación y detección de malware a escala.

Project Ire puede descompilar binarios, reconstruir flujos de control, analizar memoria e interpretar patrones de comportamiento de alto nivel, todo ello mediante una cadena de herramientas impulsada por modelos de lenguaje (LLMs) y frameworks de análisis binario. Además, construye cadenas de evidencia auditables y toma decisiones de clasificación —malicioso o benigno— sin necesidad de indicadores estáticos o pistas humanas.


¿Por qué Project Ire es importante para los SOC modernos?

Los centros de operaciones de seguridad (SOC) modernos enfrentan un aluvión diario de posibles amenazas, muchas de las cuales deben ser revisadas manualmente por ingenieros inversos expertos. Estos profesionales sufren fatiga por alertas, sobrecarga cognitiva y criterios de clasificación inconsistentes a lo largo del tiempo.

Las herramientas tradicionales de IA están limitadas por la ambigüedad del comportamiento malicioso y la falta de «verdades absolutas» en los conjuntos de datos. Muchas funciones sospechosas pueden ser legítimas (por ejemplo, técnicas anti-debugging), mientras que el malware novedoso evade los sistemas basados en firmas.

Project Ire rompe este cuello de botella al:

  • Actuar como un agente autónomo capaz de razonar y utilizar herramientas especializadas.
  • Usar modelos de lenguaje para sintetizar hallazgos de múltiples fuentes de análisis.
  • Generar informes forenses legibles y auditables.
  • Escalar a binarios desconocidos sin depender de firmas.

Arquitectura del sistema: Del binario al veredicto

Componentes clave:

  • Agente de razonamiento LLM: Orquesta el uso de herramientas, interpreta resultados y redacta informes.
  • API de herramientas: Conecta con sandboxes (como Project Freta), Ghidra, angr y descompiladores personalizados.
  • Gráfico de flujo de control (CFG): Construye el esqueleto lógico del software analizado.
  • Cadena de evidencia: Trazabilidad completa del razonamiento del sistema.
  • Capa de validación: Contrasta conclusiones con reglas y conocimientos de expertos en malware.

Funcionalidades destacadas:

FuncionalidadDescripción
Detección de tipo de archivoIdentifica formato, arquitectura y estructura
Reconstrucción de flujo de controlUsa angr y Ghidra para crear el CFG y entender la lógica del binario
Resumen de funcionesResume cada función binaria con ayuda de LLMs
Análisis de memoriaSe apoya en herramientas tipo Project Freta
Detección de comportamiento de redIdentifica actividad C2, sockets, peticiones HTTP
Detección de inyecciones y hooksSeñala trampas, manipulación de procesos e inyecciones de código
Técnicas anti-debuggingDetecta uso de interrupciones y evasión de análisis

Resultados de evaluación

Conjunto de datos de drivers de Windows:

  • Precisión: 0,98
  • Recall (sensibilidad): 0,83
  • Falsos positivos: 2 %

Project Ire clasificó correctamente el 90 % de todas las muestras y solo etiquetó erróneamente como malicioso un 2 % de los archivos benignos. Un rendimiento excelente para despliegues de seguridad operativa.

Prueba en muestras reales no clasificadas:

  • Muestras: Más de 4.000 binarios difíciles, sin clasificación previa
  • Precisión: 0,89
  • Recall: 0,26
  • Falsos positivos: 4 %

Pese a la dificultad (archivos nuevos, evasivos y sin etiquetas), Project Ire logró identificar una buena proporción de amenazas reales, con muy pocos falsos positivos. Esto refuerza su potencial para implementaciones reales.


Casos prácticos: Informes generados por Project Ire

1. Trojan:Win64/Rootkit.EH!MTB

  • Detecta manipulación del proceso Explorer.exe (MonitorAndTerminateExplorerThread_16f64)
  • Identifica tráfico de red sospechoso con HTTP GET (HttpGetRequestAndResponse_174a4)
  • Reconoce técnicas de inyección (PatchProcessEntryPointWithHook_12b5c)
  • Concluye con una clasificación maliciosa con alta confianza

2. HackTool:Win64/KillAV!MTB

  • Termina procesos de antivirus conocidos (TerminateProcessesByNameSubstring_1400010f4)
  • Intenta técnicas anti-análisis (interrupciones int 0x29, int 0x3)
  • Una función fue erróneamente clasificada como anti-debugging, pero corregida posteriormente

Cada informe incluye:

  • Resumen de funciones
  • Análisis de comportamiento
  • Cadena de evidencia completa
  • Evaluación auditable por expertos

Comparativa con métodos tradicionales

MétricaIngeniería inversa manualProject Ire
VelocidadHoras o díasMinutos
EscalabilidadLimitada al equipo humanoMiles de binarios por día
ConsistenciaVariable según analistaDeterminista y trazable
InterpretabilidadSolo para expertosInformes forenses legibles
MantenimientoLento (reglas manuales)Entrenamiento guiado por expertos + IA

Perspectivas futuras

Microsoft planea integrar Project Ire dentro de la infraestructura de Defender como parte del módulo Binary Analyzer, con aplicaciones como:

  • Priorización automática en flujos de trabajo de SOC
  • Generación de inteligencia de amenazas automatizada
  • Apoyo a analistas humanos en tareas complejas
  • Posible detección de malware en memoria en tiempo real

Preguntas frecuentes para sysadmins y analistas

¿Puede detectar malware nuevo (zero-day)?
Sí, Project Ire reconstruye comportamientos y patrones incluso sin firmas, permitiendo detectar amenazas desconocidas.

¿Cómo maneja los falsos positivos?
Cada decisión se respalda con una cadena de evidencia que permite revisión humana y mejora de las reglas del sistema.

¿Sustituye a los analistas humanos?
No. Está diseñado para aumentar la capacidad humana, no reemplazarla. Actúa como copiloto experto para las tareas más repetitivas.

¿Se puede desplegar localmente (on-prem)?
Actualmente funciona dentro del ecosistema Defender, pero futuras versiones podrían ofrecer API o despliegues empresariales.

¿Usa herramientas open source?
Sí, integra angr, Ghidra, herramientas propias y otros proyectos como Project Freta.

fuente: news.microsoft.com

Scroll al inicio