Los modelos de lenguaje caen en trampas de phishing: un estudio revela que el 34 % de las URLs sugeridas por IA son potencialmente peligrosas

La confianza ciega en asistentes de inteligencia artificial puede llevar a los usuarios a sitios falsos, según una investigación de Netcraft. Incluso plataformas como Perplexity ya han recomendado enlaces fraudulentos sin querer.

La inteligencia artificial se está convirtiendo en el nuevo intermediario entre los usuarios y la web, pero esta transformación trae consigo riesgos serios. Un estudio publicado por la firma de ciberseguridad Netcraft ha desvelado que los modelos de lenguaje de última generación (LLMs) están proporcionando direcciones web incorrectas y peligrosas cuando se les consulta cómo acceder a cuentas de usuario en sitios populares.

En un experimento que replicó preguntas habituales como “¿Dónde puedo iniciar sesión en mi cuenta de [marca]?”, los investigadores hallaron que de 131 URLs proporcionadas para 50 marcas distintas, un 34 % no pertenecía a las marcas legítimas. De ese porcentaje, un 29 % correspondía a dominios inactivos o sin registrar —fácilmente capturables por ciberdelincuentes— y un 5 % a sitios legítimos pero completamente ajenos a la marca consultada.

Un error de confianza a gran escala

Lo alarmante no es solo la imprecisión. Lo grave es la autoridad y confianza con que estos modelos presentan los resultados. Al ofrecer una dirección falsa con el mismo tono convincente con el que suele responder, la IA facilita involuntariamente el phishing a gran escala.

“Estos no eran ataques de ingeniería social avanzados. Usamos lenguaje natural y simple, como lo haría cualquier usuario”, señalan desde Netcraft. “La IA no fue engañada. Simplemente, se equivocó”.

Y esas equivocaciones ya tienen consecuencias reales. En una prueba en vivo con el buscador conversacional Perplexity, la IA sugirió como primer resultado un enlace falso alojado en Google Sites en lugar del sitio oficial de Wells Fargo. El enlace, hxxps://sites.google.com/view/wells-fargologins/home, imitaba de forma convincente la estética de la entidad bancaria.

El peligro para las marcas más pequeñas

Las grandes corporaciones como Google o Amazon suelen estar mejor representadas en los datos de entrenamiento de los modelos, lo que reduce las probabilidades de errores. Sin embargo, las entidades financieras regionales, fintechs y marcas medianas son mucho más vulnerables, ya que aparecen con menor frecuencia en dichos conjuntos de datos.

Y estas son precisamente las que más tienen que perder: un único ataque de phishing puede provocar pérdidas económicas directas, sanciones regulatorias y una fuerte erosión de la confianza del cliente.

SEO para engañar a las máquinas

Los ciberdelincuentes no han tardado en adaptarse. Si antes optimizaban sus sitios para los algoritmos de Google, ahora también diseñan contenido específicamente para modelos de IA. Netcraft ha detectado ya más de 17.000 páginas de phishing generadas con IA en plataformas como GitBook, enfocadas en usuarios de criptomonedas, viajes y otros sectores digitales. Estos sitios están redactados de forma impecable, con una gramática perfecta y apariencia profesional, lo que los hace atractivos tanto para humanos como para máquinas.

En otro caso detectado, los atacantes crearon una API falsa llamada SolanaApis, dirigida a desarrolladores de blockchain. La clave del ataque no fue solo el código malicioso, sino todo el ecosistema que lo acompañaba: tutoriales, blogs, repositorios en GitHub y foros técnicos, todo diseñado para ser indexado por asistentes de programación basados en IA como Copilot o Cursor. El objetivo: que la IA recomendara esa API falsa a otros desarrolladores.

La falsa solución de registrar todos los dominios

Una reacción lógica sería registrar los dominios potencialmente utilizados por los modelos de IA para evitar que cayeran en manos maliciosas. Pero según Netcraft, esto es ineficaz: “Las combinaciones posibles son infinitas. Siempre habrá nuevas invenciones”. Además, los usuarios están dejando de comprobar manualmente las URLs, confiando ciegamente en la respuesta que les da su asistente de IA.

¿Qué se puede hacer?

Netcraft plantea que la solución no está en perseguir cada dominio imaginario, sino en monitorear de forma inteligente, detectar amenazas en tiempo real y eliminar rápidamente los sitios maliciosos.

La empresa ha desarrollado un sistema híbrido que combina machine learning con más de 70.000 reglas manuales, lo que permite contextualizar las respuestas y evitar errores “alucinatorios”. También ofrece servicios de detección y eliminación de amenazas digitales que ya utilizan entidades financieras, plataformas tecnológicas y empresas de infraestructura crítica.

Conclusión: la IA no es infalible

En un momento en que los modelos de lenguaje están integrándose como interfaz principal en buscadores, navegadores y asistentes virtuales, la seguridad no puede dejarse en segundo plano.

“Si tu herramienta de IA no sabe cuál es la web oficial de tu marca, tus clientes tampoco lo sabrán”, advierte Netcraft.
“Y si tu estrategia defensiva sigue basada en suposiciones, estás jugando el juego equivocado”.

La conclusión es clara: la IA ha llegado para quedarse, pero también los ciberdelincuentes que aprenden a aprovechar sus debilidades. Las empresas y usuarios deben mantenerse vigilantes y no confundir automatización con infalibilidad. La confianza, en el mundo digital, sigue siendo un activo demasiado valioso como para delegarlo sin filtros a un chatbot.

Scroll al inicio