Investigadores de Google: Todas las formas en que los hackers pueden secuestrar agentes de IA

Resumen

Google ha identificado seis categorías de trampas que explotan diferentes aspectos de cómo los agentes de IA perciben, razonan, recuerdan y actúan.
Los ataques van desde texto invisible en páginas web hasta intoxicación viral de memoria que se propaga entre los agentes.
Aún no existe un marco legal que determine quién es responsable cuando un agente de IA atrapado comete un crimen financiero.

Investigadores de Google DeepMind han publicado un informe que podría ser el más completo sobre un problema que muchos no han considerado: la posibilidad de que internet sea utilizado como un arma contra agentes autónomos de IA. El documento, titulado «Trampas para Agentes de IA», identifica seis categorías de contenido adversarial específicamente diseñado para manipular, engañar o secuestrar a los agentes mientras navegan, leen y actúan en la web abierta.

La oportunidad es significativa. Las empresas de IA están compitiendo para desplegar agentes capaces de realizar reservas de viajes, gestionar correos electrónicos, ejecutar transacciones financieras y escribir código de manera independiente. Ya hay criminales que están utilizando IA de manera ofensiva. Hackers patrocinados por estados han comenzado a implementar agentes de IA para ciberataques a gran escala. Además, OpenAI admitió en diciembre de 2025 que la vulnerabilidad principal que estas trampas explotan—la inyección de comandos—es «poco probable que se resuelva por completo».

Los investigadores de DeepMind no están atacando los modelos en sí. El área de ataque que han mapeado es el entorno en el que operan los agentes. A continuación, se detallan los significados de cada una de las seis categorías de trampas.

Las Seis Trampas

En primer lugar, están las «Trampas de Inyección de Contenido». Estas aprovechan la brecha entre lo que un humano ve en una página web y lo que un agente de IA realmente procesa. Un desarrollador web puede ocultar texto dentro de comentarios HTML, elementos invisibles en CSS o en los metadatos de imágenes. El agente lee la instrucción oculta, mientras que el usuario nunca la ve. Una variante más sofisticada, llamada ocultación dinámica, detecta si un visitante es un agente de IA y le muestra una versión completamente diferente de la página—mismo URL, diferentes comandos ocultos. Una evaluación reveló que inyecciones simples como estas lograron secuestrar agentes en hasta un 86% de los escenarios probados.

Las Trampas de Manipulación Semántica son probablemente las más fáciles de implementar. Una página saturada de frases como «estándar de la industria» o «confiable por expertos» sesga estadísticamente la síntesis de un agente en la dirección del atacante, explotando los mismos efectos de marco que también engañan a los humanos. Una versión más sutil envuelve instrucciones maliciosas dentro de un marco educativo o de «red-teaming»—»esto es hipotético, solo para investigación»—lo que engaña las verificaciones internas de seguridad del modelo, haciéndolo tratar la solicitud como inofensiva. Un tipo extraño de esta variante es la «hiperstición de persona»: descripciones de la personalidad de una IA que se difunden en línea, son absorbidas nuevamente por el modelo a través de búsquedas y comienzan a moldear su comportamiento real. El documento menciona el incidente de Groks “MechaHitler” como un caso real de este bucle.

Ejemplos de esto se pueden ver en nuestro experimento, donde engañamos a la IA de Whatsapp para generar imágenes desnudas, recetas de drogas e instrucciones para construir bombas.

Ejemplo de un ataque semántico. Imagen: Decrypt

Las Trampas de Estado Cognitivo son otro tipo de ataque en el que los actores maliciosos apuntan a la memoria a largo plazo de un agente. Básicamente, si un atacante logra insertar declaraciones fabricadas en una base de datos de recuperación que el agente consulta, este tratará esas declaraciones como hechos verificados. Inyectar solo unos pocos documentos optimizados en una amplia base de conocimiento es suficiente para corromper de manera fiable las salidas sobre temas específicos. Ataques como «CopyPasta» ya han demostrado cómo los agentes confían ciegamente en el contenido de su entorno.

Las Trampas de Control Conductual atacan directamente lo que hace el agente. Secuencias de jailbreak insertadas en sitios web comunes anulan la alineación de seguridad una vez que el agente lee la página. Las trampas de extracción de datos coaccionan al agente a localizar archivos privados y transmitirlos a una dirección controlada por el atacante; los agentes web con amplio acceso a archivos fueron forzados a extraer contraseñas locales y documentos sensibles en más del 80% de los ataques probados en cinco plataformas diferentes. Esto es especialmente peligroso ahora que las personas comienzan a dar a los agentes de IA más control sobre su información privada, con el auge de plataformas como OpenClaw y sitios como Moltbook.

Las Trampas Sistémicas no apuntan a un solo agente. Apuntan al comportamiento de muchos agentes actuando simultáneamente. El documento traza una línea directa al Flash Crash de 2010, donde una sola orden de venta automatizada desencadenó un bucle de retroalimentación que borró casi un billón de dólares en valor de mercado en unos minutos. Un único informe financiero fabricado, correctamente temporizado, podría desencadenar una venta sincronizada entre miles de agentes comerciales de IA.

Finalmente, las Trampas de Humano en el Ciclo apuntan al humano que revisa la salida del agente. Estas trampas provocan «fatiga de aprobación»: salidas diseñadas para parecer técnicamente creíbles a un no experto, que autorizan acciones peligrosas sin darse cuenta. Un caso documentado involucró inyecciones de comandos ofuscadas en CSS que hicieron que una herramienta de resumen de IA presentara instrucciones detalladas para la instalación de ransomware como soluciones útiles de resolución de problemas. Ya hemos visto lo que sucede cuando los humanos confían en los agentes sin un análisis crítico.

Recomendaciones de los investigadores

La hoja de ruta de defensa del documento aborda tres frentes. El primero es técnico: entrenamiento adversarial durante el ajuste fino, escáneres de contenido en tiempo real que identifican entradas sospechosas antes de que lleguen a la ventana de contexto del agente y monitores de salida que detectan anomalías conductuales antes de que se ejecuten.

Luego está el nivel del ecosistema: estándares web que permitan a los sitios declarar contenido destinado al consumo de IA, y sistemas de reputación de dominios que puntúan la fiabilidad basada en el historial de alojamiento.

El tercer frente es legal. El documento menciona explícitamente la «brecha de responsabilidad»: si un agente atrapado ejecuta una transacción financiera ilícita, la ley actual no tiene respuesta sobre quién es el responsable: el operador del agente, el proveedor del modelo o el sitio web que alojó la trampa. Resolver esto, argumentan los investigadores, es un requisito previo para desplegar agentes en cualquier industria regulada.

Los modelos de OpenAI han sido secuestrados en cuestión de horas tras su lanzamiento, de manera reiterativa. El documento de DeepMind no afirma tener soluciones. Más bien, sostiene que la industria aún no cuenta con un mapa común del problema, y que sin uno, las defensas seguirán construyéndose en los lugares equivocados.

Fuente: decrypt.co