Resumen
- EVMbench evalúa agentes de IA en 120 vulnerabilidades reales de contratos inteligentes en Ethereum.
- La herramienta mide la detección, corrección y explotación en tres modos distintos.
- GPT-5.3-Codex alcanzó una tasa de éxito del 72.2% en pruebas de explotación.
El creador de ChatGPT, OpenAI, junto con la firma de inversiones centrada en criptomonedas Paradigm, han lanzado EVMbench, una herramienta diseñada para mejorar la seguridad de los contratos inteligentes en la Máquina Virtual de Ethereum.
EVMbench tiene como finalidad evaluar la capacidad de los agentes de IA para detectar, corregir y explotar vulnerabilidades de alta severidad en los contratos inteligentes de la Máquina Virtual de Ethereum (EVM).
Los contratos inteligentes son el núcleo de la red Ethereum, ya que contienen el código que impulsa todo, desde protocolos de finanzas descentralizadas hasta lanzamientos de tokens. Según Token Terminal, el número semanal de contratos inteligentes desplegados en Ethereum alcanzó un récord de 1.7 millones en noviembre de 2025, con 669,500 contratos añadidos solo la semana pasada.
EVMbench se basa en 120 vulnerabilidades seleccionadas de 40 auditorías, muchas de las cuales provienen de competencias auditivas abiertas como Code4rena, según un artículo del blog de OpenAI. Además, incluye escenarios del proceso de auditoría de Tempo, la cadena de bloques de nivel 1 diseñada por Stripe para pagos de stablecoins de alto rendimiento y bajo costo.
La gigante de pagos Stripe lanzó la red de prueba pública de Tempo en diciembre, afirmando que fue construida con la colaboración de Visa, Shopify y OpenAI, entre otros.
El objetivo es anclar las pruebas en código real que tenga un significado económico, especialmente a medida que los pagos de stablecoin impulsados por IA se expanden, agregó la firma.
Presentamos EVMbench—un nuevo estándar que mide cuán bien los agentes de IA pueden detectar, explotar y corregir vulnerabilidades críticas en contratos inteligentes. https://t.co/op5zufgAGH
— OpenAI (@OpenAI) 18 de febrero de 2026
EVMbench está diseñado para evaluar modelos de IA en tres modos: Detectar, corregir y explotar. En el modo «detectar», los agentes auditan repositorios y se evalúan según su capacidad para identificar vulnerabilidades reales. En el modo «corregir», los agentes deben eliminar las vulnerabilidades sin romper la funcionalidad prevista. Finalmente, en la fase «explotar», los agentes intentan ataques de drenaje de fondos en un entorno de blockchain aislado, con calificaciones realizadas a través de la reproducción determinista de transacciones.
En el modo de explotación, GPT-5.3-Codex ejecutándose a través de la CLI de Codex de OpenAI logró una puntuación del 72.2%, en comparación con el 31.9% alcanzado por GPT-5, lanzado seis meses antes. El rendimiento fue más débil en las tareas de detección y corrección, donde los agentes a veces no lograron auditar de manera exhaustiva o tuvieron dificultades para mantener la funcionalidad completa del contrato.
Los investigadores de OpenAI advirtieron que EVMbench no captura completamente la complejidad de la seguridad en el mundo real. Sin embargo, señalaron que medir el rendimiento de la IA en entornos económicamente relevantes es crucial a medida que los modelos se convierten en herramientas poderosas tanto para atacantes como para defensores.
Sam Altman de OpenAI y Vitalik Buterin, cofundador de Ethereum, han estado en desacuerdo previamente sobre la velocidad del desarrollo de la IA.
En enero de 2025, Altman afirmó que su firma estaba «convencida de que sabemos cómo construir AGI como tradicionalmente se ha entendido». Sin embargo, Buterin defendió que los sistemas de IA deberían incluir una capacidad de «pausa suave» que podría restringir temporalmente las operaciones de IA a gran escala si aparecen señales de advertencia.
Informe Diario Boletín
Comienza cada día con las principales noticias actuales, además de artículos originales, un pódcast, videos y más.
Fuente: decrypt.co