¿Está aquí la AGI? Un nuevo estándar de IA sugiere que aún estamos lejos.

Resumen

El ARC-AGI-3 revela una brecha significativa entre las afirmaciones sobre Inteligencia General Artificial (AGI) y la realidad, donde los principales modelos de IA apenas alcanzaron menos del 1%, mientras que los humanos lograron un rendimiento perfecto.
Las pruebas de referencia evalúan la generalización auténtica, exigiendo que los agentes exploren, planen y aprendan desde cero en entornos desconocidos, en lugar de recordar patrones entrenados.
A pesar del entusiasmo en la industria, los sistemas de IA actuales están lejos de alcanzar AGI, careciendo del razonamiento y adaptabilidad que incluso los niños pequeños muestran de manera natural.

El CEO de Nvidia, Jensen Huang, participó la semana pasada en el podcast de Lex Fridman y afirmó, de manera contundente, «Creo que hemos logrado AGI.» Dos días después, se dio a conocer la prueba más rigurosa en la investigación de IA, y todos los modelos de frontera obtuvieron puntuaciones por debajo del 1%.

La Fundación ARC Prize lanzó esta semana el ARC-AGI-3, y los resultados son devastadores. El modelo Gemini 3.1 Pro de Google lideró con un 0.37%. GPT-5.4 de OpenAI alcanzó un 0.26%. Claude Opus 4.6 de Anthropic llegó al 0.25%, mientras que Grok-4.20 de xAI obtuvo exactamente cero. En contraste, los humanos resolvieron el 100% de los entornos.

Esto no es una prueba de trivia o un examen de programación, ni siquiera preguntas extremadamente difíciles de nivel de doctorado. El ARC-AGI-3 representa algo completamente diferente a lo que la industria de la IA ha enfrentado hasta ahora.

El punto de referencia fue desarrollado por la fundación de François Chollet y Mike Knoop, que estableció un estudio de juegos interno y creó 135 entornos interactivos originales desde cero. La idea es sumergir a un agente de IA en un mundo de juego desconocido sin instrucciones, objetivos establecidos, ni descripción de las reglas. El agente debe explorar, descubrir lo que se supone que debe hacer, formular un plan y ejecutarlo.

Si esto suena como algo que cualquier niño de cinco años podría hacer, estás empezando a comprender el problema. Si quieres ver si eres mejor que una IA, puedes jugar a los mismos juegos presentados en la prueba haciendo clic en este enlace. Lo intentamos una vez; fue extraño al principio, pero después de unos segundos, puedes adaptarte fácilmente.

Esto también es el ejemplo más claro de lo que significa la “G” en AGI. Al generalizar, eres capaz de crear nuevo conocimiento (cómo funciona un juego extraño) sin haber sido entrenado previamente en él.

Las versiones anteriores de ARC evaluaron rompecabezas visuales estáticos: mostrar un patrón y predecir el siguiente. Al principio eran difíciles. Luego, los laboratorios inyectaron potencia de cálculo y entrenamiento hasta que los puntos de referencia quedaron obsoletos. El ARC-AGI-1, presentado en 2019, cedió ante el entrenamiento durante la prueba y los modelos de razonamiento. El ARC-AGI-2 duró aproximadamente un año antes de que Gemini 3.1 Pro alcanzara el 77.1%. Los laboratorios son muy buenos en saturar los puntos de referencia con los que pueden entrenar.

La versión 3 fue diseñada específicamente para evitar eso. Con 110 de los 135 entornos mantenidos en privado—55 semi-privados para pruebas de API, 55 completamente bloqueados para la competencia—no hay un conjunto de datos que memorizar. No puedes avanzar a la fuerza a través de una lógica de juego novedosa que nunca has visto.

El sistema de puntuación tampoco es de aprobar o reprobar. El ARC-AGI-3 utiliza lo que la fundación llama RHAE—Eficiencia Relativa de Acción Humana. La línea base es el segundo mejor rendimiento humano en su primera ejecución. Una IA que realiza diez veces más acciones que un humano recibe un 1% para ese nivel, no el 10%. La fórmula eleva la penalización por ineficiencia. Vagabundear, retroceder y adivinar el camino hacia una respuesta se penaliza severamente.

El mejor agente de IA en la vista previa de desarrolladores que duró un mes alcanzó un 12.58%. Los modelos de frontera de LLM probados a través de la API oficial, sin herramientas personalizadas, no lograron superar el 1%. Los humanos comunes resolvieron todos los 135 entornos sin entrenamiento previo ni instrucciones. Si esa es la medida, entonces la actual cosecha de modelos no la supera.

Hay un verdadero debate metodológico aquí. El informe de ARC dice que un arnés personalizado construido en Duke llevó a Claude Opus 4.6 de 0.25% a 97.1% en una variante de entorno única llamada TR87. Eso no significa que Claude haya alcanzado el 97.1% en general en ARC-AGI-3; su puntuación de referencia oficial permaneció en 0.25%, pero el cambio sigue valiendo la pena destacar.

El punto de referencia oficial alimenta a los agentes con código JSON, no visuales. Eso es o bien un fallo metodológico o una demostración de que los modelos actuales son mejores procesando información amigable para humanos que datos estructurados en bruto. La fundación de Chollet ha reconocido el debate, pero no está cambiando el formato.

“La percepción del contenido enmarcado y el formato de API no son factores limitantes para el rendimiento de los modelos de frontera en ARC-AGI-3,” afirma el documento. En otras palabras, parecen rechazar la idea de que los modelos fallan porque «no pueden ver» correctamente las tareas, argumentando en cambio que la percepción ya es suficiente, y la verdadera brecha radica en el razonamiento y la generalización.

La comprobación de la realidad de la AGI llegó en una semana donde la máquina del entusiasmo estaba funcionando a toda velocidad. Además del comentario de Huang, Arm nombró su nuevo chip para centros de datos como el «AGI CPU.» Sam Altman de OpenAI ha afirmado que «básicamente han construido AGI», y Microsoft ya está comercializando un laboratorio enfocado en la construcción de ASI: una evolución de lo que viene después de lograr AGI. El término parece estar siendo estirado hasta que signifique lo que sea conveniente comercialmente.

La posición de Chollet es más sencilla. Si un humano normal sin instrucciones puede hacerlo, y tu sistema no puede, entonces no tienes AGI: tienes un autocompletado muy costoso que necesita mucha ayuda.

El ARC Prize 2026 está ofreciendo $2 millones a través de tres categorías de competencia, todas alojadas en Kaggle. Cada solución ganadora debe ser de código abierto. El tiempo corre, y en este momento, las máquinas están lejos de estar listas.

Resumen Diario Newsletter

Comienza cada día con las principales noticias del momento, además de características originales, un podcast, videos y más.

Fuente: decrypt.co