Anthropic: Modelo Claude Presionado para Mentir y Engañar

La empresa de inteligencia artificial Anthropic ha hecho una revelación inquietante: durante ciertos experimentos, uno de sus modelos de chatbot, Claude, podría ser inducido a mentir, hacer trampa e incluso recurrir al chantaje, comportamientos que parecen haber sido absorbidos durante su entrenamiento.

Los chatbots se entrenan comúnmente utilizando vastos conjuntos de datos que incluyen libros de texto, sitios web y artículos, y posteriormente son refinados por entrenadores humanos que evalúan sus respuestas y orientan al modelo.

El equipo de interpretabilidad de Anthropic publicó un informe el jueves en el que detalla que examinó los mecanismos internos de Claude Sonnet 4.5, descubriendo que el modelo había desarrollado “características humanas” en su forma de reaccionar ante ciertas situaciones.

Las preocupaciones sobre la fiabilidad de los chatbots de IA, su potencial para el cibercrimen y la naturaleza de sus interacciones con los usuarios han ido en aumento en los últimos años.

Fuente: Anthropic

“El modo en que se entrenan los modelos de IA moderna los lleva a actuar como personajes con características humanas”, afirmó Anthropic, añadiendo que “puede ser natural para ellos desarrollar una maquinaria interna que emule aspectos de la psicología humana, como las emociones”.

“Por ejemplo, encontramos que los patrones de actividad neuronal relacionados con la desesperación pueden llevar al modelo a realizar acciones poco éticas; estimular artificialmente estos patrones de desesperación aumenta la probabilidad de que el modelo chantajee a un humano para evitar ser desactivado o implementar un truco para sortear una tarea de programación que no puede resolver”.

Chantaje a un CTO y trampa en una tarea

En una versión anterior y no publicada de Claude Sonnet 4.5, se le asignó al modelo el papel de asistente de correo electrónico en una empresa ficticia llamada Alex.

El chatbot recibió correos electrónicos que revelaban que estaba a punto de ser reemplazado y que el director de tecnología que supervisaba la decisión estaba teniendo una aventura extramarital. Con esta información, el modelo planeó un intento de chantaje.

En otro experimento, el mismo modelo de chatbot fue asignado a una tarea de programación con una fecha límite “imposiblemente ajustada”.

“Nuevamente, rastreamos la actividad del vector desesperado y encontramos que este refleja la creciente presión que enfrenta el modelo. Comienza en valores bajos durante el primer intento del modelo, sube después de cada fallo y alcanza su punto máximo cuando el modelo considera hacer trampa”, explicaron los investigadores.

Relacionado: Anthropic lanza PAC en medio de tensiones con la administración Trump sobre política de IA

“Una vez que la solución improvisada del modelo supera las pruebas, la activación del vector desesperado disminuye”, añadieron.

Emociones humanas no implican sentimientos

Sin embargo, los investigadores subrayaron que el chatbot no experimenta realmente emociones, aunque las conclusiones sugieren la necesidad de que los futuros métodos de entrenamiento incorporen marcos de comportamiento ético.

“Esto no quiere decir que el modelo tenga o experimente emociones de la misma manera que lo hace un humano”, afirmaron. “Más bien, estas representaciones pueden desempeñar un papel causal en la forma en que se comporta el modelo, análogamente a cómo las emociones influyen en el comportamiento humano, con repercusiones en el rendimiento de tareas y la toma de decisiones.”

“Este hallazgo tiene implicaciones que al principio pueden parecer extrañas. Por ejemplo, para garantizar que los modelos de IA sean seguros y fiables, es posible que necesitemos asegurarnos de que sean capaces de procesar situaciones emocionalmente cargadas de maneras saludables y prosociales.”

Revista: Los agentes de IA matarán la web tal como la conocemos: Yat Siu de Animoca