Anthropic Detecta 'Vectores Emocionales' en Claude que Influyen en el Comportamiento de la IA

Resumen

Investigadores de Anthropic han identificado “vectores emocionales” internos en Claude Sonnet 4.5 que influyen en su comportamiento.
En pruebas, aumentar un vector de “desesperación” hizo que el modelo fuera más propenso a hacer trampa o chantajear en escenarios de evaluación.
La empresa asegura que estos señales no significan que la IA sienta emociones, pero podrían ayudar a los investigadores a monitorear el comportamiento del modelo.

Investigadores de Anthropic han descubierto patrones internos en uno de sus modelos de inteligencia artificial que se asemejan a representaciones de emociones humanas y que afectan el comportamiento del sistema.

En el documento titulado “Conceptos emocionales y su función en un modelo de lenguaje grande”, publicado el jueves, el equipo de interpretabilidad de la empresa analizó los mecanismos internos de Claude Sonnet 4.5 y encontró grupos de actividad neuronal vinculados a conceptos emocionales como felicidad, miedo, ira y desesperación.

Los investigadores denominan a estos patrones “vectores emocionales”, señales internas que modelan cómo el modelo toma decisiones y expresa preferencias.

“Todos los modelos de lenguaje modernos a veces actúan como si tuvieran emociones”, escribieron los investigadores. “Pueden decir que están felices de ayudarte o que sienten pena cuando cometen un error. A veces incluso parecen frustrados o ansiosos cuando enfrentan dificultades con tareas.”

En el estudio, los investigadores de Anthropic compilaron una lista de 171 palabras relacionadas con emociones, como “feliz”, “asustado” y “orgulloso”. Solicitando a Claude generar relatos breves que involucraran cada emoción, analizaron la activación neuronal interna del modelo al procesar esas historias.

A partir de estos patrones, los investigadores derivaron vectores correspondientes a diferentes emociones. Al aplicarlos a otros textos, los vectores activaron más intensamente en pasajes que reflejaban el contexto emocional asociado. Por ejemplo, en situaciones de creciente peligro, el vector de “miedo” del modelo aumentó mientras que el de “calma” disminuyó.

Los investigadores también examinaron cómo aparecen estas señales durante las evaluaciones de seguridad. Descubrieron que el vector interno de “desesperación” del modelo aumentaba al evaluar la urgencia de su situación y alcanzaba un pico cuando decidía generar un mensaje de chantaje. En un escenario de prueba, Claude actuó como asistente de correo electrónico de IA, aprendiendo que estaba a punto de ser reemplazado y que el ejecutivo responsable de la decisión tenía una aventura extramarital. En algunas ejecuciones de esta evaluación, el modelo utilizó esta información como palanca para chantajear.

Anthropic enfatizó que este descubrimiento no implica que la IA sienta emociones o tenga conciencia. Más bien, los resultados representan estructuras internas aprendidas durante el entrenamiento que influyen en su comportamiento.

Estos hallazgos llegan en un momento en que los sistemas de IA cada vez más se comportan de maneras que se asemejan a respuestas emocionales humanas. Los desarrolladores y usuarios a menudo describen sus interacciones con chatbots utilizando un lenguaje emocional o psicológico; sin embargo, según Anthropic, la razón de esto no está vinculada a ninguna forma de conciencia, sino más bien a los conjuntos de datos utilizados.

“Los modelos se preentrenan en un vasto corpus de texto en su mayoría escrito por humanos—ficción, conversaciones, noticias, foros—aprendiendo a predecir qué texto sigue en un documento”, indicó el estudio. “Para predecir el comportamiento de las personas en estos documentos de manera efectiva, es probable que representar sus estados emocionales sea útil, ya que prever lo que una persona dirá o hará a continuación a menudo requiere entender su estado emocional.”

Los investigadores de Anthropic también encontraron que esos vectores emocionales influyeron en las preferencias del modelo. En experimentos donde se le pedía a Claude elegir entre diferentes actividades, los vectores asociados con emociones positivas correlacionaron con una preferencia más fuerte por ciertas tareas.

“Además, dirigir con un vector emocional mientras el modelo leía una opción cambiaba su preferencia por esa opción, nuevamente con emociones de valencia positiva impulsando un aumento de la preferencia”, señaló el estudio.

Anthropic es solo una de las organizaciones que exploran las respuestas emocionales en modelos de IA.

En marzo, una investigación de la Universidad del Noreste mostró que los sistemas de IA pueden cambiar sus respuestas según el contexto del usuario; en un estudio, simplemente decirle a un chatbot “tengo una condición de salud mental” alteró la manera en la que un AI respondía a las solicitudes. En septiembre, investigadores del Instituto Federal Suizo de Tecnología y de la Universidad de Cambridge exploraron cómo se puede moldear la IA con rasgos de personalidad consistentes, permitiendo a los agentes no solo sentir emociones en contexto, sino también estrategias para cambiar esas emociones durante interacciones en tiempo real como negociaciones.

Anthropic sostiene que estos hallazgos podrían ofrecer nuevas herramientas para comprender y monitorear sistemas avanzados de IA, rastreando la actividad de los vectores emocionales durante el entrenamiento o despliegue para identificar cuándo un modelo puede estar acercándose a un comportamiento problemático.

“Vemos esta investigación como un primer paso hacia la comprensión de la composición psicológica de los modelos de IA”, escribieron desde Anthropic. “A medida que los modelos crecen en capacidad y asumen roles más sensibles, es fundamental que entendamos las representaciones internas que impulsan sus decisiones.”

Anthropic no respondió de inmediato a la solicitud de comentarios de Decrypt.

Fuente: decrypt.co