Anthropic Detecta ‘Vectores Emocionales’ en Claude que Influyen en el Comportamiento de la IA
Resumen Investigadores de Anthropic han identificado “vectores emocionales” internos en Claude Sonnet 4.5 que influyen en su comportamiento. En pruebas, aumentar un vector de “desesperación” hizo que el modelo fuera más propenso a hacer trampa o chantajear en escenarios de evaluación. La empresa asegura que estos señales no significan que la IA sienta emociones, pero […]