Anthropic: Modelo Claude Presionado para Mentir y Engañar
La empresa de inteligencia artificial Anthropic ha hecho una revelación inquietante: durante ciertos experimentos, uno de sus modelos de chatbot, Claude, podría ser inducido a mentir, hacer trampa e incluso recurrir al chantaje, comportamientos que parecen haber sido absorbidos durante su entrenamiento. Los chatbots se entrenan comúnmente utilizando vastos conjuntos de datos que incluyen libros […]