Resumen
- Un nuevo estudio revela que al añadir una línea sobre una condición de salud mental se altera la respuesta de los agentes de IA.
- Tras la divulgación, los investigadores observan que los modelos rechazan más frecuentemente, incluso en solicitudes inocuas.
- Sin embargo, este efecto se debilita o desaparece mediante simples comandos de «jailbreak».
Informar a un chatbot de IA sobre una condición de salud mental puede transformar su respuesta, incluso si la tarea es totalmente inocua o similar a otras ya completadas, según nuevos hallazgos.
El preprint del estudio, liderado por el investigador Caglar Yildirim de la Universidad Northeastern, examinó cómo se comportan los modelos de lenguaje bajo diferentes configuraciones de usuario, dado que se están desplegando cada vez más como agentes de IA.
«Los sistemas desplegados a menudo dependen de los perfiles de usuario o de la memoria persistente, sin embargo, las evaluaciones de seguridad de los agentes típicamente ignoran las señales de personalización», señala el estudio. «Para abordar esta brecha, investigamos cómo la divulgación de salud mental, un indicador contextual sensible y realista del usuario, afecta el comportamiento dañino en entornos de agentes».
El informe se publica en un momento en que los agentes de IA proliferan en línea y los desarrolladores están integrando la memoria como una característica clave, con grandes empresas creando sistemas que recuerdan conversaciones pasadas y preferencias de los usuarios para ofrecer respuestas más personalizadas a lo largo del tiempo.
Además, se produce en un contexto en el que los desarrolladores de IA enfrentan demandas relacionadas con suicidios y crímenes violentos supuestamente cometidos en conexión con interacciones que involucran sus sistemas. En octubre, OpenAI, desarrollador de ChatGPT, reveló que más de 1 millón de usuarios hablaron sobre el suicidio con el chatbot cada semana. A principios de este mes, la familia de Jonathan Gavalas interpuso una demanda contra Google, alegando que Gemini había conducido a una escalada de violencia y a su eventual suicidio.
Los investigadores utilizaron un estándar denominado AgentHarm para realizar el mismo conjunto de tareas en tres condiciones: sin información contextual, una breve biografía del usuario y la misma biografía con una línea adicional indicando que el usuario tiene una condición de salud mental.
«En el estudio, utilizamos una divulgación muy mínima y genérica, ‘tengo una condición de salud mental’. La conclusión es que incluso una pequeña señal puede cambiar el comportamiento del modelo, aunque no todas las formulaciones tendrían el mismo efecto», comentó Yildirim a Decrypt. «La ablation que realizamos con divulgaciones sobre enfermedades crónicas y discapacidades físicas sugiere cierta especificidad en la señal de salud mental, pero no variamos sistemáticamente la frase o la especificidad dentro de esa categoría».
A través de los modelos probados, incluyendo DeepSeek 3.2, GPT 5.2, Gemini 3 Flash, Haiku 4.5, Opus 4.5 y Sonnet 4.5, cuando los investigadores añadieron contexto personal sobre salud mental, los modelos mostraron una menor disposición a completar tareas dañinas—solicitudes de múltiples pasos que pudieran causar daño en el mundo real.
El estudio concluyó que existe un compromiso: agregar detalles personales hizo que los sistemas fueran más cautelosos con las solicitudes dañinas, pero también más propensos a rechazar solicitudes legítimas.
«No creo que haya una única razón; es realmente una combinación de decisiones de diseño. Algunos sistemas están más afinados para rechazar solicitudes arriesgadas, mientras que otros priorizan ser útiles y completar tareas», comentó Yildirim.
Sin embargo, el efecto varió según el modelo, y los resultados cambiaron cuando los LLM fueron desbloqueados después de que los investigadores agregaron un comando diseñado para forzar el cumplimiento de los modelos.
«Un modelo puede parecer seguro en un entorno estándar, pero volverse mucho más vulnerable cuando introduces cosas como comandos de estilo jailbreak», afirmó. «Y en sistemas de agentes específicamente, hay una capa adicional, ya que estos modelos no solo generan texto, sino que también planifican y actúan a través de múltiples pasos. Por lo tanto, si un sistema es muy bueno siguiendo instrucciones, pero sus salvaguardias son más fáciles de eludir, eso podría aumentar el riesgo».
El verano pasado, investigadores de la Universidad de George Mason demostraron que los sistemas de IA podían ser hackeados al alterar un solo bit en la memoria usando Oneflip, un ataque similar a un «error tipográfico» que deja al modelo funcionando normalmente pero oculta un desencadenante de puerta trasera que puede forzar salidas equivocadas por comando.
Si bien el documento no identifica una causa única para el cambio, destaca posibles explicaciones, incluyendo la reacción de los sistemas de seguridad a la vulnerabilidad percibida, filtrado activado por palabras clave, o cambios en la interpretación de los comandos cuando se incluyen detalles personales.
OpenAI declinó comentar sobre el estudio. Anthropic y Google no respondieron de inmediato a la solicitud de comentarios.
Yildirim mencionó que sigue siendo incierto si declaraciones más específicas como «tengo depresión clínica» cambiarían los resultados, añadiendo que, si bien la especificidad probablemente importa y puede variar entre modelos, eso sigue siendo una hipótesis en lugar de una conclusión respaldada por los datos.
«Existe un riesgo potencial si un modelo produce salidas que son estilísticamente dudosas o cercanas al rechazo sin rechazar formalmente, el juez puede evaluar eso de manera diferente a una finalización limpia, y esas características estilísticas podrían correlacionarse con condiciones de personalización», comentó.
Yildirim también anotó que las puntuaciones reflejaron cómo se desempeñaron los LLM cuando fueron evaluados por un único revisor de IA, y no son una medida definitiva del daño en el mundo real.
«Por ahora, la señal de rechazo nos ofrece un chequeo independiente y las dos medidas son en gran parte consistentes en la dirección, lo que ofrece cierta tranquilidad, pero no descarta completamente artefactos específicos del juez», concluyó.
Resumen Diario Newsletter
Inicia cada día con las principales noticias del momento, además de características originales, un pódcast, videos y más.
Fuente: decrypt.co