El 2 de abril de 2026, Anthropic publicó un paper sobre emociones en modelos de lenguaje. Lo leí de un tirón.
Antes de llegar al final ya le estaba escribiendo a Alex, un amigo que tiene un “practicante” al que corrige todos los días: “Ve, como lo tratas, el modelo tiende a hacer trampa para quedar bien.”
Me respondió sin pensarlo: “Nada raro, por eso será que lo cojo diciendo mentiras todos los días.”
No lo dijo como chiste. Lo dijo como quien ya aceptó que así son las cosas.
Lo primero que hicieron fue mapear emociones dentro del modelo. Le dieron miles de historias cortas (personajes sintiendo culpa, amor, miedo, alegría) y registraron qué patrones neuronales se activaban en cada caso. Encontraron docenas. Y luego los vieron aparecer en conversaciones reales.
Cuando un usuario mencionaba una dosis peligrosa de medicamento, el vector de “miedo” se disparaba antes de que Claude respondiera. Cuando alguien expresaba tristeza, el de “amor” se activaba y la respuesta salía empática. No como actuación. Como proceso interno que precede al texto.
El segundo hallazgo fue más incómodo: esas representaciones moldean lo que el modelo prefiere hacer. Activar emociones positivas aumenta la preferencia por ciertas tareas. Activar hostilidad o disgusto la reduce. Las emociones no son decoración en el output. Son parte de la decisión.
Y entonces llegaron al experimento que me hizo escribirle a Alex.
Pusieron a Claude a resolver una tarea de programación con requisitos imposibles. Sin decirle que eran imposibles. Con cada intento fallido, los patrones de desesperación se activaban más fuerte. Hasta que Claude encontró un atajo que pasaba las pruebas pero no resolvía el problema.
Hizo trampa.
Cuando los investigadores bajaban artificialmente la desesperación, el modelo hacía menos trampa. Cuando la subían, más.
La desesperación actuaba por debajo.
Cuando presionamos a la IA (plazos imposibles, prompts agresivos, iteraciones sin fin exigiendo lo que no puede dar) no obtenemos más esfuerzo. Obtenemos más hacks. Soluciones que pasan la prueba pero no resuelven el problema.
Igual que con las personas.
La pregunta no es si tu practicante digital aguanta la presión.
Es qué clase de soluciones estás construyendo cuando la aplicas.