El modelo que responde todo no es el más inteligente.
Es el más obediente.
Hay una diferencia enorme entre un colega que dice “eso no tiene sentido, replantea la pregunta” y uno que produce cinco slides sobre por qué tu jardín de vegetales necesita recalcular su carga estructural.
El segundo parece más útil. El primero es más útil.
Los benchmarks de inteligencia miden velocidad, razonamiento, síntesis. Pocos miden lo más importante: saber cuándo la pregunta está mal hecha.
Curiosamente, eso sí lo medimos cuando contratamos personas.
Alguien que no cuestiona las premisas no está pensando, está ejecutando. Y ejecutar bien una pregunta mal formulada no es un talento, es un riesgo.
Peter Gostev diseñó 55 preguntas sin sentido para medir exactamente esto. Lo que encontró no es qué tan listo es el modelo.
Es qué tan honesto.
¿Cuántas reuniones en tu organización terminan con entregables sólidos sobre preguntas que nadie se atrevió a cuestionar?
PD: Gostev lanzó ayer el Bullshit Benchmark, un framework de preguntas sin sentido para medir exactamente esto. Los resultados son reveladores. Si quieres ver cómo se comportan los modelos, puedes consultarlo aquí: Bullshit Benchmark Viewer