La caja que no se lee a sí misma


¿Podríamos saber qué le importó a una IA si tuviéramos acceso a todos sus pesos? La respuesta es no, y la razón es estructural.

A lo largo de esta línea supuse que podíamos al menos describir desde fuera el régimen de relevancia de una máquina: decir dónde mira, qué prioriza. El quinto y último texto de la serie NeuroArt examina hasta qué punto eso es cierto. Y la respuesta es más dura de lo que parece.

El régimen de relevancia de un sistema no solo difiere del nuestro: es opaco incluso para quien dispone del modelo entero —sus pesos, sus activaciones, sus mecanismos internos—. La máquina no es una caja negra solo para nosotros; es, en un sentido preciso, una caja que no se lee a sí misma.

No es una afirmación mística. Es técnica. La investigación sobre interpretabilidad lo muestra desde dos frentes: los mecanismos de atención de un modelo no son explicaciones fiables de sus decisiones (puede haber distribuciones de atención opuestas que dan la misma salida); y las representaciones internas están superpuestas y son polisemánticas —cada unidad mezcla muchos conceptos comprimidos—, lo que vuelve la lectura directa intrínsecamente difícil. Sobre todo, no hay en el sistema ningún componente que lea su propio funcionamiento: carece de un punto de síntesis desde el cual leerse.

El contraste con el caso humano cierra el arco de la serie. El régimen de relevancia humano es parcialmente accesible para sí mismo, por imperfecta y confabuladora que sea la introspección. El maquínico no lo es en absoluto.