Sindicador de canales de noticias
Development » Deprecations #2330 (stable)
Development » Ignored Test Scan #3001 (stable)
El extraño caso de las IAs que no sabían representar relojes
Tal y como demuestra AI World Clocks prácticamente todos los modelos de IA generativa tienen serios problemas para generar el código necesario para representar un reloj analógico dignamente. ¿No debería ser algo prácticamente trivial? Desde luego ingeniería aeroespacial no es.
Como puede verse, da un poco poco igual el modelo LLM que se use, porque esta limitación afecta a todos: o ponen las manecillas fuera de la esfera, o no aciertan a colocar los números, o el «mecanismo» del reloj utiliza ejes imposibles. Es una forma de fallar tristemente que, en cierto modo es como un CAPTCHA, porque si no son capaces de alto tan simple, está claro que son «robots» y no humanos.
Las instrucciones de partida son sencillas:
Genera el código HTML/CSS de un reloj analógico que muestre la hora ${time}. Incluye números (o dígitos) si quieres, y añade una manecilla de segundos animada con CSS. Hazlo con diseño responsive y utiliza un fondo blanco. Devuelve SOLO el código HTML/CSS, sin formato markdown.[Cada modelo tiene 200 tokens para la tarea.]
La página se recarga cada minuto, de modo que la hora que hay que mostrar (variable ${time}) es distinta y además cada modelo maneja como es sabido un «factor aleatorio» que hace que se generen pequeñas (o grandes) variaciones sobre la misma idea de una petición a otra, principalmente para no parecer un loro repetitivo.
Aunque queda claro que los superamos –de momento– en esta tarea a las máquinas, no nos creamos tan listos todavía: una de las pruebas que realizan los neurólogos para comprobar el deterioro cognitivo es precisamente «dibuje un reloj que marque las 10:10». El resultado suele distar bastante de lo que es un reloj considerable «válido» (por la posición de las manecillas, la ubicación de los números y pequeños detalles así).
En cierto modo puede que esta sea una prueba que encierre algún tipo extrañamente profundo de «trampa» mental, como cuando a la gente le pides que dibuje una bicicleta de memoria y la mayoría también falla miserablemente; básicamente sobrestimamos nuestra capacidad para dibujar fielmente objetos comunes.
La idea de esta prueba con LLMs la inspiró Matthew Rayfield y la página es obra de Brian Moore.
Relacionado:





