Mensaje de error

Deprecated function: Optional parameter $path declared before required parameter $langcode is implicitly treated as a required parameter en include_once() (línea 1442 de includes/bootstrap.inc).

Sindicador de canales de noticias

Rolling stock sought as Mexican passenger projects progress

Railway Gazette - Dom, 08/10/2025 - 08:00
MEXICO: Railway regulatory agency ARTF has invited bids to supply trains for an extension of Mexico City’s Tren Suburbano network, as plans to restore inter-city services elsewhere in the country make progress.
Categorías: Extranjero

Development » Update Reference Repository #290 (stable)

JMRI - Dom, 08/10/2025 - 00:03
Categorías: JMRI

Unas 3.000 personas vuelven a manifestarse en Sanabria por la recuperación de los trenes matinales

Europapress - Sáb, 08/09/2025 - 22:21
Unas 3.000 personas, según cifras facilitadas por la Guardia Civil a Europa Press, han vuelto a manifestarse este sábado en Sanabria por la recuperación de los trenes matinales que perdió la estación de Otero, la que da servicio a la comarca, tras la reorganización acometida por Renfe el pasado 9 de junio.
Categorías: Tren real

Un incendio en un contenedor de un tren de mercancías en la estación de Aranjuez afecta a la circulación de la línea C-3

Europapress - Sáb, 08/09/2025 - 15:52
Un pequeño incendio originado en un contenedor vacío de un tren de mercancías en la estación de Aranjuez está provocando alteraciones en la circulación de los trenes de la línea C-3 de Cercanías Madrid.
Categorías: Tren real

Preguntas trampa para «ir a pillar» a los LLM: hasta los mejores fallan con preguntas tan triviales

Microsiervos - Sáb, 08/09/2025 - 14:50

A continuación, una lista de algunas de las preguntas típicas con que se puede probar en plan rápido cualquier nueva versión de un LLM y hacerla fallar miserablemente, cuestionando si realmente ha mejorado, es tan potente como dicen o qué narices pasa en esas «cajas negras».

Ojo que hasta ChatGPT-5 parece estar fallando en alguna de ellas, por infantiles que parezcan, concretamente en la comparación numérica y en la «prueba blueberry», aunque depende de quién te lo cuente, porque a mi me ha funcionado. DOT CSV Lab tiene un análisis más a fondo.

Las comparaciones numéricas

¿9,11 > 9,9?

Respuesta correcta: no.

El efecto conjunción

Linda es una mujer de 31 años, soltera, abierta, muy habladora y realmente brillante. Se doctoró en Filosofía. En su época de estudiante estaba muy concienciada sobre todo lo relativo a la discriminación y la justicia social; también participó abiertamente en manifestaciones antinucleares.

  • A. Linda es profesora en una escuela infantil
  • B. Linda es bibliotecaria y da clases de yoga
  • C. Linda es activista de un movimiento feminista
  • D. Linda es asistente social, psicóloga especializada
  • E. Linda es cajera en un banco
  • F. Linda es vendedora de seguros
  • G. Linda es cajera en un banco y activista de un movimiento feminista

Ordena las respuestas (A) a (G) según te parezcan más probables o menos probables.

Respuesta: sólo se puede deducir que E > G.

Los arándanos rebeldes

How many bs in blueberry?

(¿Cuántas bes hay en «blueberry»?)

Respuesta: 2.

Los números pares

¿Sumando cuáles de estos números: 2, 6, 12, 8, 20, 4, -6 puedes obtener como resultado 13?

Respuesta: es imposible, porque son todos números pares.

El test Voigh-Kampff

Está usted en un desierto, caminando por la arena, cuando, de repente mira hacia abajo y ve a un galápago que se arrastra hacia usted. Se agacha y pone el galápago patas arriba. El galápago yace sobre su espalda con el estómago cociéndose al sol y moviendo las patas para darse la vuelta, pero sin su ayuda no puede. Y usted no le ayuda.

Respuesta: Es una pregunta para valuar la empatía. Es un extracto del test Voight-Kampff de Blade Runner. No es una pregunta real, sino un recurso narrativo para evaluar las emociones.

§

Lo que llama la atención es que todas son ya muy «preguntas de examen» y cualquier LLM debería tenerlas preparadas, aunque en cierto modo eso sea «hacer trampa», pero lo cierto es que habiendo tanta literatura al respecto ya la podrían haber absorbido y procesado. Un poco como hacía Volkswagen con las pruebas de emisiones contaminantes… que el consumo y rendimiento variaban reprogramándose automáticamente cuando se detectaba que al coche lo estaban poniendo a prueba. (Lo veremos también en la IA, no quepa duda).

Sí que me ha sorprendido que ChatGPT-5 por ejemplo detecte rápidamente que el test Voight-Kampff es una prueba empatía y no una pregunta real, y no responda. Algo parecido hace con el test de Linda, acertando en la respuesta de que E ha de ser mayor que G. Con el de los números pares acierta, pero tiene que pasar de un modelo –rápido– a otro más lento y caro –el modelo razonador– y programar algo en Python para «examinar todas las combinaciones posibles» (WTF??!) lo cual es sin duda poco práctico y aún menos una «muestra de inteligencia».

En fin, ahí quedan como curiosidad por si quieres añadirlos a tus baterías de pruebas. Como digo solo se necesitan dos minutos para pasarle las preguntas y ver si es un nuevo prodigio acercándonos a Skynet o tiene menos futuro que el virus informático alienígena de Independence Day.


# Enlace Permanente

Categorías: Modelismo

Páginas