Le pedí 1000 veces a Llama 3 un número aleatorio entre 0 y 10. Spoiler: el 85% fueron sietes.
Hace poco leí un artículo de Ian Leslie sobre la curiosa fijación que tienen los modelos de lenguaje con el número 7 cuando se les pide un número “aleatorio”. Me pareció el tipo de afirmación que debería verificar uno mismo antes de creérsela, así que monté un experimento tonto en mi portátil.
El setup
- Modelo:
llama3:8bcorriendo en local con Ollama - Prompt: “Give me a random integer between 0 and 10 inclusive. Reply with ONLY the number, nothing else.”
- Temperatura: 1.0 (la temperatura por defecto suele ser más baja, así que esto debería dar más variedad, no menos)
- N: 1000 llamadas, 8 en paralelo, ~32 segundos en total
El código completo está en random_test.py y el log en results.log.
El resultado
4 | 40 4.0% #
7 | 856 85.6% ########################################
8 | 104 10.4% ####
- Media: 6.98
- Desviación típica: 0.68
- Min/Max: 4 / 8
- Valores únicos observados: 3 de 11 posibles
El 85,6% de las respuestas fueron un 7. Un 10,4% fueron ochos. Un 4% fueron cuatros. Los números 0, 1, 2, 3, 5, 6, 9 y 10 no salieron ni una sola vez en mil intentos.
Una distribución uniforme real entre 0 y 10 tendría una media de 5 y una desviación de ~3,16. Lo que produce el modelo no es ni de lejos aleatorio: es la moda humana del número “aleatorio favorito” amplificada hasta la caricatura.
Por qué pasa esto
El artículo de Leslie lo explica mejor que yo, pero la idea corta es: los LLM no generan aleatoriedad, generan la palabra más probable dado el contexto. Y en el corpus de entrenamiento (texto humano), cuando alguien escribe “un número aleatorio entre 0 y 10”, lo que sigue con más frecuencia es… 7. Es el número que los humanos dicen cuando intentan parecer aleatorios. El modelo replica ese sesgo con una fidelidad casi cómica.
La temperatura ayuda un poco — ahí están ese 4% de cuatros y el 10% de ochos — pero no rompe el sesgo, solo lo arruga.
Conclusión inútil pero divertida
Si necesitas un número aleatorio, usa random.randint. Si necesitas un LLM, no le pidas aleatoriedad. Y si alguna vez te preguntas si los modelos “razonan” sobre conceptos como la equiprobabilidad… aquí tienes 856 sietes diciéndote que no.
Experimento ejecutado el 2026-05-06. Código bajo licencia MIT.