La ley de Zipf

La ley de Zipf

La ley de Zipf, formulada por George Kingsley Zipf en 1935, describe un patrón empírico en la distribución de frecuencias de elementos ordenados por rango, expresado matemáticamente como \( f(n) \propto \frac{1}{n^k} \), donde \( f(n) \) es la frecuencia del n-ésimo elemento, \( n \) su rango y \( k \) un exponente, típicamente cercano a 1. Cuando \( k \)=1, la frecuencia del elemento más común, \( f(1) \), se divide aproximadamente por \( n \) para los siguientes rangos, generando una relación inversa precisa. Este comportamiento emerge en sistemas tan diversos como textos lingüísticos y poblaciones urbanas, revelando una desigualdad estructural en los datos.
En lingüística, la ley se verifica analizando corpus extensos. Tomemos Moby Dick de Herman Melville: la palabra «the» (rango 1) aparece 14,098 veces, «of» (rango 2) 6,408 veces y «and» (rango 3) 5,996 veces. Si calculamos, \( f(1) = 14,098 \), entonces \( f(2) \approx \frac{14,098}{2} = 7,049 \) y \( f(3) \approx \frac{14,098}{3} = 4,699 \). Los valores reales (6,408 y 5,996) se desvían ligeramente, pero la tendencia \( f(n) \approx \frac{f(1)}{n} \) es clara, con un ajuste que mejora en corpus más grandes. Este patrón no depende del idioma: en español, «de» o «la» dominan similarmente en textos extensos.
Fuera del lenguaje, la demografía ofrece otro caso. En Estados Unidos, Nueva York (rango 1) tiene 8,3 millones de habitantes, Los Ángeles (rango 2) 3,9 millones y Chicago (rango 3) 2,7 millones. Teóricamente, \( f(2) \approx \frac{8,3}{2} = 4,15 \) y \( f(3) \approx \frac{8,3}{3} = 2,77 \), valores próximos a los reales (3,9 y 2,7), mostrando una adherencia notable a la ley. Estas proporciones sugieren un mecanismo subyacente universal.
Zipf explicó esto con el «principio del mínimo esfuerzo»: los sistemas optimizan recursos, concentrando frecuencia en pocos elementos. Modelos alternativos, como el crecimiento preferencial, lo refuerzan: en una red donde los nodos más conectados ganan más conexiones, la distribución de frecuencias sigue una potencia similar. Matemáticamente, esto conecta la ley de Zipf con distribuciones de escala libre, aunque se distingue de la ley de Pareto, que opera sobre magnitudes, no rangos.
En la práctica, las colas de la distribución (rangos altos) a menudo se desvían, lo que llevó a la variante Zipf-Mandelbrot, \( f(n) \propto \frac{1}{(n+b)^k} \), con \( b \) ajustando las frecuencias bajas. Por ejemplo, en Moby Dick, palabras raras ajustan mejor con \( b > 0 \). Así, la ley de Zipf, con su simplicidad \( \frac{1}{n} \), captura una regla técnica y detallada de organización en sistemas complejos, desde textos hasta ciudades, con precisión empírica verificable.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *