Para ser enteramente sinceros, la verdad es que la Estadística es una ciencia muy útil, necesaria y simpática, pero no muy divertida. En ciertas otras ramas de las Matemáticas se puede encontrar cierto misterio y hasta cierta poesía, de las cuales la Estadística en general carece. La Topología, por ejemplo, nos introduce en un mundo de puentes que se entrecruzan y laberintos que saltan hacia otras dimensiones; el Algebra conserva mucho del misterio de cabalistas judíos y pitagóricos greco-árabes en sus más recónditos vericuetos; hasta el humilde y pedestre Cálculo Infinitesimal, tan poco agraciado estéticamente, tiene en el jardín de las series convergentes el fragante encanto de los números trascendentes inesperados, la sorpresa de encontrarse con p o con la e neperiana en el fondo de una serie que iba de cualquier otra cosa (en apariencia).
Pero dentro de su bien llevada fealdad, de su tosquedad de ciencia fregona la Estadística encierra un elemento que debe reivindicarse como una verdadera joya. Se trata de una variable de las tantas que miden el modo en que una miríada de datos se dispersan alrededor de ciertas tendencias centrales, pero es una variable distinta, una verdadera maravilla. Se la llama coeficiente de Pearson y se la simboliza con la letra griega ro minúscula (?). La definición de la ro de Pearson tiene la fealdad de las fórmulas estadísticas, pero no nos adelantemos; se obtiene, dice la ley, de la siguiente ecuación:

donde Xo es el valor medio de una lista de valores denominados con la letra X; Yo es el valor medio de otra lista Y; X e Y son los valores correspondientes de ambas listas, es decir, los que ocupan el mismo lugar, y que naturalmente van variando según se avanza en ambas listas; los puntos entre expresiones representan multiplicación y la letra griega sigma mayúscula indica que los respectivos valores deben irse sumando de principio a fin de las listas. Todo esto está muy bien, se soluciona en diez minutos con calculadora y en un par de segundos con ordenador, pero… ¿para qué sirve?
Supongamos que X e Y miden valores correspondientes de dos magnitudes cuya relación se desconoce: se calcula ro y se sabe si existe correlación, cuán fuerte es y si es directa o inversa. No sé si se advierte la trascendencia de este indicador mágico: el valor de ro indica si dos tipos de acontecimientos tienen algo que ver entre sí, y en su caso si tienen relación directa, o si se trata de hechos totalmente independientes, sin relación entre sí. En algunos casos el cálculo de ro puede parecer obvio porque ya sabemos cuál es la relación entre dos cosas, pero la gracia es justamente que permite determinar mediante una herramienta matemática concreta la existencia o no de relación antes de que sepamos por otra vía si una cosa es función de la otra.
Si, por ejemplo, cogemos 456 trozos de cable, medimos su longitud y su resistencia eléctrica, y llamando X a la longitud e Y a la correspondiente resistencia calculamos ro, encontraremos que el valor del coeficiente será casi de 1, lo que indica correlación total y directa (-1 indica correlación total pero inversa, como podría darse entre resistencia eléctrica y superficie de la sección del cable, y el 0 denota falta de toda relación son posibles valores intermedios). Por supuesto, esa relación no es novedad para quien sepa las leyes elementales de la electricidad, pero la gracia está en que incluso cien años antes de que naciera Ohm, si alguien hubiera sabido Estadística, podría mediante el cálculo de ro establecer que la resistencia de un cable depende por completo de la longitud del mismo (aunque no sólo de eso). Calculando ro para diversas posibles variables -superficie de la sección, color de la cubierta aislante, tamaño de los zapatos del electricista, cualquier variable que uno pueda imaginar-, su valor nos iría diciendo que algunas cosas sí tienen que ver con la resistencia eléctrica, y otras no.
Todo esto puede parecer bastante superfluo, pero no lo es. Solemos pensar en términos de las ciencias exactas, donde las relaciones de las cosas son bastante claras, y con frecuencia se sospecha la ley que las relaciona entre sí antes de ir a buscar, experimentalmente, una confirmación a esa sospecha. Pero ésa no tiene por qué ser siempre la situación. En ciencias biológicas y sociales ciertas hipótesis de correlación son oscuras, inasibles, y el uso de la ro es vital para poder determinar si verdaderamente dos cosas tienen un vínculo. ¿Depende el grado de éxito en los estudios de EGB del salario sumado de padre y madre? ¿La supervivencia como expectativa de vida a los 40 años tiene relación inversa con a cantidad de cigarrillos fumados por día? ¿El número de horas de sueño permite establecer el número probable de camarones arrastrados por la corriente? No son estas correlaciones tan obvias como la longitud de un cable y su resistencia, e incluso la ro puede determinar vínculos matemáticos mucho antes de que se conozca la ley exacta, porque una de las virtudes de esta mágica piedra de toque es que descubre vínculos escondidos dentro de leyes complejas donde participan muchas variables (su valor será positivo y distinto de O, aunque cuando se utilicen cables de diferentes longitudes y diversas secciones, pese a la doble dependencia).
Estamos acostumbrados a que las relaciones entre cosas sean descubiertas por la intuición y la genialidad de los científicos, y que la ausencia de relación significativa sea también el golpe triunfal con que la Razón derrota a la Superstición. Que dos tablas de valores correspondientes y una sencilla fórmula matemática puedan decirnos lo mismo es algo que desafía nuestro orgullo.
Naturalmente no basta con que exista la correlación para que se pueda establecer de inmediato la correcta relación de causa-efecto: ‘En los pasillos del Registro Civil se ve mucha gente con corbata -decía el epistemólogo Mario Bunge- y de ello no se puede deducir que llevar corbata provoque el casamiento’. Pero desde luego un valor alto de ro indica que algo pasa establecerlo queda, por suerte, para los científicos.
No sé si el propio Pearson era consciente de que estaba fundamentando el edificio entero de la Ciencia. Después de todo lo esencial del pensamiento científico no está en la experimentación, como suele creerse, sino en el establecimiento de relaciones causales entre los fenómenos que se describen. La ro es la única medida objetiva de si algo es una afirmación digna de ser sometida al juicio de la Ciencia o si se trata de una pura tontería, una afirmación sin fundamento.
Karl Pearson nació en Londres en 1857 y murió en la misma ciudad 79 años más tarde, en 1936. Matemático, considerado uno de los padres de la Estadística moderna, también estudió Leyes, trabajó a favor de partidos políticos radicales de la época y escribió dos o tres novelas. Dentro de ese polifacético espectro de intereses, trató de poner un fundamento matemático a ciertos problemas biológicos relacionados con la herencia y la evolución, y en el University College de Londres -del cual fue profesor de Geometría muchos años- conoció a sir Francis Galton, el primero en aplicar la psicometría, es decir, la medición, mediante tests, de la inteligencia y otras variables psicológicas. Fue justamente en el ámbito de la psicometría que Pearson aplicó su coeficiente de correlación, es decir, en un terreno en el que las conjeturas y las suposiciones sin fundamento suelen plagar la investigación. Ahora, gracias a él, la Psicología es una ciencia un poco más exacta, más seria, más científica, aunque ro pueda seguir usándose en todos los ámbitos del conocimiento para distinguir verdades de supercherías.