Selecciona Edición
Entra en EL PAÍS
Conéctate ¿No estás registrado? Crea tu cuenta Suscríbete
Selecciona Edición
Tamaño letra
ESTADÍSTICA

Media(na)

Analizamos por qué la media no es siempre el mejor indicador para sacar conclusiones de unos datos

Es muy habitual ver en medios de comunicación de todo tipo y condición noticias que hablan de salario medio. En ellas, se suele dar la media como único dato a resaltar en relación con los salarios de los trabajadores. Por no irme fuera de aquí, voy a citar una noticia de este mismo medio de hace una semana: El sueldo medio bruto en España bajó un 0,8% en 2016, hasta los 1.878,1 euros.

En alguno de los comentarios de esa misma noticia hay lectores que apuntan que la media no es la medida más indicada para sacar conclusiones en estos asuntos. Hoy vamos a explicar por qué y cuál podría ser una medida mejor en el caso de que sólo queramos dar un único indicador.

Estamos tan acostumbrados a utilizar la media como dato significativo que no nos paramos a pensar en que, en muchas ocasiones, el resultado de la misma no es un buen dato para analizar lo que ocurre en realidad. Se toma la media como un valor que cumple que la mitad de los datos está por debajo y la otra mitad está por encima de ella, y eso no tiene por qué ser cierto.

Veamos un ejemplo. Supongamos que en un parque hay diez personas cuyas edades son las siguientes:

4, 6, 6, 7, 8, 10, 11, 12, 31, 55

Si calculamos la media de esas edades, obtendríamos lo siguiente:

Media = (4 + 6 + 6 + 7 + 8 + 10 + 11 + 12 + 31 + 55)/10 = 150/10 = 15 años

Tenemos que la media de edades es 15 años. Teniendo en cuenta que ocho de las diez personas están por debajo de esa edad media, ¿de verdad consideramos que ese dato es representativo de este conjunto de personas? Si nos dan como dato esa edad media de 15 años, ¿tendría sentido pensar que la mitad de esas diez personas está por debajo de 15 y la otra mitad está por encima? Está claro que no.

Pongamos ahora un ejemplo con sueldos, para que se vea mejor la cosa. Imaginad una empresa donde trabajan nueve personas. Tenemos al dueño de la empresa, que tiene asignado un sueldo de 6000€; después tenemos dos jefes de sección, cada uno de ellos con un sueldo de 1500€; dos encargados, cada uno de ellos con un sueldo de 1250€; y cuatro trabajadores de menor rango, que cobran 950€ cada uno. La media de estos sueldos es 1700€, pero en realidad solamente uno de los integrantes de la plantilla de esta empresa está por encima de 1700€. ¿De verdad alguien piensa que este dato puede ser representativo de los sueldos de la empresa?

El problema de la media es que es muy sensible a valores extremos. Es decir, si tenemos algún valor (o valores) que se aleje mucho del resto (ya sea porque sean mucho más grandes que los demás o muchos más pequeños) el resultado de la media será un valor que no representará fielmente la realidad que estamos intentando analizar.

Habitualmente, lo que uno quiere obtener de datos relacionados con, por ejemplo, salarios, es un valor intermedio entre todos esos salarios, un valor que, como comentábamos antes, nos sirva de verdad para saber que la mitad de los salarios está por debajo de él y la otra mitad está por encima. En estadística existe una medida que calcula exactamente eso: la mediana.

La mediana es, precisamente, el parámetro estadístico que nos dice el valor que divide los datos en dos partes iguales si los ordenamos de menor a mayor. Es decir, la mediana nos da un valor que cumple que la mitad de los datos está por debajo de él y la otra mitad está por encima, que es lo que queremos.

Para un conjunto de datos como los que aparecen en los ejemplos anteriores, la mediana es muy fácil de calcular (si tenemos los datos agrupados en intervalos, la cosa se complica un pelín, pero tampoco demasiado). Lo primero que hay que hacer es ordenar los datos de menor a mayor, y después nos fijamos en si tenemos un número par o un número impar de datos. Si el número de datos es impar, la mediana es el dato que haya quedado justo en el centro; y si el número de datos es par, para calcular la mediana tomamos los dos datos centrales, los sumamos y dividimos el resultado entre 2.

Vamos a calcular la mediana en el ejemplo de los sueldos. Tenemos nueve datos, y ordenados de menor a mayor quedan así:

950, 950, 950, 950, 1250, 1250, 1500, 1500, 6000

Como el número de datos es impar, la mediana es el dato central: 1250.

Si vas a usan un solo indicador para sacar conclusiones a partir de un conjunto de datos tipo los salarios, utiliza la mediana.

La media era 1700, por lo que podríamos pensar que la mitad de los trabajadores cobran una cantidad mayor o igual que ésta, lo que hemos visto que no es cierto. En realidad, lo que sabemos es que la mitad de los trabajadores cobran 1250€ o más, cantidad sensiblemente menor que la media. ¿A que la mediana es más representativa de la situación real que la media?

Seguro que muchos de vosotros pensaréis que lo ideal sería usar las dos medidas, e incluso alguna más, como por ejemplo alguna que nos indique la variabilidad de los datos (cómo de cercanos o lejanos están dichos datos respecto de la media). Podríamos usar la desviación típica, que mide justo eso. Y también podríamos hacer un estudio estadístico más profundo con los datos que tenemos a nuestra disposición.

Se entiende que los organismos encargados de realizar estos estudios sí realizan un análisis estadístico con mayor profundidad, pero en medios de comunicación quizás no es demasiado conveniente dar una noticia de este tipo con una gran cantidad de valores y medidas, ya que el lector puede perderse entre tanto número y, en consecuencia, no llegar a asimilar lo que significan esos datos.

Por ello, comprendo que en noticias así se tienda a dar un único indicador. Pero, si es así, recuerda: si vas a usar una sola medida, utiliza la mediana.