Por qué muchos datos empiezan por 1
La ley de Benford señala que, en gran variedad de contextos, aproximadamente un tercio de los datos numéricos tienen por primera cifra el 1
De los 179 municipios de la Comunidad de Madrid, más o menos un tercio (54, exactamente) tienen la propiedad de que su número de habitantes empieza por 1. Este es un ejemplo de la llamada ley de Benford, que señala que, en muchos conjuntos de datos numéricos de la vida real, alrededor del 30% de los datos tienen un 1 como primera cifra.
La ley se remonta a 1880, cuando el astrónomo estadounidense Simon Newcomb se dio cuenta de un fenómeno curioso al manipular un libro de tablas de logaritmos: las primeras páginas, es decir, aquellas que correspondían a números cuya primera cifra es 1, estaban mucho más desgastadas que las demás. La observación de Newcomb cayó relativamente en el olvido hasta que Frank Benford, un ingeniero y físico estadounidense, la redescubrió en 1938, probándola en 20 conjuntos de datos de origen variopinto, como el número de habitantes de 3259 municipios de Estados Unidos, la masa molecular de 1800 sustancias o los números que aparecían en 308 fascículos de Reader’s Digest. Entonces, la “ley del primer dígito” de Newcomb pasó a ser conocida como la “ley de Benford”.
Sin embargo, no todos los conjuntos de datos siguen la ley de Benford. Por ejemplo, los números de calzado claramente no la cumplen, ni tampoco se aplica a datos que proceden de procesos asociados al azar, como los números premiados en la Lotería de Navidad. Así que no te preocupes si el décimo que compraste no empieza por 1: la probabilidad de que salga tu número sigue siendo ínfima, pero independiente de la primera cifra.
Aunque no nos facilite ganar la lotería, la ley de Benford aparece en contextos muy diversos: números de calle, precios de acciones, longitud de los ríos, superficies de países, etc. Pensándolo un poco, es fácil darse cuenta de que esos datos tienden a empezar con más frecuencia por uno: por ejemplo, al considerar los números de portal de todas las calles de España, muchísimas calles son “pequeñas” –tienen entre 10 y 20 números–, y es relativamente raro que una calle “larga” – de más de 100 números– tenga más de 200 números.
La ley de Benford aparece en contextos muy diversos: números de calle, precios de acciones, longitud de los ríos, superficies de países...
Como regla general, se cumple la ley de Benford con datos que representan magnitudes sin límites prefijados (longitudes, poblaciones, etc.); además, la aproximación a la ley es mayor cuanto más sean los órdenes de magnitud que cubran los datos. En este sentido, la ley de Benford es pariente de la distribución normal, o campana de Gauss, que aparece de manera natural en todo tipo de fenómenos estadísticos.
De forma precisa, la ley de Benford se formula en términos de logaritmos (en base 10): decimos que un conjunto de números satisface la ley de Benford si la probabilidad de que un miembro del conjunto empiece por la cifra c es logaritmo de (c+1) – logaritmo de c. El logaritmo de un número positivo N –que denotamos log (N)– es el exponente al que hay que elevar 10 para que el resultado sea N. Así, el logaritmo de 1000 es 3 (10^3= 1000), el de 10 es 1 (10^1= 10) y el de 1 es 0 (10^0= 1). Cada número real positivo tiene un logaritmo, que es a menudo un número irracional, por ejemplo, log(2) = 0,3011...
Además, los logaritmos tienen la importante propiedad de que “transforman los productos en sumas”: log(a*b) = log(a) + log(b). Por tanto, si multiplicamos un número por una potencia de 10, la parte decimal de su logaritmo no cambia. Por ejemplo: log(2,37) = 0,3747… y log(237) = log(100*2,37) = log(100) + log(2,37) = 2 + 0,3747... Así, todos los números de la forma log(2,37*10^n), para todo entero n, tienen como parte decimal log(2,37).
Adicionalmente, como la función logaritmo es creciente –es decir, si un número es menor que otro, el logaritmo del primero es menor que el del segundo–, entonces podemos asegurar que un número empieza por la cifra c exactamente cuando la parte decimal de su logaritmo está entre log(c) y log(c+1). Por tanto, la probabilidad de que un número empiece por c es la misma que la de que la parte decimal de su logaritmo esté entre log(c) y log(c+1), es decir, que esté en el intervalo (log(c), log(c+1)), cuya longitud es log(c+1) - log(c).
Así que, en un conjunto que cumpla la ley de Benford, la probabilidad de que un elemento empiece por 1 es log(2) – log(1) = 0,3011... De la misma manera,la probabilidad de un número que empiece por 8 es muy pequeña, en concreto log(9) - log(8) = 0,0511... Es decir, el 30% de los números empezarán por 1, pero solo un 5% empezarán por 8.
Aparte de ser un fenómeno curioso y muy común, la ley de Benford tiene también aplicaciones a la vida real. Por ejemplo, si sabemos que las toneladas de CO2 expulsadas a la atmósfera por las empresas de España se ajustan a la ley de Benford, y que el 15% de los datos de emisiones proporcionados por la empresa Toxic&Co empiezan por 8, entonces tendríamos razones para sospechar que esta empresa está proporcionando datos falsos. Por supuesto, no sería una prueba definitiva, pero sí una indicación de que merece la pena investigar el caso.
Javier Aramayona es científico titular del Consejo Superior de Investigaciones Científicas en el Instituto de Ciencias Matemáticas (ICMAT)
Ágata A. Timón G. Longoria es responsable de Comunicación y Divulgación del ICMAT
Café y Teoremas es una sección dedicada a las matemáticas y al entorno en el que se crean, coordinado por el Instituto de Ciencias Matemáticas (ICMAT), en la que los investigadores y miembros del centro describen los últimos avances de esta disciplina, comparten puntos de encuentro entre las matemáticas y otras expresiones sociales y culturales y recuerdan a quienes marcaron su desarrollo y supieron transformar café en teoremas. El nombre evoca la definición del matemático húngaro Alfred Rényi: “Un matemático es una máquina que transforma café en teoremas”.
Edición y coordinación: Ágata A. Timón García-Longoria (ICMAT)
Puedes seguir a MATERIA en Facebook, Twitter, Instagram o suscribirte aquí a nuestra newsletter