Algunos problemas con los datos de la pandemia de la covid
El desconocimiento sobre qué problemática presentan los datos en cada momento es el principal obstáculo que encuentran los estadísticos en el estudio de la epidemia creada por el coronavirus
Para comprender y modelar fenómenos complejos, como la pandemia de la covid-19, es crucial disponer de datos suficientes y de calidad. Las frases “mide lo que sea medible y haz medible lo que no lo sea”, frecuentemente atribuida a Galileo Galilei, o “solo sabemos de verdad de qué hablamos cuando somos capaces de medirlo”, de Lord Kelvin, plasman este principio de la ciencia moderna y cobran mayor sentido, si cabe, tras lo vivido durante estos meses. Sin embargo, a lo largo de esta crisis hemos asistido a numerosos episodios de ausencia de datos, cambios en su definición –a lo largo del tiempo o según su procedencia–, o falta de completitud de los mismos. Saber qué tipo de problema se está produciendo en cada momento es imprescindible para corregir, en el análisis estadístico, los sesgos provocados y obtener buenas predicciones.
En los meses iniciales de la pandemia no se facilitó uno de los elementos clave para poder modelizar la evolución de una pandemia: información fiable sobre la movilidad de la población. Esta se obtiene, desde hace algunos meses, gracias al acuerdo entre el Instituto Nacional de Estadística (INE) y las principales compañías de telefonía móvil en España; en concreto, se producen datos agregados sobre los flujos diarios de teléfonos móviles que “pernoctan” en una celda y pasan la mayor parte del día en otra de las aproximadamente 3.200 celdas en las que se ha dividido España a estos efectos. Como consecuencia del estado de alarma, esta valiosa información no estuvo disponible hasta comienzos de junio.
Sí que se han suministrado, durante los tres primeros meses de la crisis, las principales series diarias de evolución de la pandemia –número de casos confirmados, hospitalizados, en UCI, fallecidos–, tanto en toda España como por comunidades autónomas. Sin embargo, la calidad de los datos, la ausencia de los mismos en determinados períodos y la frecuente falta de armonización –es decir la aplicación de criterios de definición diferentes según la procedencia del dato– han provocado graves problemas a la hora de analizarlos. Por ejemplo, algunas comunidades autónomas reportaron el número total de pacientes de covid-19 que tuvieron que ser hospitalizados desde que comenzó la epidemia hasta el día en cuestión, mientras que otras informaron del número de pacientes que estaban hospitalizados en ese día. Estas series no solo son distintas sino, lo que es más grave, una no puede calcularse a partir de la otra.
Muchos de estos defectos serían resolubles si existiese coherencia entre las definiciones de las series para las diferentes comunidades autónomas, a lo largo del tiempo; otros, como el hecho de que no estén completos o la presencia de ciertos sesgos, son inherentes a la naturaleza de los datos. Un primer caso son los llamados datos censurados. Son importantes para modelar, por ejemplo, el tiempo de atención hospitalaria requerida por la población. Si se dispone de datos de pacientes individuales –convenientemente anonimizados–, es posible determinar el tiempo desde que el paciente es diagnosticado hasta que necesita ser hospitalizado (si es el caso); el tiempo que ha de permanecer en el hospital y, más importante aún, el tiempo durante el cual estará ingresado en UCI. En plena eclosión de la pandemia, para algunos pacientes esta información era solo parcialmente conocida, puesto que la atención médica no había concluido, y se denomina dato censurado. En contraposición, un dato no censurado sería el de un paciente que, a la fecha de extracción de la información, ya ha terminado su estancia en UCI. Naturalmente, los datos no censurados dan una información completa de la magnitud objeto de estudio, pero los datos censurados también dan información muy relevante, si se tratan de manera adecuada.
Muchos de estos defectos serían resolubles si existiese coherencia entre las definiciones de las series para las diferentes comunidades autónomas, a lo largo del tiempo
Otro sesgo se produce al analizar el número diario de fallecidos por covid-19. En ocasiones, transcurren varios días desde que se produce un fallecimiento hasta que este se notifica. Para estimar esta demora, y así aproximar el número de fallecidos en un día concreto a partir de los fallecimientos ocurridos en ese día que ya han sido notificados, se ha de recoger la información relevante: día y hora del fallecimiento y de la comunicación del mismo. Sin embargo, las defunciones con largo retraso de notificación son más difíciles de observar, simplemente, porque no ha pasado el tiempo suficiente como para que esa información se haya suministrado, mientras que los datos con bajo retraso de notificación están más presentes de lo debido. Esto produce un sesgo, llamado truncamiento.
Para la adecuada estimación con datos truncados o censurados, y con otros muchos sesgos, debemos saber qué tipo de problemática se está produciendo, y conocer alguna información adicional para corregirla (como, el retraso de notificación, el hecho de si un dato temporal en UCI es censurado o no, en los casos anteriores). La idea para abordar una correcta estimación es tratar de expresar las características de la variable (inobservable) de interés en términos de otras cantidades que dependan de alguna variable observable, que entonces sí se podrán estimar empíricamente. Es decir, afrontar la lucha contra el sesgo con más datos y, como proponía Galileo, hacer medible lo que no lo sea.
Ricardo Cao Abad es catedrático de Estadística e Investigación Operativa de la Universidade da Coruña y presidente del grupo de expertos de la “Acción Matemática contra el Coronavirus” del Comité Español de Matemáticas (CEMat), que el 27 y 28 de agosto promovió la escuela de verano “Matemáticas vs COVID-19” junto con la Universidad Internacional Menéndez Pelayo.
Ágata A. Timón G Longoria es la coordinadora de comunicación y divulgación del ICMAT
Café y Teoremas es una sección dedicada a las matemáticas y al entorno en el que se crean, coordinado por el Instituto de Ciencias Matemáticas (ICMAT), en la que los investigadores y miembros del centro describen los últimos avances de esta disciplina, comparten puntos de encuentro entre las matemáticas y otras expresiones sociales y culturales y recuerdan a quienes marcaron su desarrollo y supieron transformar café en teoremas. El nombre evoca la definición del matemático húngaro Alfred Rényi: “Un matemático es una máquina que transforma café en teoremas”.
Edición y coordinación: Ágata A. Timón García-Longoria (ICMAT)
Puedes seguir a MATERIA en Facebook, Twitter, Instagram o suscribirte aquí a nuestra newsletter