El rigor estadístico suspende en pandemia
Hace un par de semanas, comentábamos en este espacio el libro "Bullshit, contra la charlatanería" (Capitán Swing), en el que se aborda la desinformación y cómo en ocasiones ésta se debe a un deficiente trabajo estadístico, sin que la malaintención tenga participación en ello. Pues bien, hoy traemos un caso práctico de ello: investigadores de la Fundación ISI (Italia), dedicada a la investigación en el campo de la Ciencia de los Datos, han publicado un estudio en Cambridge University Press advirtiendo del incorrecto uso estadístico que se ha realizado de los datos asociados a la pandemia.
El estudio se centra en dos países, España e Italia, con similares resultados en ambos casos, evidenciando las inconsistencias en el reporte de datos asociados a la pandemia. En nuestro país pudimos comprobar durante todo 2020 cómo las cifras bailaban de unas semanas a otras, algunas Comunidades Autónomas actualizaban de golpe decenas de miles de contagios o muertes o, como aún sucede hoy en día, no se informaba los fines de semana. Desde la óptica estadística, se ha suspendido; suspenso que aún se evidencia más si se profundiza en la materia, como ha realizado este grupo de expertos.
Estas inconsistencias, en las que rara vez se pone el acento, forman parte de la base de las estrategias sanitarias, de la evaluación de las mismas y de cualquier toma de decisión para contener la pandemia. Precisamente por ello, lo autores del estudio, que sugieren que los problemas detectados en España e Italia (especialmente durante la primera ola) son extrapolables a otros países, reclaman mejores procedimientos de recopilación de datos y presentación de informes más uniformes y coherentes.
Los cuatro grandes criterios que se manejaban en lo peor de la pandemia eran:
♦ Número de casos por fecha de infección. Determina el momento exacto en el que una persona contrae la enfermedad.
♦ Número de casos por fecha de inicio de síntomas. Registra el momento en que la enfermedad da la cara, estando sujeto a la discrecionalidad del sujeto. En el caso de las personas asintomáticas, este criterio se pierde.
♦ Número de casos por fecha de diagnóstico. Precisa el momento en el que se diagnostica la infección y aquí es importante que no es lo mismo que se realice tras la aparición de síntomas que como resultado de un rastreo que coja la fase de incubación, pudiendo mitigarse la capacidad de contagio.
♦ Número de casos por fecha de notificación. Engloba el número de casos diagnosticados de los que informan las autoridades sanitarias.
El estudio indica que, especialmente durante la primera ola, se produjo un retraso entre el inicio de los síntomas y el diagnóstico, sobre todo debido a la presión hospitalaria y el retraso en las pruebas. Al analizar el impacto de la implantación de las restricciones por países, los datos terminan por ser imprecisos; en el caso de España, debido a la transferencia de competencias por Comunidades Autónomas, que aplicaron diferentes plazos para la imposición de dichas restricciones.
La investigación incide en que el impacto de usar datos poco precisos no sólo impacta en la efectividad de las restricciones sanitarias, sino también en los procesos de toma de decisiones. Se producen inconsistencias, sobre todo cuando se toma la serie de datos referidos a la primera ola, porque no son un fiel reflejo de la realidad al producirse esa demora entre la aparición de síntomas y el diagnóstico, algo en lo que se ha mejorado a medida que la pandemia ha avanzado.
Durante el confinamiento, hubo un periodo en España en el que se detuvieron por completo todas las actividades no esenciales, desde el 30 de marzo hasta el 9 de abril. Esta medida excepcional no se ha incluido en el conjunto de datos estadísticos que maneja el Centro Europeo para la Prevención y el Control de Enfermedades (ECDC), por lo que la medición de los efectos de las restricciones no es real. No sólo eso, sino que incluso esa medida, que indudablemente tuvo un importante efecto sobre el PIB, pudo ser innecesaria.
Los datos que maneja esta investigación muestran cómo aquella medida tuvo un impacto mínimo sobre la movilidad, dado que ya estábamos confinados y, además, su efecto en la propagación de los contagios fue insignificante. De hecho, los investigadores indican que de no haberse producido esta imprecisión en los datos durante la primera ola, se habría determinado que ese parón total de la actividad era innecesario para el control de la pandemia. Conclusiones como ésta se han podido realizar a posteriori, porque a pesar de que durante la primera ola se recopilaban datos como la aparición de síntomas, éstos no fueron expuestos públicamente hasta tiempo después, evidenciando que no fueron bien interpretados.
En todo caso y aun teniendo en cuenta estos sesgos, la investigación indica que la evaluación del impacto de las restricciones es compleja, sobre todo cuando se comparan países. Uno de los motivos de ello es que la capacidad diagnóstica no es homogénea entre países, lo que afecta la precisión de los datos de vigilancia de casos. Lo mismo sucede con las notificaciones de fallecimientos por Covid.
Para tratar de resolver esta problemática, los autores proponen promover más la información abierta, es decir, que los datos de resultados de COVID-19 estén disponibles públicamente en un formato legible por sistemas informáticos, preferiblemente utilizando repositorios de versiones de código abierto que permitan realizar un seguimiento de las actualizaciones. En este sentido, ser exhaustivos, segmentando datos por edad, sexo, raza y etnia, también es fundamental, aseguran.
Más allá de esta exposición de datos, la investigación insta a redoblar esfuerzos para que se minimicen las demoras entre el momento en que se produce el diagnóstico de un positivo, la hospitalización o el fallecimiento y cuándo se reporta de ello. No sólo eso, sino que se ha de ser mucho más riguroso en las fechas, precisando si el reporte de un positivo se refiere a cuándo se realizó la prueba o cuándo se obtuvo el resultado.
En esta misma línea, en países como España surge la complejidad de que debido a las competencias transferidas entran en juego demasiados actores que, incluso por motivos políticos, pueden llegar a interferir en la recolección y difusión de los datos, lo que perjudica gravemente al global estadístico.
Por último y más aún encontrándonos en plena era big data, una de las principales demandas que se desprenden de este estudio es la imperiosa necesidad de dar al rigor estadístico la importancia que merece pues sin ello, ningún sistema sofisticado de Inteligencia Artificial o supercomputación hará un buen trabajo... y de ello dependen las decisiones que tomen las autoridades sanitarias.
Sin comentarios