Siete lecciones para lidiar con los datos de una pandemia

Ricardo Baeza-Yates y Karma Peiró

Al inicio del 2020, prácticamente nadie había oído hablar del coronavirus, ni de cómo la enfermedad podría girar el mundo en cuestión de semanas. Cinco meses más tarde, la economía mundial se ha desplomado, el teletrabajo se ha impuesto como solución a una subsistencia profesional e interpretamos datos a diario de nuevos infectados, muertos y recuperados.

Sars Cov-2

Los datos están siendo el termómetro para entender la gravedad de la enfermedad, acatar con más exigencia el confinamiento y valorar las estrategias de los políticos que nos gobiernan.

No obstante, si algo ha demostrado esta crisis es cuán complejo resulta aplicar los mismos criterios a los datos oficiales. Por ejemplo, cuando nos informan sobre una muerte por coronavirus, ¿se refieren a la persona que ha fallecido por la Covid-19 o al enfermo terminal que ha muerto en período de pandemia?; los casos confirmados, ¿son todos los que existen? y los ‘recuperados’, ¿lo están realmente?

La pandemia ha desbordado a los gobiernos de todo el mundo. La Organización Mundial de la Salud (OMS) es la primera que no ha sabido dar respuestas claras. La institución está muy preparada para afrontar un brote de ébola en una zona de África, pero no para atender las demandas de todo el planeta a la vez. El caos de datos ofrecidos por los gobiernos alimenta la incertidumbre y las actuaciones públicas no siempre son las más acertadas.

En este ensayo, proponemos siete lecciones que la crisis del coronavirus nos ha dejado hasta ahora. Las cuatro primeras son inherentes a la pandemia y las tres finales son válidas para los datos de cualquier crisis global.

“cada día se suman manzanas con naranjas”

LECCIÓN 1: Errores en la obtención de los datos

Sin datos no se puede entender cómo está progresando la pandemia, pero sin saber cómo se han obtenido tampoco. Según Our World in Data –científicos de diferentes grupos de investigación– “algunos países informan de las pruebas y otros de las personas evaluadas que pueden haberse hecho el test varias veces”. Y si tampoco se sabe cuándo se hicieron realmente el test, cada día se suman manzanas con naranjas.

Organización Mundial de la Salud (OMS)

Sobre los test hay que mencionar también que no todos tienen la misma calidad. Los países que no hacen el test PCR –recomendado por la OMS, capaz de detectar el virus con un 95% de acierto–, y usan sólo test baratos y rápidos, quedan mal parados. Éste es el caso de Venezuela que muestra distintos reportes generando confusión en la ciudadanía.

Por otro lado, los laboratorios privados de algunos países no reportan a una autoridad central. Por lo tanto, sus datos tampoco son recogidos y eventualmente validados usando para ello la contra muestra. Muchas veces se desconoce con qué criterios se toman los test: si las personas tienen que tener síntomas o no, si son reactivos y la gente va a los hospitales o son proactivos y se toma muestras aleatorias en lugares de alta densidad, etc.

A todo esto, hay que agregar los errores de la transferencia y procesamiento de los datos, desde su origen al destino donde servirán para decidir las políticas sanitarias. Por ejemplo, al transcribir un certificado de defunción hecho en papel por un médico (con la letra que ya les conocemos) a un soporte digital.

“La tasa de letalidad de casos al final depende de los test que se hacen, no debería usarse.”

LECCIÓN 2: La imprecisión de los datos

El virus se aprovecha de la cercanía física entre las personas para expandirse y sobrevivir. Por esta razón, la pandemia es un proceso muy dinámico que depende de muchos factores y basta con que cada enfermo infecte a más de una persona para que el contagio crezca de forma exponencial. Y como además todo pasa muy rápido, hay imprecisión porque también hay desconocimiento.

Los casos informados que conocemos están lejos de ser los reales. Una gran proporción de los enfermos son asintomáticos, estimados en un 40%, algunos de los cuales no saben que están enfermos y siguen contagiando. También dependen de la cantidad de test realizados: así es que en la mayoría de los países hay cerca del doble o más enfermos de los confirmados. En Chile, se estima que el factor es entre 3 y 4 veces, mientras que en Cataluña se lo estima en 10 veces.

Algo similar ocurre con los casos recuperados. Es muy difícil hacer seguimiento a cada paciente, sobre todo a los que nunca se han hecho un test. Sólo los hospitalizados son controlados. Por eso hay países que tienen muy pocos recuperados, como los del Reino Unido. Y otros como Chile que usan fórmulas que los sobrestiman, generando problemas éticos. Si no sabemos con exactitud la cantidad de los casos recuperados, tampoco sabemos cuántos casos activos hay.

Incluso los fallecimientos están subreportados, siendo esto tan grave que merece una lección aparte. Cuando llega el momento de calcular la tasa de letalidad de casos (CFR en inglés), la mayoría la calcula mal pues hay que contar los enfermos que habían cuando los fallecidos se enfermaron y no los de hoy, usando el número promedio de días que pasa entre el informe del test y el fallecimiento, por lo que siempre queda más baja de lo que realmente es. Por otro lado, la tasa de letalidad de la infección (IFR en inglés) al final será menor, pues como ya dijimos no sabemos el número real total de enfermos. Por esto y porque la tasa de letalidad de casos al final depende de los test que se hacen, no debería usarse.

Debido a todas estas aproximaciones, cualquier análisis es impreciso y cualquier conclusión tiene que ser considerada con mucho cuidado. Es como ir en un coche con el parabrisas con barro: puede ser peligroso conducir en esas condiciones. Y en este caso, no conducir no es una opción válida.

“Una solución sería tener estándares mundiales de cómo decidir la causa de la muerte”

LECCIÓN 3: Caos para contabilizar los muertos

Algo que parece difícil de creer es que el número de fallecidos no sea exacto. Porque… ¿cuál es el motivo de fallecimiento de una persona que tenía una enfermedad previa y muere de Covid-19? La respuesta es distinta en cada país: en muchos ya existe otra enfermedad. En Estados Unidos hay un incentivo económico para decir que fue por Covid-19, ya que en ese caso el hospital recibe más dinero de Medicare, el programa federal de salud.

¿Y qué pasa si murió por Covid-19 y no lo sabemos? En algunos países se hace un test, pero en la mayoría no. En otros, como Bélgica, basta con la sospecha para contabilizarlo como parte de la pandemia. Esta honestidad, hace que sea uno de los países con más muertos per cápita.

Otro motivo de confusión son las fuentes utilizadas. En la mayoría de los países se contabilizan las muertes en los hospitales y los centros de salud, pero no en las residencias de ancianos, ni se recogen los datos de las funerarias que tienen información de fallecimientos en las casas sin una causa confirmada. Más aún, en el caso de España, las funerarias no están obligadas a informar sus datos; muchas residencias son de gestión privada y tampoco tienen porqué reportar sus defunciones.

Cuando un país ha considerado estas fuentes han habido cambios brutales en los datos: aumentando en más de 4 mil los muertos en el Reino Unido o en más de 3 mil en Cataluña. Esto produce discontinuidades en las estadísticas que generan un problema adicional a la imprecisión que ya teníamos.

Para estimar el número real de fallecidos, los países están usando las diferencias de un año a otro en sus registros civiles, ajustando el aumento poblacional para ver si ha habido cambios adicionales a los fallecidos informados y verificar si estos son estadísticamente significativos. Por ejemplo, en España se estima que hay un 80% más de fallecidos.

Y si esta estadística –vital para calcular tasas de mortalidad y letalidad– no es igual en cada país, implica un caos adicional para la OMS. Una solución sería tener estándares mundiales de cómo decidir la causa de la muerte y qué fuentes usar para contabilizarlas.

Cada día estamos viendo los efectos del virus en el pasado y nuestros posibles futuros

LECCIÓN 4: Las paradojas temporales

Las lecciones anteriores enseñan que la pandemia es un proceso muy dinámico que depende de muchos factores, empezando por la educación cívica: basta con que cada enfermo infecte a más de una persona para que el contagio crezca de forma exponencial. Todo esto hace muy complejo modelar cómo progresa la epidemia en el tiempo.

Peor aún, cada día estamos viendo los efectos del virus en el pasado. Los fallecidos son personas que supimos que estaban enfermas 10 o más días atrás y los casos informados son de los test que se hicieron varias horas e incluso días antes. El retardo depende del sistema de salud (público o privado), la disponibilidad del test y de la ubicación geográfica (a veces, la muestra tiene que llevarse al lugar donde hay un laboratorio que la procese).

Cada gobierno contempla también posibles futuros. La experiencia de un país en un estado más avanzado de la pandemia es útil para lidiar con nuestros datos ya obsoletos. Mientras más tarde ha llegado el virus, mejor es la bola de cristal. Así lo entendió muy bien Jacinta Ardern, primera ministra de Nueva Zelanda, que ni siquiera esperó a tener parte de los datos y decretó el cierre total de las fronteras antes de la primera muerte. Por ello, es uno de los pocos países que puede decir que tiene el virus casi erradicado.

“la transparencia de los datos es un reflejo del nivel de desarrollo de la democracia de cada gobierno y también de la confianza que le tienen sus ciudadanos”

LECCIÓN 5: La importancia de la transparencia

Durante las crisis que nos afectan a todos, en particular las de salud, la transparencia de los datos es un reflejo del nivel de desarrollo de la democracia de cada gobierno y también de la confianza que le tienen sus ciudadanos. Ocultar datos sólo genera desconfianza y problemas políticos que nadie quiere tener durante una crisis. En Guatemala, el gobierno casi no entrega datos mientras tanto Brasil intentó ocultar sus datos.

En Chile hay bastantes datos agregados, pero pocos microdatos (es decir, información anonimizada a nivel de paciente) lo que ha generado una discusión pública prolongada. En España, la organización ciudadana Civio ha analizado qué comunidades autónomas son más transparentes en dar datos sobre los tests realizados.

En la mayoría de los países con democracias más desarrolladas, los microdatos –debidamente anonimizados– (como lo muestra la siguiente lección), se comparten. Un ejemplo es Nueva Zelanda, que entrega información de sus casi 1.500 enfermos, incluyendo casos potenciales.

Por otro lado, la fundación chilena Ciudadanía Inteligente hizo un análisis en Latinoamérica y concluyó que sólo 4 países entregaban microdatos: Colombia, Cuba, Ecuador y México. Nicaragua, no entregaba ningún tipo de dato, ni siquiera agregado.

¿es la privacidad de los datos el precio que debemos pagar para sobrevivir a una pandemia?

LECCIÓN 6: La privacidad en tiempos de pandemia

Otra cuestión fundamental es la privacidad de los datos, empezando por los microdatos. Para utilizarlos hay que eliminar cualquier característica que identifique a una persona, asegurando que ningún individuo quede en un grupo de menos de 50 personas indistinguibles (en inglés, esto se conoce como k-anonymity). Ello implica usar rangos de edad, distritos geográficos, etc. Si en una región geográfica hay menos de 50 casos, debemos unirla a otra. Por supuesto que 50 casos es un parámetro de la solución, podrían ser 100 si queremos incluso más privacidad.

La privacidad se ha cuestionado mucho a partir las apps del móvil presentadas por diferentes gobiernos, para tener localizados a los posibles contagios que se produzcan durante el desconfinamiento. El pasado 17 de abril, el Parlamento Europeo aprobó una resolución donde hace una llamada a los operadores de telecomunicación para que entreguen los datos anonimizados y agregados de sus usuarios, para “monitorear movimientos, contactos y datos de salud”.

Unos días más tarde, científicos, informáticos y matemáticos de todo el mundo firmaron una carta conjunta para alertar del peligro del uso de aplicaciones móviles que no respeten la privacidad. Por ello, apoyan la propuesta de Google y Apple que asegura la protección de los usuarios de una manera descentralizada y que ya han adoptado países como Alemania, Portugal y Suiza. Esta medida estaría en sintonía con el enfoque descentralizado del Parlamento Europeo. Francia y Reino Unido apuestan por un sistema alternativo. España todavía no ha decidido su posición, aunque podría inclinarse por una solución facilitada por el Barcelona SuperComputing Center, donde no se identifica a individuos ni lugares, sino claves aleatorias de teléfonos que han estado a dos metros de la posible persona contagiada. Como siempre, la app será más o menos útil en función de la adopción, esto significa la cantidad de gente que la tenga instalada en su teléfono móvil. Con tanta variedad de apps, se puede dar el caso que una persona pase por diferentes países europeos y que el rastreo no sea efectivo por incompatibilidad. Para evaluar el impacto de las apps, recientemente se ha propuesto un marco socio-tecnológico que define 19 características relevantes con respecto a gobernanza, tecnología e impacto ciudadano.

Dicho esto, ¿es la privacidad de los datos el precio que debemos pagar para sobrevivir a una pandemia?, tal como se preguntan en el documento colaborativo elaborado por diferentes expertos (entre ellos, Ricardo Baeza-Yates, uno de los firmantes de este ensayo). El estudio concluye –entre otras cosas- que esta es una falsa dicotomía y que es posible lograr ambos objetivos. También indica que, tanto la falta de privacidad como la falta de transparencia de los gobiernos en el uso de los datos personales disminuye la confianza de la ciudadanía.

para aprender de otros, no siempre necesitamos compararnos, menos si lo hacemos sesgadamente

LECCIÓN 7: La obsesión por compararse

Dado todo lo anterior, si los criterios son diferentes de un país a otro, es muy difícil compararlos, aunque midan lo mismo. ¿Tiene sentido comparar dos conjuntos de números si todos los demás factores que rodean la propagación de la enfermedad son diferentes? Pues eso, es lo que más se ha hecho aunque sea muy difícil hacer comparaciones justas entre los países. Más aún, se distrae a la opinión pública midiendo los países que están peor, sesgando la comparación, ya sea por diseño o por ignorancia. Y pareciera que esta obsesión tiene un sesgo masculino, tanto en los líderes como en los analistas que lo hacen.

De la segunda lección aprendemos que comparar casos no tiene sentido, pues ellos dependen de la estrategia y número de test hechos. Comparar tests por millón de habitantes tiene sentido, ya que indica cuán bien conocemos la situación. Pero esto favorece a países con poca población, como son Bahréin, Luxemburgo e Islandia que han testeado a más del 18% de sus habitantes, como vemos a continuación.

Tests por cada mil habitantes.

De la tercera lección podemos rescatar que comparar fallecimientos es lo único que podría tener sentido. Pero para ser justos debemos usar un punto de partida común para eliminar las diferencias temporales, como usar para cada país el día en el cual ya fallecieron al menos 3 personas. Por supuesto, los países más poblados prefieren usar muertes por millón de habitantes para salir favorecidos, pero esto es incorrecto cuando el porcentaje de infectados es una minoría, ya que el contagio avanza gracias a la densidad de gente en los medios de transporte y zonas más transitadas de las grandes ciudades, lo que no siempre implica más habitantes. Y tampoco hay que usar la tasa de letalidad, pues al final sólo depende del virus, de la demografía y de la salud de la población. Si lo hacemos, sólo estamos midiendo la prevalencia del contagio en los tests que hacemos.

¿Y por qué tenemos que compararnos? Mil fallecidos más o menos no significa que lo estamos haciendo peor o mejor, en ambos casos la situación es grave. Más aún, para aprender de otros, no siempre necesitamos compararnos.

“el acceso a Internet sea de verdad un nuevo derecho humano, para que la brecha digital no ahonde más las desigualdades económicas”

En futuras pandemias…

Esta crisis nos ha enseñado que los datos son prioritarios para avanzar y resolver. La OMS tendría que haber dado a los gobiernos un protocolo de obtención de datos confiables. Ya no lo hizo para el Covid-19, pero confiamos en que lo haga para las futuras pandemias. Por otro lado, si en todas las reuniones de urgencia gubernamental se hubiera incluido a una persona Responsable de los Datos, muy probablemente se hubiera comunicado la evolución de la pandemia de una manera más clara y real. En una crisis es difícil tener datos de calidad, pero siempre se puede tener protocolos claros para hacer lo mejor posible en una emergencia.

La primera lección nos indica la importancia de la obtención de datos que en este caso depende principalmente de las políticas de testeo. Por otro lado, los datos son imprecisos por la naturaleza de la pandemia y la diversidad de los criterios utilizados para contabilizarlos (lecciones 2 y 3). En este tipo de crisis, calidad, al final significa veracidad, no exactitud. La lección 4 nos agrega la dimensión temporal que complica aún más la interpretación de los datos. Vemos además que es deseable tener datos abiertos resguardando la privacidad de las personas (lecciones 5 y 6), que sin embargo no sirven de nada si no son datos de calidad. Esto ha pasado en México, donde la transparencia de los datos ha reflejado su poca calidad. La última lección nos enseña que no es necesario hacer comparaciones, más aún cuando es difícil que sean justas.

Mapamundi del brote del Covid-19

Quizás, antes de acabar, debiéramos plantearnos algunas preguntas éticas, surgidas durante la pandemia. ¿Es el beneficio social, más importante que el individual? ¿A cuántas personas podemos afectar si no hacemos un esfuerzo colectivo? Son conocidas las declaraciones de los presidentes Trump y Bolsonaro poniendo por delante la economía a la protección de las personas mayores. En una crisis socio-económica como la que estamos viviendo, ¿el gobierno puede saltarse los derechos adquiridos justificándolo con la promesa del bien común? Y si lo hace, ¿Hasta cuándo podría ser?

No tenemos todas las respuestas, pero las lecciones aprendidas deberían servirnos para mejorar las estrategias de los próximos meses y años, porque después del coronavirus ya nada será igual. Una primera medida sería tener planes de emergencia preparados para desplegarlos en nuevas crisis. Otra, que se considerase la transparencia de los datos como un derecho ciudadano prioritario. Y una última, que el acceso a Internet sea de verdad un nuevo derecho humano, para que la brecha digital no ahonde más las desigualdades económicas.

Autores:

Ricardo Baeza-Yates es Ph.D. en Ciencia de la Computación y Director de Ciencia de Datos de Northeastern University en el Silicon Valley, además de investigador a tiempo parcial en universidades de Cataluña y Chile. Es Fellow de ACM e IEEE.

Karma Peiró es periodista especializada en Tecnologías de la Información y la Comunicación desde 1995. Sus intereses son la ética de la inteligencia artificial y la transparencia algorítmica.

Nota:

Una versión preliminar de este ensayo se publicó en El Periodista (Chile) en 4 partes:

Y está completo en una versión PDF para dispositivos personales.

También hay una versión en catalán.

16 de Junio, 2020.

World-class expert on data science and algorithms. Research Professor at IEAI, Northeastern University. Former VP of Research at Yahoo Labs. ACM & IEEE Fellow.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store