Los datos del coronavirus, como todos, tienen ideología

by Julen

La ciencia de los datos tiene un gran problema con el coronavirus: los datos. ¿Qué quiero decir? La tentación de construir modelos a partir de los datos es demasiado alta como para aguntárselas en un momento como el actual. Vivimos en un tsunami de datos para alegría de quienes diseñan algoritmos. Los titulares de la prensa nos lo dejan claro: El poder de la inteligencia artificial frente al coronavirus, Big Data Helps Taiwan Fight Coronavirus, Big data contra el coronavirus, Data Science And Technology Is Used To Fight The Pandemic, La respuesta al coronavirus está en el big data. Así podríamos navegar por más y más noticias que nos explican cómo la ciencia de los datos puede contribuir a resolver la crisis en la que vivimos. Pero, ¿los datos de partida son fiables y no tienen sesgos? Es la gran pregunta que, me temo, la ciencia de datos obvia para poner toda su artillería a construir modelos. Y sí, es de primero de #BigDataEthics.

¿Es mejor cualquier algoritmo que ningún algoritmo si los datos con los que se construye no son fiables? ¿Mejor alimentamos el poder de la ciencia de datos con lo que sea con tal de que evidencie su poder? Por lo que sabemos nos cuentan, los países asiáticos han concentrado gran parte de su esfuerzo en afinar el dato en origen. Mediante métodos que no se andaban con miramientos, el objetivo estaba claro: saber quién estaba infectado y quién no. Todo lo que viniera detrás no tendría sentido si no se cumplía esa premisa.

Quizá un artículo de La Vanguardia del pasado 16 de marzo (sí, la prehistoria en una pandemia que necesita datos en tiempo real) nos sirve para entender que Big Data no es la respuesta. No lo es si no se dan otras condiciones: El método de Corea del Sur para vencer al coronavirus: de 909 casos diarios a 74. El país asiático era el segundo con más contagios del mundo, pero ha aplicado una respuesta que combina transparencia, nuevas tecnologías y ante todo una actitud responsable de instituciones y ciudadanos. Lo de las «nuevas tecnologías» no hay duda de que tiene que ver con lo que estamos hablando: recogida de datos fiable (hasta donde sea posible) y tratamiento mediante los avances de la ciencia de datos, pero luego llegan otraas dos grandes condiciones. La primera no sé muy bien hasta dónde creérmela porque no se puede hablar de transparencia en términos absolutos. Sabemos que vivimos condicionados a base de sesgos y la forma en que se nos presenta la información condiciona nuestra respuesta. Creo que ningún gobierno dejará de «usar» los datos según le convenga.

La segunda de las cuestiones es si cabe aún más relevante. Porque todo pasa por lo que hagamos las personas. Y ahí ya sabemos que hay diferencias culturales. Si nos dijeran antes de la pandemia que hiciéramos una lista con los países que consideramos más disciplinados ya sabemos que en el top ten no iban a aparecer ni de lejos Italia o España. Cuando éramos niños ya estudiamos todos las maravillas de aquel género literario tan nuestro: la picaresca. Me da que China, Taiwan o Corea del Sur no saben muy bien quién era el Lazarillo de Tormes.

¿De verdad en esta parte del mundo se pueden construir buenos modelos matemáticos a partir de los datos que tenemos? ¿Cuántas personas están contagiadas por el virus? Si, además, como no se cansan de repetir las autoridades sanitarias, hay mucho individuo asintomático, ¿de verdad podemos lanzarnos a construir algoritmos que nos digan cómo será el futuro en función del pasado? ¿Cuál es el factor de corrección a aplicar porque la realidad supera lo que medimos? ¿Medimos la realidad o medimos lo que podemos medir?

No seré yo quien diga que no necesitamos de la ciencia de datos para contribuir a solucionar este follón en el que nos hemos metido. Es más, creo que esta es una de las mejores armas. Pero también soy consciente de que la opinión pública se alimenta de titulares y hay mucha psicología de masas en juego. En cada rueda de prensa las autoridades pasarán el filtro de qué debemos decir y cómo. Una cosa son los datos que (creen que) manejan y otra la forma en que esos datos se interpretan para comunicar a la sociedad en su conjunto cierto tipo de mensaje. No importa el dato; importa cómo influimos en la sociedad con el dato que comunicamos. Aquí en esta parte del sur de Islandia, el Gobierno Vasco parece dar un paso en la transparencia de los datos y sabemos pueblo a pueblo y franja de edad a franja de edad cómo están las cosas. Se dan cifras y más cifras en una bacanal de datos para alimento de algoritmos. Recordemos: los datos tienen, siempre, ideología.

Cuidado, porque cuando crees que tienes el mejor martillo del mundo (las herramientas de análisis masivo de datos) todo te parecen clavos. En este caso los clavos son los datos de partida. Insisto: ¿es mejor cualquier algoritmo con datos que no son fiables que ningún algoritmo? Cuidado con la responsabilidad de lo que nos traemos entre manos. Es muy fácil jugar con los datos. La tentación es enorme. Pero también debería ser la responsabilidad por asegurar la calidad del dato que sirve para un juego que tiene que ver con la vida de las personas. Sí, en global, con grandes números. Pero detrás de las cifras hay nombres de personas. Cada una de ellas tan importante como las demás.

Artículos relacionados

1 comentario

Más datos pueden ser peores datos – Consultoría artesana en red 10/09/2021 - 07:20

[…] estas alturas de partido a nadie se le debe escapar que los datos tienen ideología. La mayor parte de las veces los datos responden a los criterios de quienes trabajan con ellos. […]

Responder

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.