Más datos pueden ser peores datos

by Julen

Cathy O’Neil nos advierte en Armas de destrucción matemática que «es fácil creer que más datos equivale a mejores datos«. Como quiera que llevamos años disponiendo un mundo de sobreabundancia de datos porque la capacidad de tratarlos ha explotado, es fácil pensar que, per se, más datos son mejores datos. Pero no. La falacia es obvia. Sin embargo, parecería que todo el andamiaje del tsunami big data se ha enrocado en este concepto: más es mejor.

A estas alturas de partido a nadie se le debe escapar que los datos tienen ideología. La mayor parte de las veces los datos responden a los criterios de quienes trabajan con ellos. Solo en el primer paso, su recolección, ya es más que evidente que hay ideología. Si en un cuestionario, en el que uno de los datos a recoger de la persona es su sexo, encuentras solo dos casillas, ¿hay o no hay ideología? Si las casillas te dan a elegir entre hombre y mujer, por detrás hay una concepción plana de «esto o lo otro». Según cómo diseñemos la recogida de datos estamos dando pie a introducir ideología. Y si este ejemplo es muy evidente, ¿por qué no pensar que cualquier sistema de recogida de datos refleja —con mayores o menores consecuencias según de qué datos hablemos— una ideología?

Si en origen los datos llegan sesgados, más datos simplemente aportarán un sesgo que tiende a autoconfirmarse. El onanismo está muy a la orden del día en materia de big data. No te extrañe que los datos muchas veces muestren el típico sesgo de confirmación. ¿Ves? Ya te lo decía yo. ¿Para semejante viaje hacían falta las alforjas descomunales de millones de datos? Pues sí, porque es lo que mola.

El World Economic Forum avisa de que ve, en su bola de cristal de empleos de futuro-futuro, el de auditar sesgos en los algoritmos. Ya sabéis que entre un algoritmo y un algortimo apenas hay diferencia. Y que nos están colando goles de todas las facturas es más que evidente. Así que las mentes pensantes del 2030 y más allá no se cortan y entre sus diez empleos top del más allá incluyen el Algorithm Bias Auditor:

“All online, all the time” lifestyles for work and leisure accelerated the competitive advantage derived from algorithms by digital firms everywhere. But from Brussels to Washington, given the increasing statutory scrutiny on data, it’s a near certainty that when it comes to how they’re built, verification through audits will help ensure the future workforce is also the fair workforce.

Eso sí, en la lista también hay un Data Detective que supongo irá en la misma línea. ¿De dónde vienen los datos?, ¿son los que deben ser? Lo dicho, que en la actualidad vivimos en un mundo inundado por datos. No es que sean «más» datos, es que son omnipresentes. Están por todas partes. Cada vez más, pero ¿pudiera ser que más fuera simplemente peor? ¿Alguien anda por ahí preocupándose por la sostenibilidad de la ciencia de los datos?

Cuento lo anterior porque tengo que irme luego a presentar a las alumnas y alumnos de primero de Business Data Analytics en la universidad de qué va nuestra asignatura de «Ética y Datos». Lo mismo me ven como un cenizo. Siempre les digo que yo solo quiero que sean capaces de hacerse preguntas. ¿Esos datos nos conducen a mejores decisiones?, ¿contribuyen a dejar un mundo mejor a quienes vengan detrás? Pues eso.

Artículos relacionados

2 comentarios

Ricardo 10/09/2021 - 11:13

…Mejores decisiones… ¿»Mejores» para quién?

Responder
Sesgos estadísticos y sesgos cognitivos, una combinación diábolica – Consultoría artesana en red 19/01/2024 - 06:38

[…] se descarga en la ciencia de datos conviene levantar las alertas frente a algoritmos. Esto porque ni los datos están exentos de ideología ni la propia elaboración de los algoritmos (en la medida en que haya humanos de por medio) lo […]

Responder

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.