Más datos, más despilfarro: la preocupación de Davenport y Redman sobre la calidad de los datos

by Julen

Tom Redman es un autor que se ha prodigado mucho en escribir acerca de la calidad de los datos. Por su parte, Thomas H. Davenport es un clásico que en su día publicó mucho sobre gestión del conocimiento y al que siempre he seguido la pista. Son los dos autores de un artículo que publica la MIT Sloan Management Review: Getting Serious About Data and Data Science. El subtítulo da más pistas: To implement successful data programs, companies need to shift goals, muster resources, and align people. Básicamente comparten su preocupación por dos grandes errores que dicen las empresas están cometiendo en torno al trabajo con datos:

  1. They underinvest in the organization (people, structure, or culture), process, and the strategic transformations needed to get on offense — in other words, to take full advantage of their data and the data analytics technologies at their disposal.
  2. They address data quality improperly, which leads them to waste critical resources (time and money) dealing with mundane issues. Bad data, in turn, breeds mistrust in the data, further slowing efforts to create advantage.

¿Que es lo que está detrás de estos dos grandes problemas? Lo dicen claro: un evidente déficit en la calidad de la gestión. «They blame technology for their quality woes and failures to capitalize on data, when the real problem is poor management.» El argumento que manejan tiene que ver con la cantidad de gestión desperciada porque hay que dedicar recursos a curar datos dada su mala calidad en origen. Y, esto, claro está, cuando se dedican. Porque la tentación de fiarse de datos que se suele decir son «asépticos» es muy elevada. No lo olvidemos, los datos siempre arrastran ideología. Atender a este problema, para mí, es fundamental. En mis clases en la universidad sobre Ética y Datos en el grado Business Data Analytics insisto mucho con las alumnas y alumnos en profundizar sobre si los data sets que manejan son fiables.

Demasiadas veces se da por supuesto que como hay volumen de datos será la cantidad la que nos salve. Pero, claro, si esos datos no son de calidad, ya pueden llegarnos en yottabites que nos da igual. Más volumen es más ruido. Toda esa inversión en tratamiento de datos no sirve de nada si los datos en origen no son los adecuados. Hay que mirar a las fuentes y trabajar ahí al principio de todo el proceso. Es un argumento tan pueril que parece mentira que no se haga más hincapié en conseguir buenos datos. Parece que lo que importa es que haya cantidad. La (supuesta) calidad vendrá detrás, por el trabajo de tratamiento de los datos. Pero ahí hay muchas horas que, en términos clásicos, no aportan valor añadido. Son despifarro en una cultura de lean management.

Si tomáramos el símil de un proceso industrial, lo que estamos buscando es conseguir calidad a la primera. No tiene sentido fabricar piezas con defecto que luego alguien deba reparar en un proceso posterior. ¿Por qué no diseñar sistemas para que la primera sea la pieza buena?, ¿por qué no diseñar procesos, entonces, para que los datos de entrada sean los adecuados y no haya que retrabajar en fases posteriores?

La pleitesía a los datos implica, me temo, esta paradoja: más datos, pero de menos calidad, equivalen a agigantar los costes de no calidad, dicho en términos clásicos de gestión. Os comentaba que Redman ha publicado mucho sobre calidad de los datos. Podeís leer este otro artículo publicado en Harvard Business Review: To Improve Data Quality, Start at the Source. Allí insiste en lo que él denomina the hidden data factory:

Imagine that you had cleaned all your existing data perfectly, but not addressed the problem of poor quality at the source. As you acquire new data, you will also acquire new errors that impact your work. You and your team will once again waste time dealing with errors. Cleanup as the primary means of data quality is long past its sell-by date.

Hay que poner en marcha una cultura de combate y erradicación de los bad data. Compete a todo el mundo. No se puede caer en la trampa de disponer de una gran capacidad de tratamiento para desarrollar algoritmos y que la materia prima que se introduce en el proceso esté viciada en origen. Davenport y Redman insisten: «draw a clear distinction between the management of data and the management of technology«. Me temo que en este momento se ha disparado el embelesamiento por las capacidades de la tecnología, pero una cosa son los datos y otra la tecnología necesaria para procesarlos. Si crece esta última capacidad pero la sensibilidad por la gestión correcta del dato en origen no lo hace, estamos construyendo un auténtico monstruo.

Sí, podemos reconocer que «it is clear enough that the future depends on data, so sooner or later, you have no real choice». Pero triste sería que la fe en los datos conduzca a sinsentidos que, además, costarán una fortuna y llevaran a decisiones incorrectas.

Imagen de Gerd Altmann en Pixabay.

Artículos relacionados

1 comentario

People Analytics, sobre todo, cuestión de diseño de la investigación – Consultoría artesana en red 17/11/2020 - 08:40

[…] Por cierto, estoy convencido de que este enfoque hará feliz a Amalio Rey, quien siempre insiste en el poder del diseño. Pues bien, aquí tiene quien le respalde en su particular cruzada. A mí también me pasa en mis clases de ética en el grado de Business Data Analytics en la universidad que tengo que bregar con estos asuntos. Digamos que la disponibilidad de datos genera la inevitable tentación de comenzar a usarlos. Pero, claro, si los datos no son de calidad –y ya he hablado aquí de ello– entonces estamos construyendo un …. […]

Responder

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.