7 características para hablar con propiedad de big data

by Julen

Según Francis Diebold, la etimología del término big data hay que situarla a mediados de los años 90 y fue John Mashey, Chief Scientist en Silicon Graphics, quien primero lo utilizó para referirse al manejo y análisis de datos masivos. Hoy en día se suele hablar de big data cuando se dan tres circunstancias, las 3V: volumen, velocidad y variedad. Por tanto, para hablar con propiedad de big data, hay que enfrentarse a terabytes o petabytes de datos que se mueven a gran velocidad ya que se crean en tiempo real o casi en tiempo real y son diversos en cuanto a su tipo, estructurados o desestructurados y a menudo con una determinada referencia espacial y temporal.

Esto que escribo coge la referencia de uno de los mejores libros con los que me he topado hasta la fecha para entender en toda su dimensión qué es big data. Se trata de The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences, de Rob Kitchin. En este libro (ojo, que es de 2014) el autor va más allá y tras la introducción que habéis leído, nos propone siete características que deberían cumplir los datos para que podamos emplear el término big data en toda su propiedad. Evidentemente no siempre los datos van a cumplir todas ellas. Cuantas más cumplan, más cerca estaremos de que en efecto, estamos realmente ante big data.

1. Volumen
Un informe de IBM en 2012 afirmaba que el 90% de los datos que manejamos en el mundo se habían creado en los últimos dos años. Sí, hablamos de 2012. Hoy una investigación así seguramente reducirá el plazo. The Economist en 2010 publicaba que el Large Hadron Collider del CERN, el laboratorio de partículas físicas de Europa, generaba 40 terabytes al segundo. El volumen es espectacular y es seguramente lo que resulta más fácil de asociar a big data. Eso sí, la capacidad para almacenar estos ingentes volúmens de datos no existe porque, aunque los almacenes crezcan, el flujo es de tal volumen que no hay forma.

2. Exhaustividad
Vivimos bajo el mantra de que «mas es mejor». Facebook o Amazon lo tienen claro: en sus sistemas cerrados quieren registrarlo todo, incluyendo lo que no hacemos. La tecnología asegura que es más fácil registrar todo que empezar a seleccionar qué podría ser significativo. Ante la duda, todo. Si puedes, no te cortes: todo.

3. Resolución e indexabilidad
Los datos aportan cada vez más detalle y son cada vez más fáciles de etiquetar para una rápidad y fiable identificación. Por ejemplo, la superficie del planeta a finales de los años 80, podía ser representada por los satélites a través de unas imágenes que alcanzaban uan resolución de 30 x 30 metros. Google Earth llega lo hace hoy a una resolución de 2,5 x 2,5 metros. En los supermercados encontrábamos productos con códigos de barras, pero ahora hay posibilidad de un seguimiento individual a través, por ejemplo, de tecnología RFID. Los artículos académicos se definen a través de un DOI (Digital Object Identifier) que es único en Internet. En resumen: cada vez más detalle y trazabilidad unitaria.

4. Relacionalibilidad
Esta característica tiene que ver con la posibilidad de conectar unos datos con otros para obtener respuestas a nuevas preguntas. Las conexiones pueden descubrirse entre pedazos de datos o en lo que concierne a una persona o una persona con otras, pero también entre grupos de personas o en cuanto a la estructura de la información en sí misma.

5. Velocidad
Estamos caminando del almacenamiento al tratamiento en streaming. Los datos se tratan en su inmensidad a medida que se generan, sin necesidad de recogerlos y almacenarlos para un análisis posterior. No hay tiempo, solo hay presente y queremos que el análisis sea inmediato. La rapidez es sinónimo de big data.

6. Variedad
En general, se considera que el 80% de los datos están desestructurados por su propia naturaleza. No hay por defecto ceros y unos que clasifiquen en origen y de forma automática el dato. Lo natural es que haya líneas continuas en las que emergen datos de acuerdo con su propio ritmo, sin esperar que alguien dote de orden estadístico a lo que allí acontece.

7. Flexibilidad
Los sistemas de big data están diseñados para ser flexibles en origen. No importa la definición inicial, sus registros podrán incorporar nuevos campos, serán escalables y podrán expandirse, por tanto, rápidamente, a pesar del volumen.

Desde luego que hay maneras más sencillas de entender qué es big data. Hilary Mason, chief scientist en Bit.ly, decía, por ejemplo: “Big Data usually refers to a dataset that is too big to fit into your available memory, or too big to store on your own hard drive, or too big to fit into an Excel spreadsheet”. Sí, lo que primero llama la atención es el volumen, pero las siete características que nos propone Rob Kitchin son un buen ejercicio para afinar el concepto.

 

Artículos relacionados

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.