Web scraping y una hoja de cálculo, empecemos por el principio

by Julen

Artículo publicado originalmente en el Boletín Especial de Herramientas Digitales de la Asociación Vasca de Sociología y Ciencia Política ASVP-ESZPE. Me solicitaron un texto para esta edición especial y recurrí a la forma en que abordé parte de la investigación para mi tesis doctoral.

—————-

En esta vorágine en la que nos dicen que los datos son la materia prima con la que construiremos buenas investigaciones ­–y negocios, según parece– a veces se nos olvida sacar provecho de las herramientas de toda la vida. Cuando digo “de toda la vida”, me refiero a la vida moderna, pegada a dispositivos digitales. Porque sí, hubo también vida antes de los navegadores web y las hojas de cálculo.

El scraping es un técnica que te permite extraer información de un sitio web. Como tantas otras veces, puedes consultar detalles en la Wikipedia. No obstante, conviene no cebarse con esta maravilla de la técnica porque siempre, antes de hacer uso de la tecnología, conviene empezar por el principio: qué quieres investigar y cuál es el enfoque metodológico más adecuado. Creo que no extrañará si te digo que cuando vas a “scrapear” un sitio web pudiera ser que estés rozando la ilegalidad o, peor aún, que estés de lleno en ella. Así pues, otro paso previo para empezar, como digo, por el principio: usa la lógica. ¿Qué datos quieres obtener? ¿Con qué objetivo? No es lo mismo scrapear un sitio con información técnica respecto a productos o servicios que no implican conflicto ético alguno, que adentrarse en datos que surgen de la opinión de personas o que tratan sobre asuntos delicados. Insisto: aplica la lógica, sé prudente y, ante la duda, consulta con personas especializadas en el derecho en Internet.

Con el diseño ya trabajado, la magia es sencilla de obtener. Una manera muy sencilla de acceder a una herramienta gratuita de web scraping es tirar, por ejemplo, de Chrome, el navegador de Google. Si instalas la extensión web scraper (será cuestión de segundos) dispondrás de una herramienta completamente funcional y que te servirá para casi todo lo que quieras scrapear. Sí, como siempre, tienes alternativas y puedes recurrir a import.io o cualquiera de las muchas que tienes a tu disposición.

Básicamente lo que vas a conseguir con Chrome, una vez instalada la extensión, es que rastree un sitio web y extraiga de él aquello que consideras útil como materia prima de tu investigación. Tenemos que indicarle a nuestra herramienta qué queremos que extraiga y cómo queremos que recorra el sitio web. Tendrás que salsear un poco, pero créeme que es muy simple. Su trabajo no deja de ser similar al del indexado de los sitios web que llevan a cabo las arañas de Google.

En nuestro caso, web scraper nos proporcionará los datos con los que vamos a trabajar. Si pensamos en investigación sociológica, ¿dónde puede ser útil esta técnica? Quizá ya lo hayas adivinado: un foro de discusión online. Y sí, seguro que también te has parado a pensar sobre la cuestión ética (y la legal). Así que lo suyo es ponerse en contacto con quienes gestionan el foro de discusión y comunicar de forma previa cómo verían que utilizáramos su conversación en Internet para hacer un scraping. Según la temática, esto puede ser más o menos delicado. Pero, recuerda, lo primero es el diseño de la investigación. Lo dijimos unos párrafos atrás. Esto va de empezar por el principio.

Nuestra herramienta, esa que hemos instalado en segundos (sí, segundos) nos va a proporcionar un fichero de datos, el típico CSV con el que ahora ya podrá lucirse la hoja de cálculo. Claro que habrá que limpiar los datos, pero eso ya forma parte de la rutina de quien investiga. Si pensamos en un foro de discusión online, por seguir con nuestro ejemplo, lo que obtendremos es una tabla estructurada de datos. En cada fila tendríamos un mensaje y en las columnas obtendríamos datos y metadatos, aquellos que le hubiéramos solicitado a nuestro web scraper: el contenido del mensaje en cuestión, la fecha, la persona… Tantas filas como mensajes.

Así pues, ahora le toca a nuestra hoja de cálculo. Si estás trabajando con texto, supongo que ya sabes lo que te voy a recomendar. Vas a tener que aprender a usar las funcionalidades de texto que traen consigo las hojas de cálculo. Quizá también sea el momento de aprender a elaborar macros o de jugar con tablas dinámicas. Recuerda que has obtenido una materia prima que debes comenzar a transformar en insights y eso lo vas a hacer con la hoja de cálculo de toda la vida.

Las funcionalidades de texto nos permitirán saber de qué se habla, en qué cantidades o cómo evoluciona en el tiempo. Si luego quieres profundizar con herramientas de procesamiento de lenguaje natural, eso ya sí que es pasar de pantalla. Aquí nos quedamos en parvulitos. Pero sé consciente del mundo que se te abre si entras de lleno en el análisis masivo de texto.

Por otra parte, ni que decir tiene que una imagen vale más que mil palabras. ¿Traducido a nuestra investigación con web scraping y una hoja de cálculo? Nos conviene graficar bien nuestros hallazgos. Y ahí de nuevo habrá que ser competente en la generación de gráficos. Nada nuevo bajo el sol.

Una última reflexión. Ya sé que habrá quien estará pensando en Power BI y su colección de familiares y allegados. Pero ya dijimos que este artículo iba de “empezar por el principio”. Y eso quiere decir: diseño de la investigación y uso de dos herramientas muy sencillas conceptualmente, como son el web scraping y la hoja de cálculo. Ten en cuenta que –y lo digo por propia experiencia– no vas a tener problema alguno para manejar con fluidez una hoja de cálculo con, por ejemplo, 100.000 filas. Es decir, yo que tú empezaba por el principio. Hazte con la técnica básica: usa con inteligencia –¡y con prudencia!– tu web scraper en Chrome y aprende a manejarte bien con una hoja de cálculo. Puedes hacer maravillas. Menos es más.

Artículos relacionados

2 comentarios

100.000 mensajes en un foro: una joya para Orbea – Consultoría artesana en red 21/01/2021 - 06:28

[…] la actualidad con herramientas como el web scraping, del que hablábamos ayer, podemos acceder a un análisis estructurado de la conversación. Esos 100.000 mensajes son un […]

Responder
Transformación digital: Alianzas inteligentes para la transformación competitiva de las organizaciones – Consultoría artesana en red 17/02/2021 - 05:30

[…] de mí para hacer pequeñas contribuciones más serias. Hace un par de semanas, por ejemplo, compartía aquí un pequeño artículo que me pidieron para un monográfico sobre Herramientas Digitales de la Asociación Vasca de […]

Responder

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.