Translate

miércoles, 1 de octubre de 2014

Web crawleando la web con import io

Hace tiempo que estaba viendo a la gente viendo scrapeando la web. No es especiamente complicado si sabes programación y conoces los frameworks adecuados para hacerlo, pero si no sabes nada de programación casi que te puedes olvidar de ello.

Sin embargo si quieres algo más fácil y que además sea gratis, ya cuenta con import.io.

Yo conocí de la existencia de import.io mientras estaba haciendo el curso del European Data Journalism donde también te explican como extraer datos de web con Google Drive, aunque está bastante limitado a listas (<li><li/>) y a tablas.

Siguendo con import.io lo primero que debes hacer es ir a su web y descargar su navegador.Ni siquiera necesitarás saber mucho inglés para usarla.

Asi que  empezamos.
1. Nos vamos a la web de import.io y descargamos su  navegador

2. Instalamos el navegador (setup.exe)
3. Una vez instalado abrimos el navegador yéndonos a programas en Windows o al escritorio, en la opción que hayas elegido.. La verdad es que es bastante visual.

4. Nos hacemos una cuenta. Por ejemplo podemos loguear con una de las redes sociales que nos dan o correo

5. Vale pues ya tenemos algo así, como en la imagen anterior. A mi me aparecen algunos cuadros de texto un poco descuadrados,pero seguro que los developers lo van arreglando conforme vaya madurando la herramienta. Y vamos a clickar en el centro para crear una "araña" o crawler


Cómo funciona el crawler de import.io

Ya lo tenemos. Ahora vamos a ver cómo funciona el crawler.