Liberar tablas de datos de archivos PDF

TabulaHasta hace poco extraer texto de un archivo PDF era complicado, pero extraer una tabla de datos era un vedadero dolor de cabeza.

Hace un par de semanas tuve que extraer información gubernamental de éste tipo de archivos y después de una búsqueda me encontré con Tabula.

Es una herramienta de software libre con la que se puede liberar fácilmente una tabla de datos y guardarla en formato CSV o pasarla a un archivo de Calc en LibreOffice o en cualquier otro programa de hojas de cálculo y lo mejor es que funciona en Linux, Mac o Win.

En su sitio web encontrarás la información necesaria para instalarlo enlas plataformas mencionadas y una breve guía de uso.

Por ahora nos concentraremos en un ejercicio de extracción de datos en unos cuantos pasos.

En Debian abrimos la terminal, vamos a la carpeta donde instalamos tabula y usamos el siguiente comando: java -Dfile.encoding=utf-8 -Xms256M -Xmx1024M -jar tabula.jar

Esto ejecuta Tabula en nuestro navegador y se verá así.

Tabula1Hacemos click sobre el botón Examinar para ubicar el archivo PDF que contiene la tabla a extraer y después uno más en Submit para cargarlo.

Tabula2Tabula4

Ahora, con el mouse seleccionamos las columnas y renglones que queremos liberar

Tabula5 Damos click en el boton verde Download All Data y se inicia el procesamiento de la información y eso es todo.

Tabula6

Ahora podemos copiar los datos en formato CSV o bien descargarlos en un archivo, haciendo click sobre cualquiera de los dos botones azules en la parte inferior izquierda de la pantalla.

Tabula7

Si realizas tareas como estas con frecuencia Tabula es la herramienta indicada.

@oliveraherbert

 

Extracción de tablas de datos de páginas web

TableToolsEn diversas ocasiones tenemos necesidad de extraer información de tablas publicadas en sitios web, actividad que para algunos de nosotros es muy frecuente, sobre todo cuando dedicamos parte de nuestro trabajo a la investigación y análisis de datos desde las organizaciones de la sociedad civil.

Aunque esto parace muy complicado es en realidad algo muy fácil de hacer con la herramienta adecuada.

Para facilitar esta tarea sugerimos utilizar el complemento TableTools2 para los navegadores Firefox o Iceweasel que nos permite copiar estos datos en menos de dos minutos; aunque también permite ordenar, buscar, filtrar, resumir, combinar y comparar tablas html, además de hacer gráficos de las mismas.

Vamos al sitio del complemento y hacemos click sobre el botón Add to Firefox para instalarlo.

Después probamos su uso en una tabla de datos publicada por el Instituto Electoral del Distrito Federal, que contiene los resultados de la elección de diputados del 2012 de mayoría relativa de los 40 distritos que existen en el D.F, en la pestaña condensado por distritos.

Tabla1

Aquí colocamos el puntero del mouse sobre la primera celda de la primera fila (Distrito), hacemos click derecho con el mouse y en la parte inferior del menú que se despliega seleccionamos TableTools2 y después la opción Copiar.

Tabla2

Entonces se despliega otro menú y seleccionamos la primera opción: Copiar como texto delimitado por tabulador, con lo que extraemos los datos y ahora podemos pegarlos en una tabla en un programa de manejo de hojas de cálculo, como nosotros utiloizamos software libre sugerimos el programa Calc de LibreOffice.

Tabla3

Abrimos una hoja de cálculo, seleccionamos la primera celda de la primera fila, hacemos click con el botón derecho del mouse y se despliga un menú, donde verificamos que la opción de separador sea la misma que cuando extrajimos los datos, en este caso la opción  de separador es Tabulador, hacemos click sobre aceptar y listo.

Tabla5

Tenemos ahora en una hoja de cálculo los datos que copiamos de la página web para hacer el análisis que consideremos adecuado.

Tabla6Los invitamos a explorar las otras opciones que nos permite TableTools2 y también a instalar y probar el complemento Table2Clipboard con el que podemos realizar tareas similares.

@oliveraherbert

 

¡No me gusta que me sigan! (2a parte).

Existen diferentes formas por medio de las cuales pueden seguir toda nuestra actividad en internet. La más común es que los motores de búsqueda, como google, pueden graban las búsquedas que realizamos, también los proveedores de internet conocen los sitios que visitamos, lo cual se puede realizar a través de la dirección IP que usamos.

¿Podemos hacer que los navegadores dejen de seguirnos en internet?

¿Podemos dejar de ver anuncios por todas partes?

¡Claro que se puede!

DuckDuckGo publicó una guía de complementos para el navegador, que están disponibles para la mayoría de ellos y sugiere instalar al menos:

  • BetterPrivacy (Bloquea cookies de flash)
  • HTTPS Everywhere (Redirecciona a una versión segura del sitio web cuando es posible)
  • DoNotTrackme (Bloquea rastreadores de los sitios web)
  • Adblock Plus (Bloque anuncios y publicidad)

Comprobé la instalación para Iceweasel y Firefox en Debian Wheezy, Ubuntu 14 y Windows 7 y no hay mucha diferencia entre ellos, así que describo como instalar los dos primeros.

1. Click en el link Para instalar Better Privacy, se despliega una ventana y ahí otro click sobre el botón Add to firefox,  se despliega un nuevo recuadro y hacemos click en el botón instalar ahora y al terminar uno más en reiniciar firefox como se muestra enseguida.

1Better2Better3Better

2. Después haz click en el link HTTPS Everywhere y en  la ventana que se despliega click en el mensaje install on firefox y después click en el botón permitir, con lo que se despliega una ventana más y ahí hacemos click en Instalar ahora.

Cuando termina la instalación tendremos un mensaje de advertencia con el mensaje HTTPS Everywhere se instalará cuando reinicie el navegador, hacemos click en el botón Reiniciar ahora, el navegador se cierra y al volverse a abrir hacemos nos muestra una ventana con un mensaje del observatorio SSL y hacemos click en el botón Si.

1http 2http 3http 4http 5http

Ahora podemos observar que en la parte superior derecha del navegador se añadió un ícono azul que nos indica que esta herramienta está funcionando.

En la siguiente y última entrega veremos como instalar dos herramientas más: DoNotTrackme y Adblock Plus.