Liberar tablas de datos de archivos PDF

TabulaHasta hace poco extraer texto de un archivo PDF era complicado, pero extraer una tabla de datos era un vedadero dolor de cabeza.

Hace un par de semanas tuve que extraer información gubernamental de éste tipo de archivos y después de una búsqueda me encontré con Tabula.

Es una herramienta de software libre con la que se puede liberar fácilmente una tabla de datos y guardarla en formato CSV o pasarla a un archivo de Calc en LibreOffice o en cualquier otro programa de hojas de cálculo y lo mejor es que funciona en Linux, Mac o Win.

En su sitio web encontrarás la información necesaria para instalarlo enlas plataformas mencionadas y una breve guía de uso.

Por ahora nos concentraremos en un ejercicio de extracción de datos en unos cuantos pasos.

En Debian abrimos la terminal, vamos a la carpeta donde instalamos tabula y usamos el siguiente comando: java -Dfile.encoding=utf-8 -Xms256M -Xmx1024M -jar tabula.jar

Esto ejecuta Tabula en nuestro navegador y se verá así.

Tabula1Hacemos click sobre el botón Examinar para ubicar el archivo PDF que contiene la tabla a extraer y después uno más en Submit para cargarlo.

Tabula2Tabula4

Ahora, con el mouse seleccionamos las columnas y renglones que queremos liberar

Tabula5 Damos click en el boton verde Download All Data y se inicia el procesamiento de la información y eso es todo.

Tabula6

Ahora podemos copiar los datos en formato CSV o bien descargarlos en un archivo, haciendo click sobre cualquiera de los dos botones azules en la parte inferior izquierda de la pantalla.

Tabula7

Si realizas tareas como estas con frecuencia Tabula es la herramienta indicada.

@oliveraherbert

 

Deja un comentario