Hoy os enseñamos a crear un sencillo script de Python que convertirá un archivo PDF a txt.
Si quieres convertirte en un experto con las competencias necesarias para trabajar con Python, con el Máster en Programación Avanzada en Python para Hacking, BigData y Machine Learning te formarás en tan solo 12 meses.
Pasos a seguir
Lo primero es crear un archivo PDF o buscar alguno que tengamos. Esto lo podemos hacer mediante Word guardando cualquier documento en pdf Archivo > Guardar como…
Necesitamos instalar PyPDF2, una biblioteca de PDF de Python que puede dividir, fusionar, recortar y transformar archivos PDF. Según el sitio web de PyPDF2 también se puede usar para agregar datos, opciones de visualización y contraseñas a los archivos PDF.
Para instalar el paquete PyPDF2, solo tendremos que escribir en símbolo de sistema de Windows o en la terminal de nuestro IDLE favorito pip install PyPDF2.
Posteriormente tenemos que crear un nuevo archivo Python en la misma ubicación donde habremos guardado el archivo pdf y escribimos nuestro código.
Aunque hemos detallado el código os damos una explicación rápida del mismo:
- Primero creamos un objeto de archivo Python y abrimos el archivo PDF en modo leer binario (rb).
- Creamos el objeto PdfFileReader que leerá el archivo abierto.
- Utilizaremos una variable para almacenar el número de páginas del archivo.
- Por último indicaremos la ruta del archivo txt donde se escribirán líneas del archivo PDF.