EniDev

Guías sobre temas de bases de datos y programación

Project maintained by Hosted on GitHub Pages — Theme by mattgraham

PyPDF2

Instalación

Instalar con pip:

pip install PyPDF2

Acceder a páginas y extraer contenido

Acceder y extraer el contenido de la primera página:

import PyPDF2 ## Versión anterior a la 3

FILE_PATH = "path/file.pdf"

with open(FILE_PATH) as f:
    reader = PyPDF2.PdfFileReader(f)
    page = reader.getPage(0)
    print(page.extractText())

Versión superior a la 3 de PyPDF2:

import PyPDF2

FILE_PATH = "path/file.pdf"

with open(FILE_PATH, "rb") as f:
    reader = PyPDF2.PdfReader(f)
    page = reader.pages[0]
    print(page.extract_text())

Acceder a todas las páginas

import PyPDF2

FILE_PATH = "path/file.pdf"

with open(FILE_PATH, "rb") as f:
	reader = PyPDF2.PdfFileReader(f)
	for page in reader.pages:
		page.extractText()

Versión superior a la 3 de PyPDF2:

import PyPDF2

FILE_PATH = "path/file.pdf"

with open(FILE_PATH, "rb") as f:
	reader = PyPDF2.PdfReader(f)
	for page in reader.pages:
		page.extract_text()

La propiedad pages es una lista de clase PageObject. Por lo tanto podemos utilizar un bucle for para iterar por cada página.