Conversão de PDF em texto em Python: recuperar texto de PDFs

2023-12-29 07:31:07

Na era digital de hoje, a capacidade de extrair informações de documentos PDF de forma rápida e eficiente é crucial para vários setores e profissionais. Quer você seja um pesquisador, um analista de dados ou simplesmente lide com um grande volume de arquivos PDF, ser capaz de converter PDFs em formato de texto editável pode economizar tempo e esforço valiosos. É aqui que Python, uma linguagem de programação versátil e poderosa, vem ao resgate com seus extensos recursos para converter PDF em texto em Python.

Python PDF to Text Conversion: Retrieve Text from PDFs

Neste artigo, exploraremos como usar Python para PDF para texto conversão, liberando o poder do Python no processamento de arquivos PDF. Este artigo inclui os seguintes tópicos:

API Python para conversão de PDF em texto

Para usar Python para conversão de PDF em texto, é necessária uma API de processamento de PDF – Spire.PDF for Python Esta biblioteca Python foi projetada para manipulação de documentos PDF em programas Python, o que capacita os programas Python com várias habilidades de processamento de PDF.

Pudermos baixar Spire.PDF for Python e adicione-o ao nosso projeto, ou simplesmente instale-o através do PyPI com o seguinte código:

pip install Spire.PDF

Guia para converter PDF em texto em Python

Antes de prosseguirmos com a conversão de PDF em texto usando Python, vamos dar uma olhada nas principais vantagens que ele pode nos oferecer:

  • Editabilidade: A conversão de PDF em texto permite editar o documento com mais facilidade, pois os arquivos de texto podem ser abertos e editados na maioria dos dispositivos.
  • Acessibilidade: Arquivos de texto geralmente são mais acessíveis que PDFs. Quer seja um desktop ou um telefone celular, os arquivos de texto podem ser visualizados em dispositivos com facilidade.
  • Integração com outros aplicativos: Os arquivos de texto podem ser integrados perfeitamente em vários aplicativos e fluxos de trabalho.

Etapas para converter documentos PDF em arquivos de texto em Python:

  • Instale Spire.PDF for Python.
  • Importe módulos.
  • Crie um objeto da classe PdfDocument e carregue um arquivo PDF usando o método LoadFromFile().
  • Crie um objeto da classe PdfTextExtractOptions e defina as opções de extração de texto, incluindo extrair todo o texto, mostrar texto oculto, extrair apenas texto em uma área especificada e extração simples.
  • Obtenha uma página no documento usando o método PdfDocument.Pages.get_Item() e crie objetos PdfTextExtractor com base em cada página para extrair o texto da página usando o método Extract() com opções especificadas.
  • Salve o texto extraído como um arquivo de texto e feche o objeto PdfDocument.

Python para converter PDF em texto sem manter layout

Ao usar o método de extração simples para extrair texto de PDF, o programa não reterá as áreas em branco e acompanhará a posição Y atual de cada string e inserirá uma quebra de linha na saída se a posição Y tiver mudado.

  • Python
from spire.pdf import PdfDocument
from spire.pdf import PdfTextExtractOptions
from spire.pdf import PdfTextExtractor

# Create an object of PdfDocument class and load a PDF file
pdf = PdfDocument()
pdf.LoadFromFile("Sample.pdf")

# Create a string object to store the text
extracted_text = ""

# Create an object of PdfExtractor
extract_options = PdfTextExtractOptions()
# Set to use simple extraction method
extract_options.IsSimpleExtraction = True

# Loop through the pages in the document
for i in range(pdf.Pages.Count):
    # Get a page
    page = pdf.Pages.get_Item(i)
    # Create an object of PdfTextExtractor passing the page as paramter
    text_extractor = PdfTextExtractor(page)
    # Extract the text from the page
    text = text_extractor.ExtractText(extract_options)
    # Add the extracted text to the string object
    extracted_text += text

# Write the extracted text to a text file
with open("output/ExtractedText.txt", "w") as file:
    file.write(extracted_text)
pdf.Close()

Python PDF to Text Conversion: Retrieve Text from PDFs

Python para converter PDF em texto e manter o layout

Ao usar o método de extração padrão para extrair texto de PDF, o programa extrairá o texto linha por linha, incluindo espaços em branco.

  • Python
from spire.pdf import PdfDocument
from spire.pdf import PdfTextExtractOptions
from spire.pdf import PdfTextExtractor

# Create an object of PdfDocument class and load a PDF file
pdf = PdfDocument()
pdf.LoadFromFile("Sample.pdf")

# Create a string object to store the text
extracted_text = ""

# Create an object of PdfExtractor
extract_options = PdfTextExtractOptions()

# Loop through the pages in the document
for i in range(pdf.Pages.Count):
    # Get a page
    page = pdf.Pages.get_Item(i)
    # Create an object of PdfTextExtractor passing the page as paramter
    text_extractor = PdfTextExtractor(page)
    # Extract the text from the page
    text = text_extractor.ExtractText(extract_options)
    # Add the extracted text to the string object
    extracted_text += text

# Write the extracted text to a text file
with open("output/ExtractedText.txt", "w") as file:
    file.write(extracted_text)
pdf.Close()

Python PDF to Text Conversion: Retrieve Text from PDFs

Python para converter uma área específica da página PDF em texto

  • Python
from spire.pdf import PdfDocument
from spire.pdf import PdfTextExtractOptions
from spire.pdf import PdfTextExtractor
from spire.pdf import RectangleF

# Create an object of PdfDocument class and load a PDF file
pdf = PdfDocument()
pdf.LoadFromFile("Sample.pdf")

# Create an object of PdfExtractor
extract_options = PdfTextExtractOptions()

# Set to extract specific page area
extract_options.ExtractArea = RectangleF(50.0, 220.0, 700.0, 230.0)

# Get a page
page = pdf.Pages.get_Item(0)

# Create an object of PdfTextExtractor passing the page as paramter
text_extractor = PdfTextExtractor(page)

# Extract the text from the page
extracted_text = text_extractor.ExtractText(extract_options)

# Write the extracted text to a text file
with open("output/ExtractedText.txt", "w") as file:
    file.write(extracted_text)
pdf.Close()

Python PDF to Text Conversion: Retrieve Text from PDFs

Obtenha uma licença gratuita para a API para converter PDF em texto em Python

Os usuários podem solicite uma licença temporária gratuita para experimentar o Spire.PDF for Python e avaliar os recursos de conversão de PDF em texto do Python sem quaisquer limitações.

Saiba mais sobre processamento de PDF com Python

Além de converter PDF em texto com Python, também podemos explorar mais recursos de processamento de PDF desta API através das seguintes fontes:

Conclusão

Nesta postagem do blog, exploramos Python em PDF para conversão de texto. Seguindo as etapas operacionais e consultando os exemplos de código do artigo, podemos obter resultados rápidos Conversão de PDF para texto em Python programas. Além disso, o artigo fornece informações sobre os benefícios da conversão de documentos PDF em arquivos de texto. Mais importante ainda, podemos obter mais conhecimento sobre como lidar com documentos PDF com Python e métodos para converter documentos PDF baseados em imagens em texto por meio de ferramentas de OCR a partir das referências do artigo. Se surgir algum problema durante o uso do Spire.PDF for Python, o suporte técnico pode ser obtido entrando em contato com nossa equipe por meio do fórum Spire.PDF ou pore-mail.

Veja também