Índice
Instalar com Pip
pip install Spire.PDF
Links Relacionados
Converter PDF para Excel consiste em extrair dados tabulares de um documento PDF e convertê-los em um formato de planilha editável e estruturado. Isso torna muito mais fácil trabalhar com dados PDF, realizar cálculos e analisar informações, pois o MS Excel oferece recursos avançados de processamento de dados.
Quando há um grande número de arquivos PDF que precisam ser convertidos para Excel, você pode implementar a conversão em lote por meio de programação, o que ajuda a automatizar o processo de conversão de PDF para Excel, economizando tempo e esforço. Este artigo orientará sobre como programar converter PDF para Excel em Python.
- Como converter PDF para Excel em Python
- Converta PDF para Excel XLSX em Python
- Converta um PDF de várias páginas em uma planilha do Excel em Python
Conversor Python de PDF para Excel
Para usar Python para conversão de PDF em Excel, precisaremos da biblioteca Spire.PDF for Python. Esta biblioteca Python PDF oferece grande potencial para os desenvolvedores trabalharem com arquivos PDF em programas Python de forma eficiente. Ele suporta a criação de PDFs, o processamento de arquivos PDF existentes e a conversão de PDF para Word, PDF para imagens, PDF para Excel, PDF para HTML e muito mais.
Para instalar o conversor de PDF para Excel, basta usar o seguinte comando pip para instalar a partir do PyPI:
pip install Spire.PDF
Como converter PDF para Excel em Python
Antes de começarmos, vamos dar uma olhada nas principais classes e métodos para converter arquivos PDF em Excel usando a biblioteca Spire.PDF for Python.
- Classe PdfDocument: Representa um modelo de documento PDF.
- Classe XlsxLineLayoutOptionsusada para especificar as opções de conversão para controlar como seu PDF será convertido para Excel. O construtor da classe XlsxLineLayoutOptions aceita os cinco parâmetros a seguir:
- convertToMultipleSheet (bool): especifica se cada página deve ser convertida em uma planilha diferente no mesmo Excel. Se definido como False, todas as páginas de um arquivo PDF serão convertidas em uma única planilha Excel.
- rotatedText (bool): especifica se o texto girado deve ser exibido.
- splitCell (bool): especifica se o texto de uma célula PDF (abrangendo mais de duas linhas) deve ser convertido em uma célula do Excel ou em várias células.
- wrapText (bool): especifica se o texto deve ser quebrado em uma célula do Excel.
- lapText (bool): especifica se o texto sobreposto deve ser exibido.
- Método PdfDocument.ConvertOptions.SetPdfToXlsxOptions(): Aplica a opção de conversão.
- Método PdfDocument.SaveToFile (string filename, FileFormat.XLSX): Salva o PDF no formato Excel XLSX.
A seguir estão as etapas principais que mostram como converter PDF para Excel em Python.
- 1. Instale o Spire.PDF for Python.
- 2. Importe os módulos necessários.
- 3. Crie um objeto da classe PdfDocument.
- 4. Carregue um arquivo PDF através do método PdfDocument.LoadFromFile().
- 5. Caso seja necessário definir as opções de conversão, crie um objeto da classe XlsxLineLayoutOptions e passe os parâmetros correspondentes ao seu construtor.
- 6. Aplique as opções de conversão através do método PdfDocument.ConvertOptions.SetPdfToXlsxOptions().
- 7. Chame o método PdfDocument.SaveToFile() para converter PDF em Excel.
Converta PDF para Excel XLSX em Python
É muito fácil converter PDF para Excel usando Spire.PDF for Python. Só precisamos carregar um arquivo PDF e salvá-lo no formato XLSX. Apenas três linhas de código são necessárias para uma conversão simples de PDF para Excel em Python.
- Python
from spire.pdf.common import * from spire.pdf import * inputFile = "Invoice.pdf" outputFile = "PdfToExcel.xlsx" # Create a PdfDocument object pdf = PdfDocument() # Load a PDF document pdf.LoadFromFile(inputFile) # Save the PDF file to Excel XLSX format pdf.SaveToFile(outputFile, FileFormat.XLSX) pdf.Close()
Como converter PDF para Excel em Python
Além do método de conversão simples, Spire.PDF for Python também nos permite personalizar as opções de conversão por meio da classe XlsxLineLayoutOptions durante a conversão de PDF para Excel. Conforme apresentado acima, podemos definir o primeiro parâmetro de seu construtor – convertToMultipleSheet – como False para converter várias páginas PDF em uma planilha Excel.
- Python
from spire.pdf.common import * from spire.pdf import * inputFile = "Invoice Details.pdf" outputFile = "PdfToExcelwithOptions.xlsx" # Create a PdfDocument object pdf = PdfDocument() # Load a PDF document pdf.LoadFromFile(inputFile) # Create an XlsxLineLayoutOptions object to specify the conversion options # Parameters: convertToMultipleSheet, rotatedText, splitCell, wrapText, overlapText pdf.ConvertOptions.SetPdfToXlsxOptions(XlsxLineLayoutOptions(False, True, False, True, False)) # Save the PDF file to Excel xlsx format pdf.SaveToFile(outputFile, FileFormat.XLSX) pdf.Close()
Licença gratuita para conversor de PDF para Excel
Para usar Spire.PDF for Python para conversão de PDF em Excel sem marcas d'água e limitações, solicite uma licença temporária gratuita de 1 mês.
Conclusão
Este artigo fornece etapas detalhadas e exemplos de código para demonstrar como converter PDF em Excel usando Python. Usando a classe XlsxLineLayoutOptions do Spire.PDF for Python, podemos personalizar as opções de conversão de PDF para Excel para obter o efeito de conversão desejado, como converter um PDF de várias páginas em uma planilha do Excel, quebrar o texto na célula convertida do Excel, mostrar /ocultar texto girado, etc.
Sinta-se à vontade para explorar outros recursos de processamento e conversão de PDF da biblioteca Spire.PDF for Python usando o documentação. Para qualquer problema durante o teste, entre em contato com nossa equipe de suporte técnico por e-mail ou fórum.