Категория

Преобразование PDF в Excel на Python

2024-01-17 01:28:59

Преобразование PDF в Excel заключается в извлечении табличных данных из документа PDF и преобразовании их в редактируемый и структурированный формат электронной таблицы. Это значительно упрощает работу с данными PDF, выполнение расчетов и анализ информации, поскольку MS Excel предоставляет расширенные функции обработки данных.

Если имеется большое количество PDF-файлов, которые необходимо преобразовать в Excel, вы можете реализовать пакетное преобразование с помощью программирования, что помогает автоматизировать процесс преобразования PDF в Excel, тем самым экономя время и усилия. В этой статье рассказывается, как программно конвертировать PDF в Excel на Python.

Конвертер PDF в Excel из Python

Чтобы использовать Python для преобразования PDF в Excel, нам понадобится библиотека Spire.PDF for Python. Эта библиотека Python PDF предлагает разработчикам большие возможности для эффективной работы с PDF-файлами в программах Python. Он поддерживает создание PDF-файлов, обработку существующих PDF-файлов, а также преобразование PDF в Word, PDF в изображения, PDF в Excel, PDF в HTML и многое другое.

Чтобы установить конвертер PDF в Excel, просто используйте следующую команду pip для установки из PyPI:

pip install Spire.PDF

Как конвертировать PDF в Excel на Python

Прежде чем мы начнем, давайте взглянем на основные классы и методы преобразования PDF-файлов в Excel с помощью библиотеки Spire.PDF for Python.

  • Класс PdfDocument: представляет модель документа PDF.
  • Класс XlsxLineLayoutOptions: используется для указания параметров преобразования, позволяющих управлять преобразованием PDF-файла в Excel. Конструктор класса XlsxLineLayoutOptions принимает следующие пять параметров:
    • ConvertToMultipleSheet (bool): указывает, следует ли конвертировать каждую страницу в другой лист в том же Excel. Если установлено значение False, все страницы PDF-файла будут преобразованы в один лист Excel.
    • rotatedText (bool): указывает, следует ли отображать повернутый текст.
    • splitCell (bool): указывает, следует ли преобразовывать текст в ячейке PDF (охватывающий более двух строк) в одну ячейку Excel или в несколько ячеек.
    • wrapText (bool): указывает, следует ли переносить текст в ячейке Excel.
    • overlapText (bool): указывает, отображать ли перекрывающийся текст.
  • Метод PdfDocument.ConvertOptions.SetPdfToXlsxOptions(): применяет параметр преобразования.
  • Метод PdfDocument.SaveToFile(строковое имя файла, FileFormat.XLSX): сохраняет PDF-файл в формате Excel XLSX.

Ниже приведены основные шаги, показывающие, как конвертировать PDF в Excel на Python.

  • 1. Установите Spire.PDF for Python.
  • 2. Импортируйте необходимые модули.
  • 3. Создайте объект класса PdfDocument.
  • 4. Загрузите PDF-файл с помощью метода PdfDocument.LoadFromFile().
  • 5. Если вам необходимо задать параметры преобразования, создайте объект класса XlsxLineLayoutOptions и передайте соответствующие параметры его конструктору.
  • 6. Примените параметры преобразования с помощью метода PdfDocument.ConvertOptions.SetPdfToXlsxOptions().
  • 7. Вызовите метод PdfDocument.SaveToFile(), чтобы преобразовать PDF в Excel.

Преобразование PDF в Excel XLSX в Python

Конвертировать PDF в Excel с помощью Spire.PDF for Python довольно легко. Нам просто нужно загрузить PDF-файл, а затем сохранить его в формате XLSX. Для простого преобразования PDF в Excel на Python требуется всего три строки кода.

  • Python
from spire.pdf.common import *
    from spire.pdf import *
    
    inputFile = "Invoice.pdf"
    outputFile = "PdfToExcel.xlsx"
    
    # Create a PdfDocument object
    pdf = PdfDocument()
    
    # Load a PDF document
    pdf.LoadFromFile(inputFile)
    
    # Save the PDF file to Excel XLSX format
    pdf.SaveToFile(outputFile, FileFormat.XLSX)
    pdf.Close()

Convert PDF to Excel in Python

Преобразование многостраничного PDF-файла в один лист Excel в Python

Помимо простого метода преобразования, Spire.PDF for Python также позволяет нам настраивать параметры преобразования с помощью класса XlsxLineLayoutOptions при преобразовании PDF в Excel. Как было сказано выше, мы можем установить для первого параметра его конструктора — ConvertToMultipleSheet — значение False, чтобы преобразовать несколько страниц PDF в один лист Excel.

  • Python
from spire.pdf.common import *
    from spire.pdf import *
    
    inputFile = "Invoice Details.pdf"
    outputFile = "PdfToExcelwithOptions.xlsx"
    
    # Create a PdfDocument object
    pdf = PdfDocument()
    
    # Load a PDF document
    pdf.LoadFromFile(inputFile)
    
    # Create an XlsxLineLayoutOptions object to specify the conversion options
    # Parameters: convertToMultipleSheet, rotatedText, splitCell, wrapText, overlapText
    pdf.ConvertOptions.SetPdfToXlsxOptions(XlsxLineLayoutOptions(False, True, False, True, False))
    
    # Save the PDF file to Excel xlsx format
    pdf.SaveToFile(outputFile, FileFormat.XLSX)
    pdf.Close()

Convert PDF to Excel in Python

Бесплатная лицензия на конвертер PDF в Excel

Чтобы использовать Spire.PDF for Python для преобразования PDF в Excel без каких-либо водяных знаков и ограничений, запросите бесплатную временную лицензию на 1 месяц.

Заключение

В этой статье приведены подробные инструкции и примеры кода, демонстрирующие, как конвертировать PDF в Excel с помощью Python. Используя класс XlsxLineLayoutOptions Spire.PDF for Python, мы можем настроить параметры преобразования PDF в Excel для достижения желаемого эффекта преобразования, например, преобразование многостраничного PDF-файла в один лист Excel, перенос текста в преобразованную ячейку Excel, отображение /скрыть повернутый текст и т. д.

Не стесняйтесь изучить другие функции обработки и преобразования PDF-файлов в библиотеке Spire.PDF for Python, используя документация. По любым вопросам во время тестирования обращайтесь в нашу службу технической поддержки по электронной почте или на форуме.

Смотрите также