Оглавление
Установить с помощью Пипа
pip install Spire.PDF
Ссылки по теме
Преобразование PDF в Excel заключается в извлечении табличных данных из документа PDF и преобразовании их в редактируемый и структурированный формат электронной таблицы. Это значительно упрощает работу с данными PDF, выполнение расчетов и анализ информации, поскольку MS Excel предоставляет расширенные функции обработки данных.
Если имеется большое количество PDF-файлов, которые необходимо преобразовать в Excel, вы можете реализовать пакетное преобразование с помощью программирования, что помогает автоматизировать процесс преобразования PDF в Excel, тем самым экономя время и усилия. В этой статье рассказывается, как программно конвертировать PDF в Excel на Python.
- Как конвертировать PDF в Excel на Python
- Преобразование PDF в Excel XLSX в Python
- Преобразование многостраничного PDF-файла в один лист Excel в Python
Конвертер PDF в Excel из Python
Чтобы использовать Python для преобразования PDF в Excel, нам понадобится библиотека Spire.PDF for Python. Эта библиотека Python PDF предлагает разработчикам большие возможности для эффективной работы с PDF-файлами в программах Python. Он поддерживает создание PDF-файлов, обработку существующих PDF-файлов, а также преобразование PDF в Word, PDF в изображения, PDF в Excel, PDF в HTML и многое другое.
Чтобы установить конвертер PDF в Excel, просто используйте следующую команду pip для установки из PyPI:
pip install Spire.PDF
Как конвертировать PDF в Excel на Python
Прежде чем мы начнем, давайте взглянем на основные классы и методы преобразования PDF-файлов в Excel с помощью библиотеки Spire.PDF for Python.
- Класс PdfDocument: представляет модель документа PDF.
- Класс XlsxLineLayoutOptions: используется для указания параметров преобразования, позволяющих управлять преобразованием PDF-файла в Excel. Конструктор класса XlsxLineLayoutOptions принимает следующие пять параметров:
- ConvertToMultipleSheet (bool): указывает, следует ли конвертировать каждую страницу в другой лист в том же Excel. Если установлено значение False, все страницы PDF-файла будут преобразованы в один лист Excel.
- rotatedText (bool): указывает, следует ли отображать повернутый текст.
- splitCell (bool): указывает, следует ли преобразовывать текст в ячейке PDF (охватывающий более двух строк) в одну ячейку Excel или в несколько ячеек.
- wrapText (bool): указывает, следует ли переносить текст в ячейке Excel.
- overlapText (bool): указывает, отображать ли перекрывающийся текст.
- Метод PdfDocument.ConvertOptions.SetPdfToXlsxOptions(): применяет параметр преобразования.
- Метод PdfDocument.SaveToFile(строковое имя файла, FileFormat.XLSX): сохраняет PDF-файл в формате Excel XLSX.
Ниже приведены основные шаги, показывающие, как конвертировать PDF в Excel на Python.
- 1. Установите Spire.PDF for Python.
- 2. Импортируйте необходимые модули.
- 3. Создайте объект класса PdfDocument.
- 4. Загрузите PDF-файл с помощью метода PdfDocument.LoadFromFile().
- 5. Если вам необходимо задать параметры преобразования, создайте объект класса XlsxLineLayoutOptions и передайте соответствующие параметры его конструктору.
- 6. Примените параметры преобразования с помощью метода PdfDocument.ConvertOptions.SetPdfToXlsxOptions().
- 7. Вызовите метод PdfDocument.SaveToFile(), чтобы преобразовать PDF в Excel.
Преобразование PDF в Excel XLSX в Python
Конвертировать PDF в Excel с помощью Spire.PDF for Python довольно легко. Нам просто нужно загрузить PDF-файл, а затем сохранить его в формате XLSX. Для простого преобразования PDF в Excel на Python требуется всего три строки кода.
- Python
from spire.pdf.common import * from spire.pdf import * inputFile = "Invoice.pdf" outputFile = "PdfToExcel.xlsx" # Create a PdfDocument object pdf = PdfDocument() # Load a PDF document pdf.LoadFromFile(inputFile) # Save the PDF file to Excel XLSX format pdf.SaveToFile(outputFile, FileFormat.XLSX) pdf.Close()
Преобразование многостраничного PDF-файла в один лист Excel в Python
Помимо простого метода преобразования, Spire.PDF for Python также позволяет нам настраивать параметры преобразования с помощью класса XlsxLineLayoutOptions при преобразовании PDF в Excel. Как было сказано выше, мы можем установить для первого параметра его конструктора — ConvertToMultipleSheet — значение False, чтобы преобразовать несколько страниц PDF в один лист Excel.
- Python
from spire.pdf.common import * from spire.pdf import * inputFile = "Invoice Details.pdf" outputFile = "PdfToExcelwithOptions.xlsx" # Create a PdfDocument object pdf = PdfDocument() # Load a PDF document pdf.LoadFromFile(inputFile) # Create an XlsxLineLayoutOptions object to specify the conversion options # Parameters: convertToMultipleSheet, rotatedText, splitCell, wrapText, overlapText pdf.ConvertOptions.SetPdfToXlsxOptions(XlsxLineLayoutOptions(False, True, False, True, False)) # Save the PDF file to Excel xlsx format pdf.SaveToFile(outputFile, FileFormat.XLSX) pdf.Close()
Бесплатная лицензия на конвертер PDF в Excel
Чтобы использовать Spire.PDF for Python для преобразования PDF в Excel без каких-либо водяных знаков и ограничений, запросите бесплатную временную лицензию на 1 месяц.
Заключение
В этой статье приведены подробные инструкции и примеры кода, демонстрирующие, как конвертировать PDF в Excel с помощью Python. Используя класс XlsxLineLayoutOptions Spire.PDF for Python, мы можем настроить параметры преобразования PDF в Excel для достижения желаемого эффекта преобразования, например, преобразование многостраничного PDF-файла в один лист Excel, перенос текста в преобразованную ячейку Excel, отображение /скрыть повернутый текст и т. д.
Не стесняйтесь изучить другие функции обработки и преобразования PDF-файлов в библиотеке Spire.PDF for Python, используя документация. По любым вопросам во время тестирования обращайтесь в нашу службу технической поддержки по электронной почте или на форуме.