Категория

Преобразование PDF в текст Python: извлечение текста из PDF-файлов

2023-12-29 07:29:54

В современную цифровую эпоху возможность быстро и эффективно извлекать информацию из PDF-документов имеет решающее значение для различных отраслей и специалистов. Независимо от того, являетесь ли вы исследователем, аналитиком данных или просто имеете дело с большим объемом PDF-файлов, возможность конвертировать PDF-файлы в редактируемый текстовый формат может сэкономить вам драгоценное время и усилия. Именно здесь на помощь приходит Python, универсальный и мощный язык программирования с его обширными возможностями преобразования PDF в текст на Python.

Python PDF to Text Conversion: Retrieve Text from PDFs

В этой статье мы рассмотрим, как использовать Python для преобразования PDF в текст преобразование, раскрывающее возможности Python при обработке PDF-файлов. Эта статья включает в себя следующие темы:

API Python для преобразования PDF в текст

Чтобы использовать Python для преобразования PDF в текст, необходим API обработки PDF — Spire.PDF for Python Эта библиотека Python предназначена для манипулирования PDF-документами в программах Python, что расширяет возможности программ Python различными возможностями обработки PDF-файлов.

Мы можем скачать Spire.PDF for Python и добавьте его в наш проект или просто установите через PyPI с помощью следующего кода:

pip install Spire.PDF

Руководство по преобразованию PDF в текст в Python

Прежде чем мы приступим к преобразованию PDF в текст с помощью Python, давайте посмотрим на основные преимущества, которые он может нам предложить:

  • Возможность редактирования: Преобразование PDF в текст упрощает редактирование документа, поскольку текстовые файлы можно открывать и редактировать на большинстве устройств.
  • Доступность: Текстовые файлы обычно более доступны, чем PDF-файлы. Будь то настольный компьютер или мобильный телефон, текстовые файлы можно легко просматривать на устройствах.
  • Интеграция с другими приложениями: Текстовые файлы можно легко интегрировать в различные приложения и рабочие процессы.

Шаги по преобразованию PDF-документов в текстовые файлы на Python:

  • Установите Spire.PDF for Python.
  • Импортируйте модули.
  • Создайте объект класса PdfDocument и загрузите PDF-файл с помощью метода LoadFromFile().
  • Создайте объект класса PdfTextExtractOptions и установите параметры извлечения текста, включая извлечение всего текста, отображение скрытого текста, извлечение текста только в указанной области и простое извлечение.
  • Получите страницу в документе с помощью метода PdfDocument.Pages.get_Item() и создайте объекты PdfTextExtractor на основе каждой страницы для извлечения текста со страницы с помощью метода Extract() с указанными параметрами.
  • Сохраните извлеченный текст как текстовый файл и закройте объект PdfDocument.

Python для преобразования PDF в текст без сохранения макета

При использовании простого метода извлечения для извлечения текста из PDF программа не сохраняет пустые области, отслеживает текущую позицию Y каждой строки и вставляет разрыв строки в выходные данные, если позиция Y изменилась.

  • Python
from spire.pdf import PdfDocument
from spire.pdf import PdfTextExtractOptions
from spire.pdf import PdfTextExtractor

# Create an object of PdfDocument class and load a PDF file
pdf = PdfDocument()
pdf.LoadFromFile("Sample.pdf")

# Create a string object to store the text
extracted_text = ""

# Create an object of PdfExtractor
extract_options = PdfTextExtractOptions()
# Set to use simple extraction method
extract_options.IsSimpleExtraction = True

# Loop through the pages in the document
for i in range(pdf.Pages.Count):
    # Get a page
    page = pdf.Pages.get_Item(i)
    # Create an object of PdfTextExtractor passing the page as paramter
    text_extractor = PdfTextExtractor(page)
    # Extract the text from the page
    text = text_extractor.ExtractText(extract_options)
    # Add the extracted text to the string object
    extracted_text += text

# Write the extracted text to a text file
with open("output/ExtractedText.txt", "w") as file:
    file.write(extracted_text)
pdf.Close()

Python PDF to Text Conversion: Retrieve Text from PDFs

Python для преобразования PDF в текст и сохранения макета

При использовании метода извлечения по умолчанию для извлечения текста из PDF программа будет извлекать текст построчно, включая пробелы.

  • Python
from spire.pdf import PdfDocument
from spire.pdf import PdfTextExtractOptions
from spire.pdf import PdfTextExtractor

# Create an object of PdfDocument class and load a PDF file
pdf = PdfDocument()
pdf.LoadFromFile("Sample.pdf")

# Create a string object to store the text
extracted_text = ""

# Create an object of PdfExtractor
extract_options = PdfTextExtractOptions()

# Loop through the pages in the document
for i in range(pdf.Pages.Count):
    # Get a page
    page = pdf.Pages.get_Item(i)
    # Create an object of PdfTextExtractor passing the page as paramter
    text_extractor = PdfTextExtractor(page)
    # Extract the text from the page
    text = text_extractor.ExtractText(extract_options)
    # Add the extracted text to the string object
    extracted_text += text

# Write the extracted text to a text file
with open("output/ExtractedText.txt", "w") as file:
    file.write(extracted_text)
pdf.Close()

Python PDF to Text Conversion: Retrieve Text from PDFs

Python для преобразования указанной области страницы PDF в текст

  • Python
from spire.pdf import PdfDocument
from spire.pdf import PdfTextExtractOptions
from spire.pdf import PdfTextExtractor
from spire.pdf import RectangleF

# Create an object of PdfDocument class and load a PDF file
pdf = PdfDocument()
pdf.LoadFromFile("Sample.pdf")

# Create an object of PdfExtractor
extract_options = PdfTextExtractOptions()

# Set to extract specific page area
extract_options.ExtractArea = RectangleF(50.0, 220.0, 700.0, 230.0)

# Get a page
page = pdf.Pages.get_Item(0)

# Create an object of PdfTextExtractor passing the page as paramter
text_extractor = PdfTextExtractor(page)

# Extract the text from the page
extracted_text = text_extractor.ExtractText(extract_options)

# Write the extracted text to a text file
with open("output/ExtractedText.txt", "w") as file:
    file.write(extracted_text)
pdf.Close()

Python PDF to Text Conversion: Retrieve Text from PDFs

Получите бесплатную лицензию на API для преобразования PDF в текст на Python

Пользователи могут подать заявку на получение бесплатной временной лицензии попробовать Spire.PDF for Python и оценить возможности Python PDF в текст без каких-либо ограничений.

Узнайте больше об обработке PDF с помощью Python

Помимо преобразования PDF в текст с помощью Python, мы также можем изучить дополнительные функции обработки PDF с помощью этого API из следующих источников:

Заключение

В этом сообщении блога мы изучили Python в преобразовании PDF в текст. Следуя инструкциям и обращаясь к примерам кода в статье, мы можем добиться быстрого Преобразование PDF в текст в Python программы. Кроме того, в статье представлены преимущества преобразования PDF-документов в текстовые файлы. Что еще более важно, мы можем получить дополнительные знания об обработке PDF-документов с помощью Python и методах преобразования PDF-документов на основе изображений в текст с помощью инструментов OCR из ссылок в статье. Если при использовании Spire.PDF for Python возникнут какие-либо проблемы, техническую поддержку можно получить, обратившись к нашей команде через Форум Spire.PDF или электронная почта.

Смотрите также