Conversion Python PDF en texte : récupérer du texte à partir de PDF

2023-12-29 07:22:21

À l’ère numérique d’aujourd’hui, la capacité d’extraire rapidement et efficacement des informations à partir de documents PDF est cruciale pour diverses industries et professionnels. Que vous soyez chercheur, analyste de données ou que vous traitiez simplement un grand volume de fichiers PDF, la possibilité de convertir des PDF au format texte modifiable peut vous faire gagner un temps et des efforts précieux. C'est là que Python, un langage de programmation polyvalent et puissant, vient à la rescousse avec ses fonctionnalités étendues de conversion de PDF en texte en Python.

Python PDF to Text Conversion: Retrieve Text from PDFs

Dans cet article, nous explorerons comment utiliser Python pour PDF en texte conversion, libérant la puissance de Python dans le traitement des fichiers PDF. Cet article comprend les sujets suivants :

API Python pour la conversion de PDF en texte

Pour utiliser Python pour la conversion de PDF en texte, une API de traitement PDF – Spire.PDF for Python est nécessaire. Cette bibliothèque Python est conçue pour la manipulation de documents PDF dans les programmes Python, ce qui donne aux programmes Python diverses capacités de traitement PDF.

Nous pouvons télécharger Spire.PDF for Python et ajoutez-le à notre projet, ou installez-le simplement via PyPI avec le code suivant :

pip install Spire.PDF

Guide de conversion de PDF en texte en Python

Avant de procéder à la conversion de PDF en texte à l'aide de Python, examinons les principaux avantages qu'il peut nous offrir :

  • Modifiable: la conversion d'un PDF en texte vous permet de modifier le document plus facilement, car les fichiers texte peuvent être ouverts et modifiés sur la plupart des appareils.
  • Accessibilité: les fichiers texte sont généralement plus accessibles que les PDF. Qu'il s'agisse d'un ordinateur de bureau ou d'un téléphone mobile, les fichiers texte peuvent être facilement visualisés sur des appareils.
  • Intégration avec d'autres applications: les fichiers texte peuvent être intégrés de manière transparente dans diverses applications et flux de travail.

Étapes pour convertir des documents PDF en fichiers texte en Python :

  • Installez Spire.PDF for Python.
  • Importer des modules.
  • Créez un objet de la classe PdfDocument et chargez un fichier PDF à l'aide de la méthode LoadFromFile().
  • Créez un objet de la classe PdfTextExtractOptions et définissez les options d'extraction de texte, notamment l'extraction de tout le texte, l'affichage du texte masqué, l'extraction uniquement du texte dans une zone spécifiée et l'extraction simple.
  • Obtenez une page du document à l'aide de la méthode PdfDocument.Pages.get_Item() et créez des objets PdfTextExtractor basés sur chaque page pour extraire le texte de la page à l'aide de la méthode Extract() avec les options spécifiées.
  • Enregistrez le texte extrait en tant que fichier texte et fermez l'objet PdfDocument.

Python pour convertir un PDF en texte sans conserver la mise en page

Lorsque vous utilisez la méthode d'extraction simple pour extraire du texte à partir d'un PDF, le programme ne conservera pas les zones vides, ne gardera pas trace de la position Y actuelle de chaque chaîne et n'insérera pas un saut de ligne dans la sortie si la position Y a changé.

  • Python
from spire.pdf import PdfDocument
from spire.pdf import PdfTextExtractOptions
from spire.pdf import PdfTextExtractor

# Create an object of PdfDocument class and load a PDF file
pdf = PdfDocument()
pdf.LoadFromFile("Sample.pdf")

# Create a string object to store the text
extracted_text = ""

# Create an object of PdfExtractor
extract_options = PdfTextExtractOptions()
# Set to use simple extraction method
extract_options.IsSimpleExtraction = True

# Loop through the pages in the document
for i in range(pdf.Pages.Count):
    # Get a page
    page = pdf.Pages.get_Item(i)
    # Create an object of PdfTextExtractor passing the page as paramter
    text_extractor = PdfTextExtractor(page)
    # Extract the text from the page
    text = text_extractor.ExtractText(extract_options)
    # Add the extracted text to the string object
    extracted_text += text

# Write the extracted text to a text file
with open("output/ExtractedText.txt", "w") as file:
    file.write(extracted_text)
pdf.Close()

Python PDF to Text Conversion: Retrieve Text from PDFs

Python pour convertir un PDF en texte et conserver la mise en page

Lorsque vous utilisez la méthode d'extraction par défaut pour extraire le texte d'un PDF, le programme extraira le texte ligne par ligne, y compris les espaces.

  • Python
from spire.pdf import PdfDocument
from spire.pdf import PdfTextExtractOptions
from spire.pdf import PdfTextExtractor

# Create an object of PdfDocument class and load a PDF file
pdf = PdfDocument()
pdf.LoadFromFile("Sample.pdf")

# Create a string object to store the text
extracted_text = ""

# Create an object of PdfExtractor
extract_options = PdfTextExtractOptions()

# Loop through the pages in the document
for i in range(pdf.Pages.Count):
    # Get a page
    page = pdf.Pages.get_Item(i)
    # Create an object of PdfTextExtractor passing the page as paramter
    text_extractor = PdfTextExtractor(page)
    # Extract the text from the page
    text = text_extractor.ExtractText(extract_options)
    # Add the extracted text to the string object
    extracted_text += text

# Write the extracted text to a text file
with open("output/ExtractedText.txt", "w") as file:
    file.write(extracted_text)
pdf.Close()

Python PDF to Text Conversion: Retrieve Text from PDFs

Python pour convertir une zone de page PDF spécifiée en texte

  • Python
from spire.pdf import PdfDocument
from spire.pdf import PdfTextExtractOptions
from spire.pdf import PdfTextExtractor
from spire.pdf import RectangleF

# Create an object of PdfDocument class and load a PDF file
pdf = PdfDocument()
pdf.LoadFromFile("Sample.pdf")

# Create an object of PdfExtractor
extract_options = PdfTextExtractOptions()

# Set to extract specific page area
extract_options.ExtractArea = RectangleF(50.0, 220.0, 700.0, 230.0)

# Get a page
page = pdf.Pages.get_Item(0)

# Create an object of PdfTextExtractor passing the page as paramter
text_extractor = PdfTextExtractor(page)

# Extract the text from the page
extracted_text = text_extractor.ExtractText(extract_options)

# Write the extracted text to a text file
with open("output/ExtractedText.txt", "w") as file:
    file.write(extracted_text)
pdf.Close()

Python PDF to Text Conversion: Retrieve Text from PDFs

Obtenez une licence gratuite pour l'API permettant de convertir un PDF en texte en Python

Les utilisateurs peuvent demander une licence temporaire gratuite pour essayer Spire.PDF for Python et évaluer les fonctionnalités de conversion Python PDF en texte sans aucune limitation.

En savoir plus sur le traitement PDF avec Python

Outre la conversion de PDF en texte avec Python, nous pouvons également explorer davantage de fonctionnalités de traitement PDF de cette API via les sources suivantes :

Conclusion

Dans cet article de blog, nous avons exploré Python dans la conversion PDF en texte. En suivant les étapes opérationnelles et en vous référant aux exemples de code dans l'article, nous pouvons réaliser rapidement Conversion de PDF en texte en Python programmes. De plus, l'article donne un aperçu des avantages de la conversion de documents PDF en fichiers texte. Plus important encore, nous pouvons acquérir des connaissances supplémentaires sur la gestion des documents PDF avec Python et les méthodes permettant de convertir des documents PDF basés sur des images en texte via les outils OCR à partir des références contenues dans l'article. Si des problèmes surviennent lors de l'utilisation de Spire.PDF for Python, une assistance technique peut être obtenue en contactant notre équipe via le Forum Spire.PDF ou email.

Voir également