Conversione da PDF a testo in Python: recupera testo da PDF

2023-12-29 07:25:16

Nell'era digitale di oggi, la capacità di estrarre informazioni dai documenti PDF in modo rapido ed efficiente è fondamentale per vari settori e professionisti. Che tu sia un ricercatore, un analista di dati o semplicemente hai a che fare con un grande volume di file PDF, la possibilità di convertire i PDF in un formato di testo modificabile può farti risparmiare tempo e fatica preziosi. È qui che Python, un linguaggio di programmazione versatile e potente, viene in soccorso con le sue estese funzionalità per convertire PDF in testo in Python.

Python PDF to Text Conversion: Retrieve Text from PDFs

In questo articolo esploreremo come utilizzarlo Python per PDF in testo conversione, liberando la potenza di Python nell'elaborazione dei file PDF. Questo articolo include i seguenti argomenti:

API Python per la conversione da PDF a testo

Per utilizzare Python per la conversione da PDF a testo, è necessaria un'API di elaborazione PDF: Spire.PDF for Python. Questa libreria Python è progettata per la manipolazione di documenti PDF nei programmi Python, che fornisce ai programmi Python varie capacità di elaborazione PDF.

Possiamo scaricare Spire.PDF for Python e aggiungilo al nostro progetto o semplicemente installalo tramite PyPI con il seguente codice:

pip install Spire.PDF

Guida per convertire PDF in testo in Python

Prima di procedere con la conversione di PDF in testo utilizzando Python, diamo un'occhiata ai principali vantaggi che può offrirci:

  • Modificabilità: la conversione di PDF in testo consente di modificare il documento più facilmente, poiché i file di testo possono essere aperti e modificati sulla maggior parte dei dispositivi.
  • Accessibilità: i file di testo sono generalmente più accessibili dei PDF. Che si tratti di un desktop o di un telefono cellulare, i file di testo possono essere visualizzati facilmente sui dispositivi.
  • Integrazione con altre applicazioni: i file di testo possono essere perfettamente integrati in varie applicazioni e flussi di lavoro.

Passaggi per convertire documenti PDF in file di testo in Python:

  • Installa Spire.PDF for Python.
  • Importa moduli.
  • Crea un oggetto della classe PdfDocument e carica un file PDF utilizzando il metodo LoadFromFile().
  • Crea un oggetto della classe PdfTextExtractOptions e imposta le opzioni di estrazione del testo, inclusa l'estrazione di tutto il testo, la visualizzazione del testo nascosto, l'estrazione solo del testo in un'area specifica e l'estrazione semplice.
  • Ottieni una pagina nel documento utilizzando il metodo PdfDocument.Pages.get_Item() e crea oggetti PdfTextExtractor basati su ciascuna pagina per estrarre il testo dalla pagina utilizzando il metodo Extract() con le opzioni specificate.
  • Salva il testo estratto come file di testo e chiudi l'oggetto PdfDocument.

Python per convertire PDF in testo senza mantenere il layout

Quando si utilizza il metodo di estrazione semplice per estrarre testo da PDF, il programma non manterrà le aree vuote e terrà traccia della posizione Y corrente di ciascuna stringa e inserirà un'interruzione di riga nell'output se la posizione Y è cambiata.

  • Python
from spire.pdf import PdfDocument
from spire.pdf import PdfTextExtractOptions
from spire.pdf import PdfTextExtractor

# Create an object of PdfDocument class and load a PDF file
pdf = PdfDocument()
pdf.LoadFromFile("Sample.pdf")

# Create a string object to store the text
extracted_text = ""

# Create an object of PdfExtractor
extract_options = PdfTextExtractOptions()
# Set to use simple extraction method
extract_options.IsSimpleExtraction = True

# Loop through the pages in the document
for i in range(pdf.Pages.Count):
    # Get a page
    page = pdf.Pages.get_Item(i)
    # Create an object of PdfTextExtractor passing the page as paramter
    text_extractor = PdfTextExtractor(page)
    # Extract the text from the page
    text = text_extractor.ExtractText(extract_options)
    # Add the extracted text to the string object
    extracted_text += text

# Write the extracted text to a text file
with open("output/ExtractedText.txt", "w") as file:
    file.write(extracted_text)
pdf.Close()

Python PDF to Text Conversion: Retrieve Text from PDFs

Python per convertire PDF in testo e mantenere il layout

Quando si utilizza il metodo di estrazione predefinito per estrarre testo da PDF, il programma estrarrà il testo riga per riga, compresi gli spazi vuoti.

  • Python
from spire.pdf import PdfDocument
from spire.pdf import PdfTextExtractOptions
from spire.pdf import PdfTextExtractor

# Create an object of PdfDocument class and load a PDF file
pdf = PdfDocument()
pdf.LoadFromFile("Sample.pdf")

# Create a string object to store the text
extracted_text = ""

# Create an object of PdfExtractor
extract_options = PdfTextExtractOptions()

# Loop through the pages in the document
for i in range(pdf.Pages.Count):
    # Get a page
    page = pdf.Pages.get_Item(i)
    # Create an object of PdfTextExtractor passing the page as paramter
    text_extractor = PdfTextExtractor(page)
    # Extract the text from the page
    text = text_extractor.ExtractText(extract_options)
    # Add the extracted text to the string object
    extracted_text += text

# Write the extracted text to a text file
with open("output/ExtractedText.txt", "w") as file:
    file.write(extracted_text)
pdf.Close()

Python PDF to Text Conversion: Retrieve Text from PDFs

Python per convertire un'area della pagina PDF specificata in testo

  • Python
from spire.pdf import PdfDocument
from spire.pdf import PdfTextExtractOptions
from spire.pdf import PdfTextExtractor
from spire.pdf import RectangleF

# Create an object of PdfDocument class and load a PDF file
pdf = PdfDocument()
pdf.LoadFromFile("Sample.pdf")

# Create an object of PdfExtractor
extract_options = PdfTextExtractOptions()

# Set to extract specific page area
extract_options.ExtractArea = RectangleF(50.0, 220.0, 700.0, 230.0)

# Get a page
page = pdf.Pages.get_Item(0)

# Create an object of PdfTextExtractor passing the page as paramter
text_extractor = PdfTextExtractor(page)

# Extract the text from the page
extracted_text = text_extractor.ExtractText(extract_options)

# Write the extracted text to a text file
with open("output/ExtractedText.txt", "w") as file:
    file.write(extracted_text)
pdf.Close()

Python PDF to Text Conversion: Retrieve Text from PDFs

Ottieni una licenza gratuita per l'API per convertire PDF in testo in Python

Gli utenti possono richiedere una licenza temporanea gratuita per provare Spire.PDF for Python e valutare le funzionalità di conversione da PDF a testo di Python senza alcuna limitazione.

Ulteriori informazioni sull'elaborazione dei PDF con Python

Oltre a convertire PDF in testo con Python, possiamo anche esplorare altre funzionalità di elaborazione PDF di questa API attraverso le seguenti fonti:

Conclusione

In questo post del blog, abbiamo esplorato Python nella conversione da PDF a testo. Seguendo i passaggi operativi e facendo riferimento agli esempi di codice nell'articolo, possiamo ottenere risultati rapidi Conversione da PDF a testo in Python programmi. Inoltre, l'articolo fornisce approfondimenti sui vantaggi della conversione di documenti PDF in file di testo. Ancora più importante, possiamo acquisire ulteriori conoscenze sulla gestione dei documenti PDF con Python e sui metodi per convertire documenti PDF basati su immagini in testo tramite strumenti OCR dai riferimenti nell'articolo. Se si verificano problemi durante l'utilizzo di Spire.PDF for Python, è possibile ottenere supporto tecnico contattando il nostro team tramite il forum Spire.PDF o tramite e-mail.

Guarda anche