Установлено через NuGet

PM> Install-Package Spire.PDF

Ссылки по теме

Изображения часто используются в документах PDF для представления информации в понятной форме. В некоторых случаях вам может потребоваться извлечь изображения из PDF-документов. Например, если вы хотите использовать изображение диаграммы из отчета PDF в презентации или другом документе. В этой статье будет показано, как извлекать изображения из PDF в C# и VB.NET использование Spire.PDF for .NET.

Установите Spire.PDF for .NET

Для начала вам необходимо добавить файлы DLL, включенные в пакет Spire.PDF for.NET, в качестве ссылок в ваш проект .NET. Файлы DLL можно загрузить по этой ссылке или установить через NuGet.

PM> Install-Package Spire.PDF

Извлечение изображений из PDF в C# и VB.NET

Ниже приведены основные шаги по извлечению изображений из PDF-документа с помощью Spire.PDF for .NET:

  • Создайте объект PDFDocument.
  • Загрузите PDF-документ с помощью метода PdfDocument.LoadFromFile().
  • Прокрутите все страницы документа.
  • Извлеките изображения с каждой страницы с помощью метода PdfPageBase.ExtractImages() и сохраните их по указанному пути к файлу.
  • C#
  • VB.NET
using Spire.Pdf;
    using System.Drawing;
    
    namespace ExtractImages
    {
        class Program
        {
            static void Main(string[] args)
            {
                //Create a PdfDocument instance
                PdfDocument pdf = new PdfDocument();
                //Load a PDF document
                pdf.LoadFromFile("Input.pdf");
    
                int i = 1;
                //Loop through all pages in the document
                foreach (PdfPageBase page in pdf.Pages)
                {
                    //Extract images from each page and save them to a specified file path
                    foreach (Image image in page.ExtractImages())
                    {
                        image.Save(@"C:/Users/Administrator/Desktop/Images/" + "image" + i + ".png", System.Drawing.Imaging.ImageFormat.Png);
                        i++;
                    }
                }
            }
        }
    }

C#/VB.NET: Extract Images from PDF

Подать заявку на временную лицензию

Если вы хотите удалить сообщение об оценке из сгенерированных документов или избавиться от ограничений функции, пожалуйста запросите 30-дневную пробную лицензию для себя.

Смотрите также

Wednesday, 30 August 2023 06:51

C#/VB.NET: extraer imágenes de PDF

Über NuGet installiert

PM> Install-Package Spire.PDF

verwandte Links

In PDF-Dokumenten werden häufig Bilder verwendet, um Informationen leicht verständlich darzustellen. In bestimmten Fällen müssen Sie möglicherweise Bilder aus PDF-Dokumenten extrahieren. Wenn Sie beispielsweise ein Diagrammbild aus einem PDF-Bericht in einer Präsentation oder einem anderen Dokument verwenden möchten. Dieser Artikel zeigt, wie das geht Extrahieren Sie Bilder aus PDF in C# und VB.NET Verwendung von Spire.PDF for .NET.

Installieren Sie Spire.PDF for .NET

Zunächst müssen Sie die im Spire.PDF for.NET-Paket enthaltenen DLL-Dateien als Referenzen in Ihrem .NET-Projekt hinzufügen. Die DLL-Dateien können entweder über diesen Link heruntergeladen oder über NuGet installiert werden.

PM> Install-Package Spire.PDF

Extrahieren Sie Bilder aus PDF in C# und VB.NET

Im Folgenden sind die wichtigsten Schritte zum Extrahieren von Bildern aus einem PDF-Dokument mit Spire.PDF for .NET aufgeführt:

  • Erstellen Sie ein PdfDocument-Objekt.
  • Laden Sie ein PDF-Dokument mit der Methode PdfDocument.LoadFromFile().
  • Durchlaufen Sie alle Seiten im Dokument.
  • Extrahieren Sie Bilder von jeder Seite mit der Methode PdfPageBase.ExtractImages() und speichern Sie sie in einem angegebenen Dateipfad.
  • C#
  • VB.NET
using Spire.Pdf;
        using System.Drawing;
        
        namespace ExtractImages
        {
            class Program
            {
                static void Main(string[] args)
                {
                    //Create a PdfDocument instance
                    PdfDocument pdf = new PdfDocument();
                    //Load a PDF document
                    pdf.LoadFromFile("Input.pdf");
        
                    int i = 1;
                    //Loop through all pages in the document
                    foreach (PdfPageBase page in pdf.Pages)
                    {
                        //Extract images from each page and save them to a specified file path
                        foreach (Image image in page.ExtractImages())
                        {
                            image.Save(@"C:/Users/Administrator/Desktop/Images/" + "image" + i + ".png", System.Drawing.Imaging.ImageFormat.Png);
                            i++;
                        }
                    }
                }
            }
        }

C#/VB.NET: Extract Images from PDF

Beantragen Sie eine temporäre Lizenz

Wenn Sie die Bewertungsmeldung aus den generierten Dokumenten entfernen oder die Funktionseinschränkungen beseitigen möchten, wenden Sie sich bitte an uns Fordern Sie eine 30-Tage-Testlizenz an für sich selbst.

Siehe auch

Wednesday, 30 August 2023 06:50

C#/VB.NET: extraer imágenes de PDF

Instalado a través de NuGet

PM> Install-Package Spire.PDF

enlaces relacionados

Las imágenes se utilizan a menudo en documentos PDF para presentar información de una manera fácilmente comprensible. En determinados casos, es posible que necesites extraer imágenes de documentos PDF. Por ejemplo, cuando desea utilizar una imagen de gráfico de un informe PDF en una presentación u otro documento. Este artículo demostrará cómo extraer imágenes de PDF en C# y VB.NET usando Spire.PDF for .NET.

Instalar Spire.PDF for .NET

Para empezar, debe agregar los archivos DLL incluidos en el paquete Spire.PDF for .NET como referencias en su proyecto .NET. Los archivos DLL se pueden descargar desde este enlace o instalar a través de NuGet.

PM> Install-Package Spire.PDF

Extraiga imágenes de PDF en C# y VB.NET

Los siguientes son los pasos principales para extraer imágenes de un documento PDF usando Spire.PDF for .NET:

  • Cree un objeto PdfDocument.
  • Cargue un documento PDF utilizando el método PdfDocument.LoadFromFile().
  • Recorre todas las páginas del documento.
  • Extraiga imágenes de cada página utilizando el método PdfPageBase.ExtractImages() y guárdelas en una ruta de archivo especificada.
  • C#
  • VB.NET
using Spire.Pdf;
    using System.Drawing;
    
    namespace ExtractImages
    {
        class Program
        {
            static void Main(string[] args)
            {
                //Create a PdfDocument instance
                PdfDocument pdf = new PdfDocument();
                //Load a PDF document
                pdf.LoadFromFile("Input.pdf");
    
                int i = 1;
                //Loop through all pages in the document
                foreach (PdfPageBase page in pdf.Pages)
                {
                    //Extract images from each page and save them to a specified file path
                    foreach (Image image in page.ExtractImages())
                    {
                        image.Save(@"C:/Users/Administrator/Desktop/Images/" + "image" + i + ".png", System.Drawing.Imaging.ImageFormat.Png);
                        i++;
                    }
                }
            }
        }
    }

C#/VB.NET: Extract Images from PDF

Solicitar una licencia temporal

Si desea eliminar el mensaje de evaluación de los documentos generados o deshacerse de las limitaciones de la función, por favor solicitar una licencia de prueba de 30 días para ti.

Ver también

Wednesday, 30 August 2023 06:49

C#/VB.NET: PDF에서 이미지 추출

NuGet을 통해 설치됨

PM> Install-Package Spire.PDF

관련된 링크들

이미지는 쉽게 이해할 수 있는 방식으로 정보를 표시하기 위해 PDF 문서에서 자주 사용됩니다. 어떤 경우에는 PDF 문서에서 이미지를 추출해야 할 수도 있습니다. 예를 들어 프레젠테이션이나 다른 문서에서 PDF 보고서의 차트 이미지를 사용하려는 경우입니다. 이 문서에서는 다음 방법을 보여줍니다 C# 및 VB.NET의 PDF에서 이미지 추출 Spire.PDF for .NET사용합니다.

Spire.PDF for .NET 설치

먼저 Spire.PDF for.NET 패키지에 포함된 DLL 파일을 .NET 프로젝트의 참조로 추가해야 합니다. DLL 파일은 이 링크 에서 다운로드하거나 NuGet을 통해 설치할 수 있습니다.

PM> Install-Package Spire.PDF

C# 및 VB.NET의 PDF에서 이미지 추출

다음은 Spire.PDF for .NET를 사용하여 PDF 문서에서 이미지를 추출하는 주요 단계입니다.

  • PdfDocument 개체를 만듭니다.
  • PdfDocument.LoadFromFile() 메서드를 사용하여 PDF 문서를 로드합니다.
  • 문서의 모든 페이지를 반복합니다.
  • PdfPageBase.ExtractImages() 메서드를 사용하여 각 페이지에서 이미지를 추출하고 지정된 파일 경로에 저장합니다.
  • C#
  • VB.NET
using Spire.Pdf;
    using System.Drawing;
    
    namespace ExtractImages
    {
        class Program
        {
            static void Main(string[] args)
            {
                //Create a PdfDocument instance
                PdfDocument pdf = new PdfDocument();
                //Load a PDF document
                pdf.LoadFromFile("Input.pdf");
    
                int i = 1;
                //Loop through all pages in the document
                foreach (PdfPageBase page in pdf.Pages)
                {
                    //Extract images from each page and save them to a specified file path
                    foreach (Image image in page.ExtractImages())
                    {
                        image.Save(@"C:/Users/Administrator/Desktop/Images/" + "image" + i + ".png", System.Drawing.Imaging.ImageFormat.Png);
                        i++;
                    }
                }
            }
        }
    }

C#/VB.NET: Extract Images from PDF

임시 라이센스 신청

생성된 문서에서 평가 메시지를 제거하고 싶거나, 기능 제한을 없애고 싶다면 30일 평가판 라이센스 요청 자신을 위해.

또한보십시오

Wednesday, 30 August 2023 06:49

C#/VB.NET: estrae immagini da PDF

Installato tramite NuGet

PM> Install-Package Spire.PDF

Link correlati

Le immagini vengono spesso utilizzate nei documenti PDF per presentare le informazioni in modo facilmente comprensibile. In alcuni casi, potrebbe essere necessario estrarre immagini da documenti PDF. Ad esempio, quando desideri utilizzare un'immagine del grafico da un report PDF in una presentazione o in un altro documento. Questo articolo mostrerà come farlo estrarre immagini da PDF in C# e VB.NET utilizzando Spire.PDF for .NET.

Installa Spire.PDF for .NET

Per cominciare, devi aggiungere i file DLL inclusi nel pacchetto Spire.PDF for.NET come riferimenti nel tuo progetto .NET. I file DLL possono essere scaricati da questo link o installato tramite NuGet.

PM> Install-Package Spire.PDF

Estrai immagini da PDF in C# e VB.NET

Di seguito sono riportati i passaggi principali per estrarre immagini da un documento PDF utilizzando Spire.PDF for .NET:

  • Crea un oggetto PdfDocument.
  • Carica un documento PDF utilizzando il metodo PdfDocument.LoadFromFile().
  • Passa in rassegna tutte le pagine del documento.
  • Estrai le immagini da ogni pagina utilizzando il metodo PdfPageBase.ExtractImages() e salvale in un percorso file specificato.
  • C#
  • VB.NET
using Spire.Pdf;
    using System.Drawing;
    
    namespace ExtractImages
    {
        class Program
        {
            static void Main(string[] args)
            {
                //Create a PdfDocument instance
                PdfDocument pdf = new PdfDocument();
                //Load a PDF document
                pdf.LoadFromFile("Input.pdf");
    
                int i = 1;
                //Loop through all pages in the document
                foreach (PdfPageBase page in pdf.Pages)
                {
                    //Extract images from each page and save them to a specified file path
                    foreach (Image image in page.ExtractImages())
                    {
                        image.Save(@"C:/Users/Administrator/Desktop/Images/" + "image" + i + ".png", System.Drawing.Imaging.ImageFormat.Png);
                        i++;
                    }
                }
            }
        }
    }

C#/VB.NET: Extract Images from PDF

Richiedi una licenza temporanea

Se desideri rimuovere il messaggio di valutazione dai documenti generati o eliminare le limitazioni della funzione, per favore richiedere una licenza di prova di 30 giorni per te.

Guarda anche

Wednesday, 30 August 2023 06:47

C#/VB.NET : extraire des images d'un PDF

Installé via NuGet

PM> Install-Package Spire.PDF

Les images sont souvent utilisées dans les documents PDF pour présenter les informations de manière facilement compréhensible. Dans certains cas, vous devrez peut-être extraire des images de documents PDF. Par exemple, lorsque vous souhaitez utiliser une image graphique d'un rapport PDF dans une présentation ou un autre document. Cet article montrera comment extraire des images d'un PDF en C# et VB.NET en utilisant Spire.PDF for .NET.

Installer Spire.PDF for .NET

Pour commencer, vous devez ajouter les fichiers DLL inclus dans le package Spire.PDF for.NET comme références dans votre projet .NET. Les fichiers DLL peuvent être téléchargés à partir de ce lien ou installés via NuGet.

PM> Install-Package Spire.PDF

Extraire des images d'un PDF en C# et VB.NET

Voici les principales étapes pour extraire des images d'un document PDF à l'aide de Spire.PDF for .NET :

  • Créez un objet PdfDocument.
  • Chargez un document PDF à l'aide de la méthode PdfDocument.LoadFromFile().
  • Parcourez toutes les pages du document.
  • Extrayez les images de chaque page à l’aide de la méthode PdfPageBase.ExtractImages() et enregistrez-les dans un chemin de fichier spécifié.
  • C#
  • VB.NET
using Spire.Pdf;
    using System.Drawing;
    
    namespace ExtractImages
    {
        class Program
        {
            static void Main(string[] args)
            {
                //Create a PdfDocument instance
                PdfDocument pdf = new PdfDocument();
                //Load a PDF document
                pdf.LoadFromFile("Input.pdf");
    
                int i = 1;
                //Loop through all pages in the document
                foreach (PdfPageBase page in pdf.Pages)
                {
                    //Extract images from each page and save them to a specified file path
                    foreach (Image image in page.ExtractImages())
                    {
                        image.Save(@"C:/Users/Administrator/Desktop/Images/" + "image" + i + ".png", System.Drawing.Imaging.ImageFormat.Png);
                        i++;
                    }
                }
            }
        }
    }

C#/VB.NET: Extract Images from PDF

Demander une licence temporaire

Si vous souhaitez supprimer le message d'évaluation des documents générés ou vous débarrasser des limitations fonctionnelles, veuillez demander une licence d'essai de 30 jours pour toi.

Voir également

Wednesday, 30 August 2023 06:44

C#/VB.NET: Extract Text from PDF Documents

Installed via NuGet

PM> Install-Package Spire.PDF

Related Links

PDF documents are fixed in layout and do not allow users to perform modifications in them. To make the PDF content editable again, you can convert PDF to Word or extract text from PDF. In this article, you will learn how to extract text from a specific PDF page, how to extract text from a particular rectangle area, and how to extract text by SimpleTextExtractionStrategy in C# and VB.NET using Spire.PDF for .NET.

Install Spire.PDF for .NET

To begin with, you need to add the DLL files included in the Spire.PDF for.NET package as references in your .NET project. The DLL files can be either downloaded from this link or installed via NuGet.

PM> Install-Package Spire.PDF

Extract Text from a Specified Page

The following are the steps to extract text from a certain page of a PDF document using Spire.PDF for .NET.

  • Create a PdfDocument object.
  • Load a PDF file using PdfDocument.LoadFromFile() method.
  • Get the specific page through PdfDocument.Pages[index] property.
  • Create a PdfTextExtractor object.
  • Create a PdfTextExtractOptions object, and set the IsExtractAllText property to true.
  • Extract text from the selected page using PdfTextExtractor.ExtractText() method.
  • Write the extracted text to a TXT file.
  • C#
  • VB.NET
using System;
    using System.IO;
    using Spire.Pdf;
    using Spire.Pdf.Texts;
    
    namespace ExtractTextFromPage
    {
        class Program
        {
            static void Main(string[] args)
            {
                //Create a PdfDocument object
                PdfDocument doc = new PdfDocument();
    
                //Load a PDF file
                doc.LoadFromFile(@"C:\Users\Administrator\Desktop\Terms of Service.pdf");
    
                //Get the second page
                PdfPageBase page = doc.Pages[1];
    
                //Create a PdfTextExtractot object
                PdfTextExtractor textExtractor = new PdfTextExtractor(page);
    
                //Create a PdfTextExtractOptions object
                PdfTextExtractOptions extractOptions = new PdfTextExtractOptions();
    
                //Set isExtractAllText to true
                extractOptions.IsExtractAllText = true;
    
                //Extract text from the page
                string text = textExtractor.ExtractText(extractOptions);
    
                //Write to a txt file
                File.WriteAllText("Extracted.txt", text);
            }
        }
    }

C#/VB.NET: Extract Text from PDF Documents

Extract Text from a Rectangle

The following are the steps to extract text from a rectangle area of a page using Spire.PDF for .NET.

  • Create a PdfDocument object.
  • Load a PDF file using PdfDocument.LoadFromFile() method.
  • Get the specific page through PdfDocument.Pages[index] property.
  • Create a PdfTextExtractor object.
  • Create a PdfTextExtractOptions object, and specify the rectangle area through the ExtractArea property of it.
  • Extract text from the rectangle using PdfTextExtractor.ExtractText() method.
  • Write the extracted text to a TXT file.
  • C#
  • VB.NET
using Spire.Pdf;
    using Spire.Pdf.Texts;
    using System.IO;
    using System.Drawing;
    
    namespace ExtractTextFromRectangleArea
    {
        class Program
        {
            static void Main(string[] args)
            {
                //Create a PdfDocument object
                PdfDocument doc = new PdfDocument();
    
                //Load a PDF file
                doc.LoadFromFile(@"C:\Users\Administrator\Desktop\Terms of Service.pdf");
    
                //Get the second page
                PdfPageBase page = doc.Pages[1];
    
                //Create a PdfTextExtractot object
                PdfTextExtractor textExtractor = new PdfTextExtractor(page);
    
                //Create a PdfTextExtractOptions object
                PdfTextExtractOptions extractOptions = new PdfTextExtractOptions();
    
                //Set the rectangle area
                extractOptions.ExtractArea = new RectangleF(0, 0, 890, 170);
    
                //Extract text from the rectangle
                string text = textExtractor.ExtractText(extractOptions);
    
                //Write to a txt file
                File.WriteAllText("Extracted.txt", text);
            }
        }
    }

C#/VB.NET: Extract Text from PDF Documents

Extract Text using SimpleTextExtractionStrategy

The above methods extract text line by line. When extracting text using SimpleTextExtractionStrategy, it keeps track of the current Y position of each string and inserts a line break into the output if the Y position has changed. The following are the detailed steps.

  • Create a PdfDocument object.
  • Load a PDF file using PdfDocument.LoadFromFile() method.
  • Get the specific page through PdfDocument.Pages[index] property.
  • Create a PdfTextExtractor object.
  • Create a PdfTextExtractOptions object and set the IsSimpleExtraction property to true.
  • Extract text from the selected page using PdfTextExtractor.ExtractText() method.
  • Write the extracted text to a TXT file.
  • C#
  • VB.NET
using System.IO;
    using Spire.Pdf;
    using Spire.Pdf.Texts;
    
    namespace SimpleExtraction
    {
        class Program
        {
            static void Main(string[] args)
            {
                //Create a PdfDocument object
                PdfDocument doc = new PdfDocument();
    
                //Load a PDF file
                doc.LoadFromFile(@"C:\Users\Administrator\Desktop\Invoice.pdf");
    
                //Get the first page
                PdfPageBase page = doc.Pages[0];
    
                //Create a PdfTextExtractor object
                PdfTextExtractor textExtractor = new PdfTextExtractor(page);
    
                //Create a PdfTextExtractOptions object
                PdfTextExtractOptions extractOptions = new PdfTextExtractOptions();
    
                //Set IsSimpleExtraction to true
                extractOptions.IsSimpleExtraction = true;
    
                //Extract text from the selected page
                string text = textExtractor.ExtractText(extractOptions);
    
                //Write to a txt file
                File.WriteAllText("Extracted.txt", text);
            }
        }
    }

C#/VB.NET: Extract Text from PDF Documents

Apply for a Temporary License

If you'd like to remove the evaluation message from the generated documents, or to get rid of the function limitations, please request a 30-day trial license for yourself.

See Also

Wednesday, 30 August 2023 06:43

C#/VB.NET: Extraia texto de documentos PDF

Os documentos PDF têm layout fixo e não permitem que os usuários façam modificações neles. Para tornar o conteúdo PDF editável novamente, você pode converter PDF para Word ou extraia texto de PDF. Neste artigo você aprenderá como extrair texto de uma página PDF específica, como extrair texto de uma área retangular específica, e como extraia texto por SimpleTextExtractionStrategy em C# e VB.NET usando Spire.PDF for .NET.

Instale o Spire.PDF for .NET

Para começar, você precisa adicionar os arquivos DLL incluídos no pacote Spire.PDF for.NET como referências em seu projeto .NET. Os arquivos DLL podem ser baixados deste link ou instalados via NuGet.

PM> Install-Package Spire.PDF

Extraia texto de uma página específica

A seguir estão as etapas para extrair texto de uma determinada página de um documento PDF usando Spire.PDF for .NET.

  • Crie um objeto PdfDocument.
  • Carregue um arquivo PDF usando o método PdfDocument.LoadFromFile().
  • Obtenha a página específica por meio da propriedade PdfDocument.Pages[index].
  • Crie um objeto PdfTextExtractor.
  • Crie um objeto PdfTextExtractOptions e defina a propriedade IsExtractAllText como true.
  • Extraia o texto da página selecionada usando o método PdfTextExtractor.ExtractText().
  • Escreva o texto extraído em um arquivo TXT.
  • C#
  • VB.NET
using System;
    using System.IO;
    using Spire.Pdf;
    using Spire.Pdf.Texts;
    
    namespace ExtractTextFromPage
    {
        class Program
        {
            static void Main(string[] args)
            {
                //Create a PdfDocument object
                PdfDocument doc = new PdfDocument();
    
                //Load a PDF file
                doc.LoadFromFile(@"C:\Users\Administrator\Desktop\Terms of Service.pdf");
    
                //Get the second page
                PdfPageBase page = doc.Pages[1];
    
                //Create a PdfTextExtractot object
                PdfTextExtractor textExtractor = new PdfTextExtractor(page);
    
                //Create a PdfTextExtractOptions object
                PdfTextExtractOptions extractOptions = new PdfTextExtractOptions();
    
                //Set isExtractAllText to true
                extractOptions.IsExtractAllText = true;
    
                //Extract text from the page
                string text = textExtractor.ExtractText(extractOptions);
    
                //Write to a txt file
                File.WriteAllText("Extracted.txt", text);
            }
        }
    }

C#/VB.NET: Extract Text from PDF Documents

Extrair texto de um retângulo

A seguir estão as etapas para extrair texto de uma área retangular de uma página usando Spire.PDF for .NET.

  • Crie um objeto PdfDocument.
  • Carregue um arquivo PDF usando o método PdfDocument.LoadFromFile().
  • Obtenha a página específica por meio da propriedade PdfDocument.Pages[index].
  • Crie um objeto PdfTextExtractor.
  • Crie um objeto PdfTextExtractOptions e especifique a área do retângulo por meio da propriedade ExtractArea dele.
  • Extraia o texto do retângulo usando o método PdfTextExtractor.ExtractText().
  • Escreva o texto extraído em um arquivo TXT.
  • C#
  • VB.NET
using Spire.Pdf;
    using Spire.Pdf.Texts;
    using System.IO;
    using System.Drawing;
    
    namespace ExtractTextFromRectangleArea
    {
        class Program
        {
            static void Main(string[] args)
            {
                //Create a PdfDocument object
                PdfDocument doc = new PdfDocument();
    
                //Load a PDF file
                doc.LoadFromFile(@"C:\Users\Administrator\Desktop\Terms of Service.pdf");
    
                //Get the second page
                PdfPageBase page = doc.Pages[1];
    
                //Create a PdfTextExtractot object
                PdfTextExtractor textExtractor = new PdfTextExtractor(page);
    
                //Create a PdfTextExtractOptions object
                PdfTextExtractOptions extractOptions = new PdfTextExtractOptions();
    
                //Set the rectangle area
                extractOptions.ExtractArea = new RectangleF(0, 0, 890, 170);
    
                //Extract text from the rectangle
                string text = textExtractor.ExtractText(extractOptions);
    
                //Write to a txt file
                File.WriteAllText("Extracted.txt", text);
            }
        }
    }

C#/VB.NET: Extract Text from PDF Documents

Extraia texto usando SimpleTextExtractionStrategy

Os métodos acima extraem texto linha por linha. Ao extrair texto usando SimpleTextExtractionStrategy, ele rastreia a posição Y atual de cada string e insere uma quebra de linha na saída se a posição Y tiver mudado. A seguir estão as etapas detalhadas.

  • Crie um objeto PdfDocument.
  • Carregue um arquivo PDF usando o método PdfDocument.LoadFromFile().
  • Obtenha a página específica por meio da propriedade PdfDocument.Pages[index].
  • Crie um objeto PdfTextExtractor.
  • Crie um objeto PdfTextExtractOptions e defina a propriedade IsSimpleExtraction como true.
  • Extraia o texto da página selecionada usando o método PdfTextExtractor.ExtractText().
  • Escreva o texto extraído em um arquivo TXT.
  • C#
  • VB.NET
using System.IO;
    using Spire.Pdf;
    using Spire.Pdf.Texts;
    
    namespace SimpleExtraction
    {
        class Program
        {
            static void Main(string[] args)
            {
                //Create a PdfDocument object
                PdfDocument doc = new PdfDocument();
    
                //Load a PDF file
                doc.LoadFromFile(@"C:\Users\Administrator\Desktop\Invoice.pdf");
    
                //Get the first page
                PdfPageBase page = doc.Pages[0];
    
                //Create a PdfTextExtractor object
                PdfTextExtractor textExtractor = new PdfTextExtractor(page);
    
                //Create a PdfTextExtractOptions object
                PdfTextExtractOptions extractOptions = new PdfTextExtractOptions();
    
                //Set IsSimpleExtraction to true
                extractOptions.IsSimpleExtraction = true;
    
                //Extract text from the selected page
                string text = textExtractor.ExtractText(extractOptions);
    
                //Write to a txt file
                File.WriteAllText("Extracted.txt", text);
            }
        }
    }

C#/VB.NET: Extract Text from PDF Documents

Solicite uma licença temporária

Se desejar remover a mensagem de avaliação dos documentos gerados ou se livrar das limitações de função, por favor solicite uma licença de teste de 30 dias para você mesmo.

Veja também

PDF-документы имеют фиксированный макет и не позволяют пользователям вносить в них изменения. Чтобы снова сделать содержимое PDF доступным для редактирования, вы можете конвертировать PDF в Word или извлечь текст из PDF. В этой статье вы узнаете, как извлечь текст из определенной страницы PDF, как извлечь текст из определенной области прямоугольника, и как извлекайте текст с помощью SimpleTextExtractionStrategy в C# и VB.NET используя Spire.PDF for .NET.

Установите Spire.PDF for .NET

Для начала вам необходимо добавить файлы DLL, включенные в пакет Spire.PDF for.NET, в качестве ссылок в ваш проект .NET. Файлы DLL можно загрузить по этой ссылке или установить через NuGet.

PM> Install-Package Spire.PDF

Извлечь текст с указанной страницы

Ниже приведены шаги по извлечению текста из определенной страницы PDF-документа с помощью Spire.PDF for .NET.

  • Создайте объект PDFDocument.
  • Загрузите PDF-файл с помощью метода PdfDocument.LoadFromFile().
  • Получите конкретную страницу через свойство PdfDocument.Pages[index].
  • Создайте объект PdfTextExtractor.
  • Создайте объект PdfTextExtractOptions и задайте для свойства IsExtractAllText значение true.
  • Извлеките текст с выбранной страницы с помощью метода PdfTextExtractor.ExtractText().
  • Запишите извлеченный текст в файл TXT.
  • C#
  • VB.NET
using System;
    using System.IO;
    using Spire.Pdf;
    using Spire.Pdf.Texts;
    
    namespace ExtractTextFromPage
    {
        class Program
        {
            static void Main(string[] args)
            {
                //Create a PdfDocument object
                PdfDocument doc = new PdfDocument();
    
                //Load a PDF file
                doc.LoadFromFile(@"C:\Users\Administrator\Desktop\Terms of Service.pdf");
    
                //Get the second page
                PdfPageBase page = doc.Pages[1];
    
                //Create a PdfTextExtractot object
                PdfTextExtractor textExtractor = new PdfTextExtractor(page);
    
                //Create a PdfTextExtractOptions object
                PdfTextExtractOptions extractOptions = new PdfTextExtractOptions();
    
                //Set isExtractAllText to true
                extractOptions.IsExtractAllText = true;
    
                //Extract text from the page
                string text = textExtractor.ExtractText(extractOptions);
    
                //Write to a txt file
                File.WriteAllText("Extracted.txt", text);
            }
        }
    }

C#/VB.NET: Extract Text from PDF Documents

Извлечь текст из прямоугольника

Ниже приведены шаги по извлечению текста из прямоугольной области страницы с помощью Spire.PDF for .NET.

  • Создайте объект PDFDocument.
  • Загрузите PDF-файл с помощью метода PdfDocument.LoadFromFile().
  • Получите конкретную страницу через свойство PdfDocument.Pages[index].
  • Создайте объект PdfTextExtractor.
  • Создайте объект PdfTextExtractOptions и укажите область прямоугольника с помощью его свойства ExtractArea.
  • Извлеките текст из прямоугольника с помощью метода PdfTextExtractor.ExtractText().
  • Запишите извлеченный текст в файл TXT.
  • C#
  • VB.NET
using Spire.Pdf;
    using Spire.Pdf.Texts;
    using System.IO;
    using System.Drawing;
    
    namespace ExtractTextFromRectangleArea
    {
        class Program
        {
            static void Main(string[] args)
            {
                //Create a PdfDocument object
                PdfDocument doc = new PdfDocument();
    
                //Load a PDF file
                doc.LoadFromFile(@"C:\Users\Administrator\Desktop\Terms of Service.pdf");
    
                //Get the second page
                PdfPageBase page = doc.Pages[1];
    
                //Create a PdfTextExtractot object
                PdfTextExtractor textExtractor = new PdfTextExtractor(page);
    
                //Create a PdfTextExtractOptions object
                PdfTextExtractOptions extractOptions = new PdfTextExtractOptions();
    
                //Set the rectangle area
                extractOptions.ExtractArea = new RectangleF(0, 0, 890, 170);
    
                //Extract text from the rectangle
                string text = textExtractor.ExtractText(extractOptions);
    
                //Write to a txt file
                File.WriteAllText("Extracted.txt", text);
            }
        }
    }

C#/VB.NET: Extract Text from PDF Documents

Извлеките текст с помощью SimpleTextExtractionStrategy

Вышеупомянутые методы извлекают текст построчно. При извлечении текста с помощью SimpleTextExtractionStrategy он отслеживает текущую позицию Y каждой строки и вставляет разрыв строки в выходные данные, если позиция Y изменилась. Ниже приведены подробные шаги.

  • Создайте объект PDFDocument.
  • Загрузите PDF-файл с помощью метода PdfDocument.LoadFromFile().
  • Получите конкретную страницу через свойство PdfDocument.Pages[index].
  • Создайте объект PdfTextExtractor.
  • Создайте объект PdfTextExtractOptions и задайте для свойства IsSimpleExtraction значение true.
  • Извлеките текст с выбранной страницы с помощью метода PdfTextExtractor.ExtractText().
  • Запишите извлеченный текст в файл TXT.
  • C#
  • VB.NET
using System.IO;
    using Spire.Pdf;
    using Spire.Pdf.Texts;
    
    namespace SimpleExtraction
    {
        class Program
        {
            static void Main(string[] args)
            {
                //Create a PdfDocument object
                PdfDocument doc = new PdfDocument();
    
                //Load a PDF file
                doc.LoadFromFile(@"C:\Users\Administrator\Desktop\Invoice.pdf");
    
                //Get the first page
                PdfPageBase page = doc.Pages[0];
    
                //Create a PdfTextExtractor object
                PdfTextExtractor textExtractor = new PdfTextExtractor(page);
    
                //Create a PdfTextExtractOptions object
                PdfTextExtractOptions extractOptions = new PdfTextExtractOptions();
    
                //Set IsSimpleExtraction to true
                extractOptions.IsSimpleExtraction = true;
    
                //Extract text from the selected page
                string text = textExtractor.ExtractText(extractOptions);
    
                //Write to a txt file
                File.WriteAllText("Extracted.txt", text);
            }
        }
    }

C#/VB.NET: Extract Text from PDF Documents

Подать заявку на временную лицензию

Если вы хотите удалить сообщение об оценке из сгенерированных документов или избавиться от ограничений функции, пожалуйста запросите 30-дневную пробную лицензию для себя.

Смотрите также

Wednesday, 30 August 2023 06:41

C#/VB.NET: Text aus PDF-Dokumenten extrahieren

PDF-Dokumente haben ein festes Layout und erlauben es Benutzern nicht, Änderungen daran vorzunehmen. Um den PDF-Inhalt wieder bearbeitbar zu machen, können Sie dies tun PDF zu Word konvertieren oder extrahieren Sie Text aus PDF. In diesem Artikel erfahren Sie, wie das geht Text aus einer bestimmten PDF-Seite extrahieren, wie man Text aus einem bestimmten Rechteckbereich extrahieren, und wie Extrahieren Sie Text mit SimpleTextExtractionStrategy in C# und VB.NET unter Verwendung von Spire.PDF for .NET.

Installieren Sie Spire.PDF for .NET

Zunächst müssen Sie die im Spire.PDF for.NET-Paket enthaltenen DLL-Dateien als Referenzen in Ihrem .NET-Projekt hinzufügen. Die DLL-Dateien können entweder über diesen Link heruntergeladen oder über NuGet installiert werden.

PM> Install-Package Spire.PDF

Extrahieren Sie Text von einer bestimmten Seite

Im Folgenden finden Sie die Schritte zum Extrahieren von Text aus einer bestimmten Seite eines PDF-Dokuments mit Spire.PDF for .NET.

  • Erstellen Sie ein PdfDocument-Objekt.
  • Laden Sie eine PDF-Datei mit der Methode PdfDocument.LoadFromFile().
  • Rufen Sie die spezifische Seite über die Eigenschaft PdfDocument.Pages[index] ab.
  • Erstellen Sie ein PdfTextExtractor-Objekt.
  • Erstellen Sie ein PdfTextExtractOptions-Objekt und legen Sie die IsExtractAllText-Eigenschaft auf true fest.
  • Extrahieren Sie Text aus der ausgewählten Seite mit der Methode PdfTextExtractor.ExtractText().
  • Schreiben Sie den extrahierten Text in eine TXT-Datei.
  • C#
  • VB.NET
using System;
    using System.IO;
    using Spire.Pdf;
    using Spire.Pdf.Texts;
    
    namespace ExtractTextFromPage
    {
        class Program
        {
            static void Main(string[] args)
            {
                //Create a PdfDocument object
                PdfDocument doc = new PdfDocument();
    
                //Load a PDF file
                doc.LoadFromFile(@"C:\Users\Administrator\Desktop\Terms of Service.pdf");
    
                //Get the second page
                PdfPageBase page = doc.Pages[1];
    
                //Create a PdfTextExtractot object
                PdfTextExtractor textExtractor = new PdfTextExtractor(page);
    
                //Create a PdfTextExtractOptions object
                PdfTextExtractOptions extractOptions = new PdfTextExtractOptions();
    
                //Set isExtractAllText to true
                extractOptions.IsExtractAllText = true;
    
                //Extract text from the page
                string text = textExtractor.ExtractText(extractOptions);
    
                //Write to a txt file
                File.WriteAllText("Extracted.txt", text);
            }
        }
    }

C#/VB.NET: Extract Text from PDF Documents

Extrahieren Sie Text aus einem Rechteck

Im Folgenden finden Sie die Schritte zum Extrahieren von Text aus einem rechteckigen Bereich einer Seite mit Spire.PDF for .NET.

  • Erstellen Sie ein PdfDocument-Objekt.
  • Laden Sie eine PDF-Datei mit der Methode PdfDocument.LoadFromFile().
  • Rufen Sie die spezifische Seite über die Eigenschaft PdfDocument.Pages[index] ab.
  • Erstellen Sie ein PdfTextExtractor-Objekt.
  • Erstellen Sie ein PdfTextExtractOptions-Objekt und geben Sie den Rechteckbereich über dessen ExtractArea-Eigenschaft an.
  • Extrahieren Sie Text aus dem Rechteck mit der Methode PdfTextExtractor.ExtractText().
  • Schreiben Sie den extrahierten Text in eine TXT-Datei.
  • C#
  • VB.NET
using Spire.Pdf;
    using Spire.Pdf.Texts;
    using System.IO;
    using System.Drawing;
    
    namespace ExtractTextFromRectangleArea
    {
        class Program
        {
            static void Main(string[] args)
            {
                //Create a PdfDocument object
                PdfDocument doc = new PdfDocument();
    
                //Load a PDF file
                doc.LoadFromFile(@"C:\Users\Administrator\Desktop\Terms of Service.pdf");
    
                //Get the second page
                PdfPageBase page = doc.Pages[1];
    
                //Create a PdfTextExtractot object
                PdfTextExtractor textExtractor = new PdfTextExtractor(page);
    
                //Create a PdfTextExtractOptions object
                PdfTextExtractOptions extractOptions = new PdfTextExtractOptions();
    
                //Set the rectangle area
                extractOptions.ExtractArea = new RectangleF(0, 0, 890, 170);
    
                //Extract text from the rectangle
                string text = textExtractor.ExtractText(extractOptions);
    
                //Write to a txt file
                File.WriteAllText("Extracted.txt", text);
            }
        }
    }

C#/VB.NET: Extract Text from PDF Documents

Extrahieren Sie Text mit SimpleTextExtractionStrategy

Die oben genannten Methoden extrahieren Text Zeile für Zeile. Beim Extrahieren von Text mit SimpleTextExtractionStrategy wird die aktuelle Y-Position jeder Zeichenfolge verfolgt und ein Zeilenumbruch in die Ausgabe eingefügt, wenn sich die Y-Position geändert hat. Im Folgenden finden Sie die detaillierten Schritte.

  • Erstellen Sie ein PdfDocument-Objekt.
  • Laden Sie eine PDF-Datei mit der Methode PdfDocument.LoadFromFile().
  • Rufen Sie die spezifische Seite über die Eigenschaft PdfDocument.Pages[index] ab.
  • Erstellen Sie ein PdfTextExtractor-Objekt.
  • Erstellen Sie ein PdfTextExtractOptions-Objekt und legen Sie die IsSimpleExtraction-Eigenschaft auf true fest.
  • Extrahieren Sie Text aus der ausgewählten Seite mit der Methode PdfTextExtractor.ExtractText().
  • Schreiben Sie den extrahierten Text in eine TXT-Datei.
  • C#
  • VB.NET
using System.IO;
    using Spire.Pdf;
    using Spire.Pdf.Texts;
    
    namespace SimpleExtraction
    {
        class Program
        {
            static void Main(string[] args)
            {
                //Create a PdfDocument object
                PdfDocument doc = new PdfDocument();
    
                //Load a PDF file
                doc.LoadFromFile(@"C:\Users\Administrator\Desktop\Invoice.pdf");
    
                //Get the first page
                PdfPageBase page = doc.Pages[0];
    
                //Create a PdfTextExtractor object
                PdfTextExtractor textExtractor = new PdfTextExtractor(page);
    
                //Create a PdfTextExtractOptions object
                PdfTextExtractOptions extractOptions = new PdfTextExtractOptions();
    
                //Set IsSimpleExtraction to true
                extractOptions.IsSimpleExtraction = true;
    
                //Extract text from the selected page
                string text = textExtractor.ExtractText(extractOptions);
    
                //Write to a txt file
                File.WriteAllText("Extracted.txt", text);
            }
        }
    }

C#/VB.NET: Extract Text from PDF Documents

Beantragen Sie eine temporäre Lizenz

Wenn Sie die Bewertungsmeldung aus den generierten Dokumenten entfernen oder die Funktionseinschränkungen beseitigen möchten, wenden Sie sich bitte an uns Fordern Sie eine 30-Tage-Testlizenz an für sich selbst.

Siehe auch