Python 코드를 사용하여 PDF를 HTML로 변환

2024-02-01 09:18:52

PDF 파일은 문서 공유 및 배포에 널리 사용되는 선택이지만 PDF 콘텐츠를 추출하고 용도를 변경하는 것은 상당히 어려울 수 있습니다. 다행스럽게도, Python을 사용하여 PDF 파일을 HTML로 변환 PDF 정보 검색 및 용도 변경을 위한 탁월한 솔루션을 제공하여 접근성, 검색 가능성 및 적응성을 향상시킵니다. 또한 HTML 형식을 사용하면 검색 엔진이 콘텐츠를 색인화할 수 있으므로 웹에서 검색될 가능성이 높아집니다. 게다가 Python의 유연성과 사용 편의성 덕분에 초보자와 숙련된 개발자 모두 사용할 수 있습니다 PDF를 HTML로 변환하는 Python 쉽고 효율적으로.

Converting PDF to HTML with Python Code

이 기사에서는 Python 프로그램에서 PDF를 HTML로 변환하는 방법에 중점을 둡니다. 주로 다음과 같은 주제가 포함됩니다.

Python을 사용하여 PDF를 HTML로 변환 개요

Python의 광범위한 API는 다양한 PDF 문서 처리 작업에 편의성을 제공합니다. Spire.PDF for Python는 변환, 편집 및 변환을 포함하여 PDF 문서에 대한 다양한 작업을 수행할 수 있는 강력한 API 중 하나입니다.PDF 문서 병합. 또한 이 API를 사용하면 Python을 사용하여 PDF를 HTML로 쉽게 변환할 수 있습니다.

Spire.PDF for Python 에서 PdfDocument 클래스는 PDF 문서를 나타냅니다. 이 클래스 아래의 LoadFromFile() 메서드를 사용하여 PDF 파일을 로드하고 문서를 HTML과 같은 다른 형식으로 저장하여 PDF에서 HTML로 간단하게 변환할 수 있습니다.

또한 이 API는 PdfDocument.ConversionOptions 속성 아래에 SetConvertHtmlOptions() 메서드를 제공하여 변환 중에 이미지 포함 옵션을 설정합니다. 다음은 최대 페이지 수, SVG 포함 옵션, 이미지 포함 옵션 및 SVG 품질 옵션을 설정하기 위해 이 메소드에 전달할 수 있는 매개변수입니다.

  • useEmbeddedSvg(bool): True로 설정하면 변환된 HTML 파일에 SVG를 포함할 수 있습니다. 결과 HTML 파일에는 이미지를 포함한 PDF 문서의 모든 요소가 단일 HTML 파일에 포함됩니다.
  • useEmbeddedImg(bool): True로 설정하면 변환된 HTML 파일에 이미지를 포함할 수 있습니다. 이 매개변수는 useEmbeddedSvg가 False로 설정된 경우에만 작동합니다.
  • maxPageOneFile (int): 단일 HTML 파일에 포함할 최대 페이지 수를 설정합니다. PDF에 지정된 수보다 많은 페이지가 있는 경우 각각 페이지의 하위 집합을 포함하는 여러 HTML 파일이 생성됩니다.
  • useHighQualityEmbeddedSvg(bool): True로 설정하면 HTML 변환 프로세스에서 포함된 SVG 이미지의 고품질 버전을 사용할 수 있습니다.

Spire.PDF for Python를 사용하여 Python에서 PDF를 HTML로 변환하는 일반적인 작업 흐름:

  1. PdfDocument 클래스의 객체를 생성하고 PdfDocument.LoadFromFile(string fileName) 메서드를 사용하여 PDF 문서를 로드합니다.
  2. PdfDocument.ConversionOptions.SetConvertHtmlOptions() 메서드를 사용하여 변환 옵션을 설정합니다.
  3. 문서를 HTML 형식으로 변환하고 PdfDocument.SaveToFile(string fileName, FileFormat.HTML) 메서드를 사용하여 저장합니다.

사용자는 다음을 수행할 수 있습니다 Spire.PDF for Python 다운로드 프로젝트로 가져오거나 PyPI를 사용하여 설치합니다.

pip install Spire.PDF

Python 코드를 사용하여 PDF를 단일 HTML 파일로 변환

이 코드 예제는 변환 옵션을 설정하지 않고 Python을 사용하여 PDF를 HTML로 직접 변환하는 방법을 보여줍니다. 이 경우 LoadFromFile 메서드를 사용하여 PDF 파일을 로드하고 SaveToFile 메서드를 사용하여 HTML 파일로 저장하기만 하면 됩니다. 변환된 HTML 파일은 이미지와 기타 요소가 포함된 단일 HTML 파일이 됩니다.

코드 예:

  • Python
from spire.pdf.common import *
    from spire.pdf import *
    
    # Craete an object of PdfDocument class
    doc = PdfDocument()
    
    # Load a PDF document
    doc.LoadFromFile("G:/Documents/ARCHITECTURE.pdf")
    
    # Convert the document to HTML
    doc.SaveToFile("output/HTML/PDFToHTML.html", FileFormat.HTML)
    doc.Close()

변환 결과:

Converting PDF to HTML with Python Code

Python을 사용하여 이미지가 분리된 PDF를 HTML로 변환

useEmbeddedSvg 매개변수를 False로 설정하면 PDF 문서를 이미지와 CSS 파일이 분리되어 폴더에 저장되는 HTML 파일로 변환할 수 있습니다. 이렇게 하면 변환된 HTML 파일을 추가로 편집하고 이미지에 대한 추가 작업을 수행하는 것이 편리해집니다.

코드 예:

  • Python
from spire.pdf.common import *
    from spire.pdf import *
    
    # Craete an object of PdfDocument class
    doc = PdfDocument()
    
    # Load a PDF document
    doc.LoadFromFile("ARCHITECTURE.pdf")
    
    # Disable embedding SVG
    doc.ConvertOptions.SetPdfToHtmlOptions(False)
    
    # Convert the document to HTML
    doc.SaveToFile("output/HTML/PDFToHTMLWithoutEmbeddingSVG.html", FileFormat.HTML)
    doc.Close()

변환 결과:

Converting PDF to HTML with Python Code

Python을 사용하여 PDF를 여러 HTML 파일로 변환

useEmbeddedSvg가 False로 설정된 전제 조건으로 SetPdfToHtmlOptions 메서드에서는 maxPageOneFile(int) 매개 변수를 사용하여 변환된 각 HTML 파일에 포함된 최대 페이지 수를 결정할 수 있습니다. 이 기능을 사용하면 PDF 문서 분할 변환 과정에서. 예를 들어 매개변수를 1로 설정하면 각 페이지가 별도의 HTML 파일로 변환됩니다.

코드 예:

  • Python
from spire.pdf.common import *
    from spire.pdf import *
    
    # Craete an object of PdfDocument class
    doc = PdfDocument()
    
    # Load a PDF document
    doc.LoadFromFile("ARCHITECTURE.pdf")
    
    # Disable embedding SVG
    doc.ConvertOptions.SetPdfToHtmlOptions(False, False, 1, False)
    
    # Convert the document to HTML
    doc.SaveToFile("output/HTML/PDFToHTMLLimitingPage.html", FileFormat.HTML)
    doc.Close()

변환 결과:

Converting PDF to HTML with Python Code

무료 라이센스 및 기술 지원

Spire.PDF for Python는 기업 및 개인 사용자를 포함한 모든 사용자에게 평가판용 무료 라이센스를 제공합니다 임시 라이센스 신청 PDF 문서를 HTML 파일로 변환하고 사용 제한이나 워터마크를 제거하기 위해 이 Python API를 사용합니다.

이 API를 사용하여 PDF를 HTML로 변환하는 동안 문제가 발생하는 경우 사용자는 다음에서 기술 지원을 요청할 수 있습니다 Spire.PDF 포럼.

결론

이 문서에서는 Python을 사용하여 PDF를 HTML로 변환하는 방법을 설명하고 단일 HTML 파일로 변환, 이미지에서 HTML 파일 분리, 변환 중 PDF 문서 분할 등 다양한 변환 옵션을 제공합니다. Spire.PDF for Python를 사용하면 사용자는 PDF에서 HTML로의 Python 변환에서 간단하고 효율적인 방법에 액세스할 수 있으며 유연한 사용자 정의 옵션을 지원합니다.

또한보십시오