핍으로 설치
pip install Spire.PDF
관련된 링크들
PDF 파일은 문서 공유 및 배포에 널리 사용되는 선택이지만 PDF 콘텐츠를 추출하고 용도를 변경하는 것은 상당히 어려울 수 있습니다. 다행스럽게도, Python을 사용하여 PDF 파일을 HTML로 변환 PDF 정보 검색 및 용도 변경을 위한 탁월한 솔루션을 제공하여 접근성, 검색 가능성 및 적응성을 향상시킵니다. 또한 HTML 형식을 사용하면 검색 엔진이 콘텐츠를 색인화할 수 있으므로 웹에서 검색될 가능성이 높아집니다. 게다가 Python의 유연성과 사용 편의성 덕분에 초보자와 숙련된 개발자 모두 사용할 수 있습니다 PDF를 HTML로 변환하는 Python 쉽고 효율적으로.
이 기사에서는 Python 프로그램에서 PDF를 HTML로 변환하는 방법에 중점을 둡니다. 주로 다음과 같은 주제가 포함됩니다.
- Python을 사용하여 PDF를 HTML로 변환 개요
- Python 코드를 사용하여 PDF를 단일 HTML 파일로 변환
- Python을 사용하여 이미지가 분리된 PDF를 HTML로 변환
- Python을 사용하여 PDF를 여러 HTML 파일로 변환
- 무료 라이센스 및 기술 지원
Python을 사용하여 PDF를 HTML로 변환 개요
Python의 광범위한 API는 다양한 PDF 문서 처리 작업에 편의성을 제공합니다. Spire.PDF for Python는 변환, 편집 및 변환을 포함하여 PDF 문서에 대한 다양한 작업을 수행할 수 있는 강력한 API 중 하나입니다.PDF 문서 병합. 또한 이 API를 사용하면 Python을 사용하여 PDF를 HTML로 쉽게 변환할 수 있습니다.
Spire.PDF for Python 에서 PdfDocument 클래스는 PDF 문서를 나타냅니다. 이 클래스 아래의 LoadFromFile() 메서드를 사용하여 PDF 파일을 로드하고 문서를 HTML과 같은 다른 형식으로 저장하여 PDF에서 HTML로 간단하게 변환할 수 있습니다.
또한 이 API는 PdfDocument.ConversionOptions 속성 아래에 SetConvertHtmlOptions() 메서드를 제공하여 변환 중에 이미지 포함 옵션을 설정합니다. 다음은 최대 페이지 수, SVG 포함 옵션, 이미지 포함 옵션 및 SVG 품질 옵션을 설정하기 위해 이 메소드에 전달할 수 있는 매개변수입니다.
- useEmbeddedSvg(bool): True로 설정하면 변환된 HTML 파일에 SVG를 포함할 수 있습니다. 결과 HTML 파일에는 이미지를 포함한 PDF 문서의 모든 요소가 단일 HTML 파일에 포함됩니다.
- useEmbeddedImg(bool): True로 설정하면 변환된 HTML 파일에 이미지를 포함할 수 있습니다. 이 매개변수는 useEmbeddedSvg가 False로 설정된 경우에만 작동합니다.
- maxPageOneFile (int): 단일 HTML 파일에 포함할 최대 페이지 수를 설정합니다. PDF에 지정된 수보다 많은 페이지가 있는 경우 각각 페이지의 하위 집합을 포함하는 여러 HTML 파일이 생성됩니다.
- useHighQualityEmbeddedSvg(bool): True로 설정하면 HTML 변환 프로세스에서 포함된 SVG 이미지의 고품질 버전을 사용할 수 있습니다.
Spire.PDF for Python를 사용하여 Python에서 PDF를 HTML로 변환하는 일반적인 작업 흐름:
- PdfDocument 클래스의 객체를 생성하고 PdfDocument.LoadFromFile(string fileName) 메서드를 사용하여 PDF 문서를 로드합니다.
- PdfDocument.ConversionOptions.SetConvertHtmlOptions() 메서드를 사용하여 변환 옵션을 설정합니다.
- 문서를 HTML 형식으로 변환하고 PdfDocument.SaveToFile(string fileName, FileFormat.HTML) 메서드를 사용하여 저장합니다.
사용자는 다음을 수행할 수 있습니다 Spire.PDF for Python 다운로드 프로젝트로 가져오거나 PyPI를 사용하여 설치합니다.
pip install Spire.PDF
Python 코드를 사용하여 PDF를 단일 HTML 파일로 변환
이 코드 예제는 변환 옵션을 설정하지 않고 Python을 사용하여 PDF를 HTML로 직접 변환하는 방법을 보여줍니다. 이 경우 LoadFromFile 메서드를 사용하여 PDF 파일을 로드하고 SaveToFile 메서드를 사용하여 HTML 파일로 저장하기만 하면 됩니다. 변환된 HTML 파일은 이미지와 기타 요소가 포함된 단일 HTML 파일이 됩니다.
코드 예:
- Python
from spire.pdf.common import * from spire.pdf import * # Craete an object of PdfDocument class doc = PdfDocument() # Load a PDF document doc.LoadFromFile("G:/Documents/ARCHITECTURE.pdf") # Convert the document to HTML doc.SaveToFile("output/HTML/PDFToHTML.html", FileFormat.HTML) doc.Close()
변환 결과:
Python을 사용하여 이미지가 분리된 PDF를 HTML로 변환
useEmbeddedSvg 매개변수를 False로 설정하면 PDF 문서를 이미지와 CSS 파일이 분리되어 폴더에 저장되는 HTML 파일로 변환할 수 있습니다. 이렇게 하면 변환된 HTML 파일을 추가로 편집하고 이미지에 대한 추가 작업을 수행하는 것이 편리해집니다.
코드 예:
- Python
from spire.pdf.common import * from spire.pdf import * # Craete an object of PdfDocument class doc = PdfDocument() # Load a PDF document doc.LoadFromFile("ARCHITECTURE.pdf") # Disable embedding SVG doc.ConvertOptions.SetPdfToHtmlOptions(False) # Convert the document to HTML doc.SaveToFile("output/HTML/PDFToHTMLWithoutEmbeddingSVG.html", FileFormat.HTML) doc.Close()
변환 결과:
Python을 사용하여 PDF를 여러 HTML 파일로 변환
useEmbeddedSvg가 False로 설정된 전제 조건으로 SetPdfToHtmlOptions 메서드에서는 maxPageOneFile(int) 매개 변수를 사용하여 변환된 각 HTML 파일에 포함된 최대 페이지 수를 결정할 수 있습니다. 이 기능을 사용하면 PDF 문서 분할 변환 과정에서. 예를 들어 매개변수를 1로 설정하면 각 페이지가 별도의 HTML 파일로 변환됩니다.
코드 예:
- Python
from spire.pdf.common import * from spire.pdf import * # Craete an object of PdfDocument class doc = PdfDocument() # Load a PDF document doc.LoadFromFile("ARCHITECTURE.pdf") # Disable embedding SVG doc.ConvertOptions.SetPdfToHtmlOptions(False, False, 1, False) # Convert the document to HTML doc.SaveToFile("output/HTML/PDFToHTMLLimitingPage.html", FileFormat.HTML) doc.Close()
변환 결과:
무료 라이센스 및 기술 지원
Spire.PDF for Python는 기업 및 개인 사용자를 포함한 모든 사용자에게 평가판용 무료 라이센스를 제공합니다 임시 라이센스 신청 PDF 문서를 HTML 파일로 변환하고 사용 제한이나 워터마크를 제거하기 위해 이 Python API를 사용합니다.
이 API를 사용하여 PDF를 HTML로 변환하는 동안 문제가 발생하는 경우 사용자는 다음에서 기술 지원을 요청할 수 있습니다 Spire.PDF 포럼.
결론
이 문서에서는 Python을 사용하여 PDF를 HTML로 변환하는 방법을 설명하고 단일 HTML 파일로 변환, 이미지에서 HTML 파일 분리, 변환 중 PDF 문서 분할 등 다양한 변환 옵션을 제공합니다. Spire.PDF for Python를 사용하면 사용자는 PDF에서 HTML로의 Python 변환에서 간단하고 효율적인 방법에 액세스할 수 있으며 유연한 사용자 정의 옵션을 지원합니다.