您好,我使用的是通过pip安装的spire.pdf,然后发现,从PDF转换成HTML的时候,有的文档能够正常转换,有的文档在转换的过程中缺了编辑PDF过程中的东西,下面是转换部分的源码:
- Code: Select all
from spire.pdf.common import *
from spire.pdf import *
import os
def converter(filepath,output_dir):
doc = PdfDocument()
doc.LoadFromFile(filepath)
filename = os.path.basename(filepath).split(".")[0]
html_filepath = "{}/HTML/{}.html".format(output_dir,filename)
doc.SaveToFile(html_filepath,FileFormat.HTML)
doc.Close()
return html_filepath
以下是两个不同PDF转换结果的案例:
左侧红色的PDF转换有问题,而右侧的正常,图中红色涂抹部分是用PDF编辑软件做的
希望知道转换问题的原因和解决方案,谢谢