Spire.PDF for .NET 截取文本时, 文本内容与显示的内容不同

Tue Mar 07, 2023 7:53 am

您好，

我在截取文本时，发生文档中 [订单编号] 与实际内容不同的情况
检视了一下文档都是 Identity-H 编码
也都有 CID 字典与 ToUnicode 的对照

想询问一下，这是什么情况
还是只能透过 OCR 辨识了。。。

对照：
kgcshop#102266 -> kgcshop#102299
kgcshop#102295 -> kgcshop#1022 5

希望得到你们的协助，谢谢。

Tue Mar 07, 2023 10:03 am

您好，

感谢您的留言。
对于您提供的pdf文档，就算通过adobe导出文本，也是会有此问题，如下截图。嗯，是可以考虑通过ocr进行扫描处理，我们目前最新版的Spire.Ocr1.8, 您可以先将pdf转为图片后，再进行扫描文字。您可以先测试一哈。

pdf转图片代码：

Code: Select all: //Pdf file String file = @"..\..\..\..\..\..\Data\ToImage.pdf"; //Open pdf document PdfDocument doc = new PdfDocument(); doc.LoadFromFile(file); //Save to images for (int i = 0; i < doc.Pages.Count; i++) { String fileName = String.Format("ToImage-img-{0}.png", i); using (Image image = doc.SaveAsImage(i,300,300)) { image.Save(fileName, System.Drawing.Imaging.ImageFormat.Png); System.Diagnostics.Process.Start(fileName); } } doc.Close();

Ocr扫描图片代码：

Code: Select all: OcrScanner scanner = new OcrScanner(); scanner.Scan(@"../../data/222.png"); File.WriteAllText(@"../../output/output.txt", scanner.Text.ToString());

Sincerely
Abel
E-iceblue support team