为有中文需求的客户提供多渠道中文技术支持.

Tue Mar 07, 2023 7:53 am

您好,

我在截取文本时,发生文档中 [订单编号] 与实际内容不同的情况
检视了一下文档都是 Identity-H 编码
也都有 CID 字典与 ToUnicode 的对照

想询问一下,这是什么情况
还是只能透过 OCR 辨识了。。。

对照:
kgcshop#102266 -> kgcshop#102299
kgcshop#102295 -> kgcshop#1022 5

希望得到你们的协助,谢谢。

wish98540
 
Posts: 11
Joined: Thu Feb 02, 2023 1:50 am

Tue Mar 07, 2023 10:03 am

您好,

感谢您的留言。
对于您提供的pdf文档,就算通过adobe导出文本,也是会有此问题,如下截图。嗯,是可以考虑通过ocr进行扫描处理,我们目前最新版的Spire.Ocr1.8, 您可以先将pdf转为图片后,再进行扫描文字。您可以先测试一哈。

pdf转图片代码:
Code: Select all
 //Pdf file
            String file = @"..\..\..\..\..\..\Data\ToImage.pdf";

            //Open pdf document
            PdfDocument doc = new PdfDocument();
            doc.LoadFromFile(file);

            //Save to images
            for (int i = 0; i < doc.Pages.Count; i++)
            {
                String fileName = String.Format("ToImage-img-{0}.png", i);
                using (Image image = doc.SaveAsImage(i,300,300))
                {
                    image.Save(fileName, System.Drawing.Imaging.ImageFormat.Png);
                    System.Diagnostics.Process.Start(fileName);
                }
            }

            doc.Close();


Ocr扫描图片代码:
Code: Select all
OcrScanner scanner = new OcrScanner();
            scanner.Scan(@"../../data/222.png");
            File.WriteAllText(@"../../output/output.txt", scanner.Text.ToString());


Sincerely
Abel
E-iceblue support team
User avatar

Abel.He
 
Posts: 1010
Joined: Tue Mar 08, 2022 2:02 am

Return to 中文技术支持