您好,
我在截取文本时,发生文档中 [订单编号] 与实际内容不同的情况
检视了一下文档都是 Identity-H 编码
也都有 CID 字典与 ToUnicode 的对照
想询问一下,这是什么情况
还是只能透过 OCR 辨识了。。。
对照:
kgcshop#102266 -> kgcshop#102299
kgcshop#102295 -> kgcshop#1022 5
希望得到你们的协助,谢谢。
//Pdf file
String file = @"..\..\..\..\..\..\Data\ToImage.pdf";
//Open pdf document
PdfDocument doc = new PdfDocument();
doc.LoadFromFile(file);
//Save to images
for (int i = 0; i < doc.Pages.Count; i++)
{
String fileName = String.Format("ToImage-img-{0}.png", i);
using (Image image = doc.SaveAsImage(i,300,300))
{
image.Save(fileName, System.Drawing.Imaging.ImageFormat.Png);
System.Diagnostics.Process.Start(fileName);
}
}
doc.Close();
OcrScanner scanner = new OcrScanner();
scanner.Scan(@"../../data/222.png");
File.WriteAllText(@"../../output/output.txt", scanner.Text.ToString());