当前位置: 首页 > 编程语言 > C#

如何从pdf图片中查找文字?分享

时间:2023-04-11 03:22:00 C#

如何从pdf图片中查找文字?我正在开发一个C#应用程序,我将PDF文档转换为图像,然后在自定义查看器中呈现该图像。在尝试在生成的图像中搜索特定单词时,我遇到了一些问题,我想知道最好的方法是什么。我应该找到搜索词的x,y位置吗?您可以在控制台模式下使用tessractOCR图像进行文本识别。我不知道这样的pdfSDK。但是,如果你想获得所有单词的坐标和值,你可以使用我的下一个简单代码,感谢nguyenq的hocr提示:publicvoidRecognize(Bitmapbitmap){bitmap.Save("temp.png",ImageFormat.PNG);varstartInfo=newProcessStartInfo("tesseract.exe","temp.pngtemphocr");startInfo.WindowStyle=ProcessWindowStyle.Hidden;varprocess=Process.Start(startInfo);过程.WaitForExit();GetWords(File.ReadAllText("temp.html"));//对单词的进一步操作}publicDictionaryGetWords(stringtesseractHtml){varxml=XDocument.Parse(tesseractHtml);varrectsWords=newDictionary();varocr_words=xml。后代(“跨度”)。在哪里(元素=>元素。属性(“类”)。值==“ocr_word”)。ToList();foreach(varocr_wordinocr_words){varstrs=ocr_word.Attribute("标题").Value.Split('');intleft=int.Parse(strs[1]);inttop=int.Parse(strs[2]);intwidth=int.Parse(strs[3])-left+1;intheight=int.Parse(strs[4])-top+1;rectsWords.Add(newRectangle(left,top,width,height),ocr_word.Value);}返回rectsWords;使用ITextSharp在此处下载确保PDF可搜索。并使用这段代码:以上是C#学习教程:Howtofindtextfrompdfimage?如果分享的内容对你有用,需要进一步了解C#学习教程,希望你多多关注——StringWriteroutput=newStringWriter();for(inti=1;i本文收集自网络,不代表立场,如涉及侵权请点右联系管理员删除,转载请注明出处: