提高Tesseract-ocr识别精度

发布时间:2022-11-29 04:59:58   来源:文档文库   
字号:

提高Tesseract-OCR识别精度的方法
1.0Tesseract-OCR简介
OCROpticalCharacterRecognition光学字符识别)技术,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
TesseractOCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。
数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生--2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于GoogleTesseract进行改进、消除Bug、优化工作。
Tesseract目前已作为开源项目发布在GoogleProject,其最新版本3.0已经支持中OCR
1.1Tesseract-OCR的安装及使用说明
1.Tesseract-OCR的安装过程
下载tesseract-ocr-setup-3.02.02.exe进行安装
(1clicknext



(2
选中IacceptthetermsofLicenseAgreement,点击next

(3
点击next
(4修改路径d:\ProgramFiles\Tesseract-OCR,点击next

本文来源:https://www.2haoxitong.net/k/doc/76034de669eae009581becb4.html

《提高Tesseract-ocr识别精度.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式