正在进行安全检测...

发布时间:2023-11-18 20:35:08   来源:文档文库   
字号:
西北工业大学硕士学位论文印刷体汉字识别系统的研究与实现姓名:梁涌申请学位级别:硕士专业:计算机软件与理论指导教师:李先国20060301
曲北L业凡学倾j沦支摘要
摘要汉字已有数千年的历史,也是世界上使用人数最多的文宁。然而,汉字是非字母化、非拼音化的文字,闲此,快速高效地将汉字输入计算机,是信息处理的一个关键问题。人工键人劳动强度大,对于大量的已有文档资料,汉字自动识别输入就成为了最佳的选择。它在中文信息处理,办公自动化,机器翻译,人工智能等高科技领域,都有着重要的实用价值和理论意义。本文在研究当前光学字符识别(ocR)系统及相关识别技术的基础上,设计开发了一套印刷体汉字识别系统。主要工作如下:其一,为了解决单个分类器分类效果不理想的情况,本文从分类器集成的角度出发,设计了多个具有特征互补,匹配方法不同的分类器,有效的提高了汉字分类的识别效果。其二,为了提高图像预处理质量,解决二值化过程中全局二值化适应性差,局部二值化速度慢的问题,本文提出了一种基于文字边界轮廓提取的二值化方法。算法首先提取出文本图像的边界轮廓,然后根据已提出的边界轮廓和原图的信息,对轮廓内的空白部分进行填充来完成图像的二值化。实验结果表明,此方法速度明显快于局部二值化方法,二值化效果优于全局法。此外,本文对汉字识别过程中的关键步骤进行了研究,提出了一些新的方法:1)在版面分析中,利用数学形态学方法,采用基于组件的方法来进行版面分析;2)在图像的倾斜校正中,提出了基于最佳特征点的迭代最小二乘法算法;3)在特征提取方面,给出了汉字结构点,连通体,封闭区域,笔划等特征的提取方法。在对笔划撇、捺提取中提出了一种基于方向加权的笔划提取方法。总之,利用以上算法得到的印刷体汉字识别系统的汉字平均识别率达到95%,平均识别速度为6s/每百字。关键词:印刷体汉字识别,分类器集成,二值化,特征提取,版面分析

本文来源:https://www.2haoxitong.net/k/doc/02c717330b4c2e3f572763db.html

《正在进行安全检测....doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式