文档文库
手机版
投诉建议
热门搜索:
心得体会
演讲稿
思想汇报
首页
心得体会
学习心得体会
培训心得体会
军训心得体会
社会实践
作风建设
工作心得体会
教育心得体会
演讲稿
演讲稿格式
演讲稿范文
竞聘演讲稿
师德演讲稿
三分钟演讲稿
思想汇报
思想汇报范文
转正思想汇报
大学生思想汇报
季度思想汇报
教师思想汇报
工作计划
工作计划格式
工作计划开头
工作计划结尾
总结与计划
工作计划模板
工作总结
年终工作总结
年度工作总结
个人工作总结
实习报告
实习报告范文
实习计划范文
实习鉴定范文
实习报告内容
个人简历
求职简历
简历范文
简历模板
简历表格
简历格式
祝福语
春节
除夕
元宵
端午节
合同范文
合同范本
合同样本
合同范本格式
首页
>
中文机构名识别的设计与实现-开题报告
中文机构名识别的设计与实现-开题报告
发布时间:2022-12-04 17:27:38 来源:
文档文库
小
中
大
字号:
手机查看
中文机构名识别的设计与实现
课题背景
随着互联网的大规模普及和社会信息化程度的提高,
文本信息的快速积累使公司、政府
和科研机构在信息处理和使用中面临前所未有的挑战。
一方面
,
互联网和各种信息机构每天
都不断产生大量的有价值的文本数据;
而另一方面
,
因为技术手段的落后,
从这些文本数
据资源中获取需要的信息十分困难。
人们迫切需要研究出方便有效的工具去从大规模文本信
息资源中提取符合需要的简洁、精炼、可理解的知识,
文本挖掘就是为解决这个问题而产
生的研究方向
.
文本挖掘也称为文本数据挖掘或文本知识发现,
它是指从大量文本数据中抽取事先未知
的、可理解的、最终可用的知识的过程
,
同时运用这些知识更好地组织信息以便将来参考。
【
2
】
文本挖掘的主要目的是从非结构化的文本文档中提取有趣的、
重要的模式和知识。
所以它
可以看成是基于数据库的数据挖掘或知识发现的扩展。
但与传统的数据挖掘相比
,
文本挖掘
有其独特之处
,
主要表现在
:
文档本身是半结构化或非结构化的
,
无确定形式并且缺乏机
器可理解的语义;
而数据挖掘的对象以数据库中的结构化数据为主
,
并利用关系表等存储
结构来发现知识
.
直观地说
,
当数据挖掘的对象完全由文本这种数据类型组成时,
这个过程
就称为文本挖掘。
文本挖掘在许多方面具有广泛的应用
,
例如
:
主动信息服务方面、
信息检索
系统方面、专利信息分析方面等等。
选题意义
文本挖掘最基础、
最重要的步骤就是命名实体的识别
,
识别出文本中的人名、
机构名称等。
命名实体识别(
NE
是指识别文本中具有特定意义的实体,主要包括人名、地名、机
构名、专有名词等。
其中机构名称泛指机关、团体或其他企事业单位,包括学校、公司、医院、研究所和政府
机关等的名称。
机构名称是专有名词的一个子集
,
数目也特别庞大
.
与人名地名相比,
机构名
称这类专有名词还很不稳定.随着社会的发展,新机构不断涌现
,
旧机构不断被淘汰、改组
或更名。此外,机构名称的组成还没有国家统一规范,绝大多数未能收入词典【
1
】。这些
事实都说明机构名称的识别与分析是一个很值得研究的问题,
对中文输入、
机器翻译、
人机
对话和文本挖掘的其他的应用等自然语言处理领域都具有相当大的实用价值
.
关于国内外的研究动态
目前英文的命名实体的识别已经达到了较高的水平
,
中文由于一些限制
,
识别命名实体
更加困难。中文命名实体识别的难点主要存在于:
(
1
)中文文本没有类似英文文本中
空格之类的显式标示词的边界标示符,命名实体识别的第一步就是确定词的边界
,
即
分词
;
(
2
中文分词和命名实体识别互相影响;
(3
)除了英语中定义的实体
,
外国人名
译名和地名译名是存在于中文中的两类特殊实体类型;
(4
现代中文文本,尤其是网
络中文文本,常出现中英文交替使用,这时中文命名实体识别的任务还包括识别其中
的英文命名实体;
(
5
)不同的命名实体具有不同的内部特征
,
不可能用一个统一的模
型来刻画所有的实体内部特征。
中文命名实体识别的特点是数量众多和构成规律复杂,其中机构名的识别最为困难
.
机
构名的种类繁多,各有其独特的命名方式,用词相当广泛,只在结尾用词相当集中
.
长度和
边界难以确定使得机构名更难识别。
命名实体识别的主要方法分为:基于规则的方法和基于统计的方法。隐马尔可夫模型
作为一种统计分析模型,是用于命名实体识别的常用方法。其中,隐马尔可夫模型
(
HiddenMarkaModel,HMM
是一种统计模型【
3
】
,自
20
世纪
60
年代被提出后,成功
地应用于语音识别、生物信息、词性标注等领域,具有研究透彻、算法成熟、效率高、效
果好、易于训练的优点。因此,我们将
HMM
应用于机构名识别,可以根据机构名的种类、命
名方式、用词、长度和边界的不同
,
形成不同的隐马尔可夫链或函数集,能达到较好的识
别效果
.
三、
研究目标及内容
(一
系统目标
本系统采用隐马尔科夫模型来实现
,
最终达到识别中文机构名的目标。不仅可以使我们
有效地识别中文机构名
,
还可以提高中文机构名识别的准确性,降低中文机构名识别的复杂
度
,
加深对中文机构名识别的了解和研究。具体要求如下
:
实现股票交易所、国际组织、商业
组织、
公私企业、
电视台或广播台、
政党、
宗教组织、
乐队或音乐组织、
政府实体、
运动队、
军队等各类机构名的识别。
(二)毕业设计内容
1
、理论部分
本系统采用隐马尔科夫模型来实现,通过对机构名的标注来实现机构名的识别。其中,
机构名的标注分为基于分词基础上的机构名标注和不分词的机构名标注两种。
基于分词基础
上的机构名标注是根据词性的不同
,
先将文本进行切分,再进行标注;而不分词标注是将机
构名看成一个整体进行标注。本系统根据在机构名识别中的作用,采用
Viterbi
算法【
4
】
本文来源:
https://www.2haoxitong.net/k/doc/d7ea409ac8aedd3383c4bb4cf7ec4afe05a1b134.html
《中文机构名识别的设计与实现-开题报告.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档
文档为doc格式
分享到:
相
关
案
例
正在进行安全检测...
2024-04-29
安全验证
2024-04-29
正在进行安全检测...
2024-04-29
正在进行安全检测...
2024-04-29
正在进行安全检测...
2024-04-29
安全验证
2024-04-29
正在进行安全检测...
2024-04-29
安全验证
2024-04-29
正在进行安全检测...
2024-04-29
安全验证
2024-04-29
相关推荐
1
1至100序数词
2
假期社会实践
3
养鱼常识
4
远离手机演讲稿(精选5篇)
5
中国古代文学史题库宋代文学
6
十堰专版 智慧课堂密卷 100分单元过关检测二年级上册语文第八单元 十一看图写话13分
7
餐饮配送项目计划书
8
我想变成一只小鸟作文范文350字(通用3篇)
9
何邻泉
10
动漫名称
推荐内容
第九期超级访谈活动策划书
《我很重要》600字读后感五篇
标题的含义及作用(骄阳书屋)
2019四川科技职业技术学院护理专业就业报告
英语文章 大学生英语
关于精简的团员竞选演讲稿
加油站转让合同(标准版)
《朝花夕拾》读书笔记200字
2018年国企员工学习计划与2018年国土局党建工作计划汇编