词汇语义相似度算法研究及应用

发布时间：2014-06-14 12:10:18 来源：文档文库

小中大

字号：

手机查看

词汇语义相似度算法研究及应用
作者：郭丽　刘磊
来源：《软件导刊》2013年第07期

摘要：介绍了当前国内外有关词汇语义相似度算法的研究现状，分析并对比了几种具有代表性的计算方法，并将几种常用的词汇语义相似度算法应用于FAQ中，分别采用准确率、召回率、F值以及MRR、MAP5个指标进行评价，根据相似问句的检索效果判断各词语相似度算法的优劣。

关键词关键词：语义相似度；FAQ；VSM；HowNet

中图分类号：TP314 文献标识码：A 文章编号文章编号：16727800（2013）007005702

0 引言

词汇的语义相似度在自然语言处理领域有着不可替代的意义和作用。然而词汇之间的语义关系是非常复杂的，使用一个简单的数值很难来度量词汇之间含义的相似程度。同样的一对词语，在一方面看可能非常相似，但是换个角度就可能相差甚远。所以，研究词语语义相似度离不开具体的应用背景，例如，在机器翻译应用中，词汇语义相似度用来衡量中文和英文文本中，中文单词与中文词语之间是否可替换；而在信息检索中，词汇语义相似度要体现用户查询所使用的关键词与用户实际查询目的在语义上是否一致。

1 词语相似度研究现状

词语相似度主要分为基于语义本体资源、基于统计算法和将前两者融合的混合技术3种方法：利用语义资源计算词语相似度也可称为基于本体（或知识库）的词语相似度算法，主要根据专家人工建立的语义网络计算相似度。利用统计技术计算词语间语义相似度采用的是无监督的机器学习算法，分为基于大规模语料库和基于普通词典等方法。混合技术则结合统计技术和语义资源，取长补短，提高相似度计算的正确率。

1.1 基于语义资源的词语相似度算法

近年来，一些诸如同义词词林、WordNet、知网这种大规模可量化的语言本体的诞生与发展，为进行真实文本的语义分析和理解提供了强有力的资源支持。特别是最近几年“知网”等语义资源不断丰富发展，中文语义研究方向逐渐增多。知网作为一个知识系统，是一个网而不是树，它主要反映概念的共性和个性，同时知网还着力反映概念之间和概念属性之间的各种关系。而词语DEF之间的路径距离则代表了词汇语义的聚合程度。

本文来源：https://www.2haoxitong.net/k/doc/71a9b9a80242a8956bece4d3.html