基于机器学习与情感词典的文本主题概括及情感分析

发布时间:2019-11-25 11:49:05   来源:文档文库   
字号:

基于机器学习与情感词典的文本主题概括及情感分析
作者:宋祖康 阎瑞霞 辜丽琼
来源:《软件导刊》2019年第04

         要:作为社交网络重要载体,微博成为信息传播的重要平台,承载着公众情感表达及舆论传播的重要功能。对微博博文及评论作出主题概括及情感分析在网络管控、舆情监测及公众情绪引导方面具有重要的实践意义。提出一种基于机器学习与文本分析的主题概括及情感分析模型。以武汉理工大学研究生坠亡事件为话题,利用Word2vec将文本转化为词向量,并且通过机器学习聚类方法对舆情各个生命周期过程进行主题概括,采用基于词典文本分析方法,对评论文本进行多元情感分析,对表现突出的情感大类作细粒度分析,最终实现基于主题与情感分析的多元细粒度公众情感变化分析模型。该分析模型可在特定舆情事件下得出公众在各阶段的关注中心及情绪变化规律,实现舆情主题与情感变化的协同演化研究。

        关键词:主题概括;Word2vec;K-Means;情感分析

        DOI10. 11907/rjdk. 182107

        中图分类号:TP301 文献标识码:A 文章编号:1672-78002019004-0004-05

        0 引言

        作为社交网络的重要载体,微博以简洁、短小的特点爆发式成长,截至2017年年底,微博已发展至4亿用户。微博的特点在于可以即时分享,信息传播不受时间、空间影响,因此成为热点舆论产生及传播的重要平台。平台上信息传播深度、广度及速度均有惊人潜力,若不能及时对公众情感作出更加准确的分析与把握,可能会使其成为国家与社会不安定的潜在因素,甚至引起极大恐慌。因此,对舆情事件下公众情绪进行细粒度多元情感分析刻画,对于维护社会稳定、消除社会潜在不稳定因素有深远影响与意义。

        1 研究现状

        国内外学者在短文本主题概括与情感分析方面积累了大量有意义的成果。在微博博文主题概括方面,目前常用模型为LDA主题抽取模型,李保利等[1]通过LDA模型自动抽取一个时间间隔里的话题,得到不同话题,然后通过简单的启发式规则找出种子话题,并根据种子话题语义相似度将其进行关联,得到话题演化趋势。然而,由于LDA模型采用的是词袋方法,每篇文档被视作一个词频向量, LDA模型并没有考虑词与词之间的关系,因此会漏掉一些关键特征。近年来,随着机器学习、深度学习的研究不断深入,越来越多的实例证明,基于神经网络模型的Word2vec开源算法在提取微博主题上显著优于LDA主题模型,其中,安璐等[2]通過Word2vec模型对微博主题进行提取,取得了较好结果;薛炜明等[3]使用Word2vec算法,通过大量实验将其与传统词袋模型、经典KNN算法及其改进方法进行效果对比,证明了算法优良性。然而,以上研究大多数关注Word2vec模型应用及中文短文本分词,仍使用传统聚类方法进行中文主题概括,不能有效地对短文本进行分析。因此,本文通过Word2vec工具集将词语转化为词向量,并引入无监督学习下的K-Means均值聚类算法,力求对各个时序阶段的微博博文主题准确抽取。

本文来源:https://www.2haoxitong.net/k/doc/bc25278b6729647d27284b73f242336c1eb93061.html

《基于机器学习与情感词典的文本主题概括及情感分析.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式