中文微博自动文摘生成方法作者:李方馨 李成城来源:《软件导刊》2016年第05期
摘要:微博已经成为广大用户发布和获取信息的重要渠道之一,微博平台上集聚着大量的用户群体和文本信息资源,如何从大量的微博信息中准确、有效获取微博事件关键内容至关重要。提出一种基于VSM和LDA主题模型相结合的方法,对微博文本生成自动文摘。实验结果表明,该方法能够比较准确地抽取微博文本的文摘内容,从而实现用户对实时消息的搜索。
关键词:LDA主题模型;中文微博;自动文摘;VSM
DOIDOI:10.11907/rjdk.161596
中图分类号:TP319
文献标识码:A 文章编号:1672-7800(2016)005-0160-03
0 引言
随着互联网的普及和计算机信息技术的高速发展,社交网络平台迅速兴起,并逐渐渗透到社会各用户群体,极大提高了人们交流的频率。如今,微博已经成为广大用户发布和获取信息的重要渠道之一,微博平台上集聚着大量的用户群体和文本信息资源。研究如何从大量微博文本中快速、准确找到他们感兴趣的内容具有重要意义[1]。
1 微博的文本特性
本文以新浪微博的文本内容作为背景语料进行话题文摘研究,其主要特征有:①篇幅短小,信息量小。每条微博输入文本的字符数限定在140个字符以内,微博所表达的信息量有限;②数据类型多,包含大量噪声。微博上内容包含文本、图片、视频、表情、网络用语和超链接等,由于用户在平台上的表达以快捷、及时为主,因而文本的精确性不高,包含缩写、不规范词汇、错误词汇等多种噪音数据[2];③传播速度快,实时性强。微博文本的更新速度与传播速度很快,一条有价值的消息被公布之后,往往会在很短的时间内被大量转发。
2 相关工作
2.1 语料获取及预处理
本文来源:https://www.2haoxitong.net/k/doc/5397595ebfd5b9f3f90f76c66137ee06eff94eba.html
文档为doc格式