中文微博自动文摘生成方法

发布时间：2018-03-21 21:23:39 来源：文档文库

小中大

字号：

手机查看

中文微博自动文摘生成方法
作者：李方馨李成城
来源：《软件导刊》2016年第05期

摘要：微博已经成为广大用户发布和获取信息的重要渠道之一，微博平台上集聚着大量的用户群体和文本信息资源，如何从大量的微博信息中准确、有效获取微博事件关键内容至关重要。提出一种基于VSM和LDA主题模型相结合的方法，对微博文本生成自动文摘。实验结果表明，该方法能够比较准确地抽取微博文本的文摘内容，从而实现用户对实时消息的搜索。

关键词：LDA主题模型；中文微博；自动文摘；VSM

DOIDOI：10.11907/rjdk.161596

中图分类号：TP319

文献标识码：A 文章编号：1672-7800（2016）005-0160-03

0 引言

随着互联网的普及和计算机信息技术的高速发展，社交网络平台迅速兴起，并逐渐渗透到社会各用户群体，极大提高了人们交流的频率。如今，微博已经成为广大用户发布和获取信息的重要渠道之一，微博平台上集聚着大量的用户群体和文本信息资源。研究如何从大量微博文本中快速、准确找到他们感兴趣的内容具有重要意义[1]。

1 微博的文本特性

本文以新浪微博的文本内容作为背景语料进行话题文摘研究，其主要特征有：①篇幅短小，信息量小。每条微博输入文本的字符数限定在140个字符以内，微博所表达的信息量有限；②数据类型多，包含大量噪声。微博上内容包含文本、图片、视频、表情、网络用语和超链接等，由于用户在平台上的表达以快捷、及时为主，因而文本的精确性不高，包含缩写、不规范词汇、错误词汇等多种噪音数据[2]；③传播速度快，实时性强。微博文本的更新速度与传播速度很快，一条有价值的消息被公布之后，往往会在很短的时间内被大量转发。

2 相关工作

2.1 语料获取及预处理

本文来源：https://www.2haoxitong.net/k/doc/5397595ebfd5b9f3f90f76c66137ee06eff94eba.html