中文微博自动文摘生成方法

发布时间:2018-03-21 21:23:39   来源:文档文库   
字号:

中文微博自动文摘生成方法
作者:李方馨 李成城
来源:《软件导刊》2016年第05

        摘要:微博已经成为广大用户发布和获取信息的重要渠道之一,微博平台上集聚着大量的用户群体和文本信息资源,如何从大量的微博信息中准确、有效获取微博事件关键内容至关重要。提出一种基于VSMLDA主题模型相结合的方法,对微博文本生成自动文摘。实验结果表明,该方法能够比较准确地抽取微博文本的文摘内容,从而实现用户对实时消息的搜索。

        关键词:LDA主题模型;中文微博;自动文摘;VSM

        DOIDOI10.11907/rjdk.161596

        中图分类号:TP319

        文献标识码:A 文章编号:1672-78002016005-0160-03

        0 引言

        随着互联网的普及和计算机信息技术的高速发展,社交网络平台迅速兴起,并逐渐渗透到社会各用户群体,极大提高了人们交流的频率。如今,微博已经成为广大用户发布和获取信息的重要渠道之一,微博平台上集聚着大量的用户群体和文本信息资源。研究如何从大量微博文本中快速、准确找到他们感兴趣的内容具有重要意义[1]

        1 微博的文本特性

        本文以新浪微博的文本内容作为背景语料进行话题文摘研究,其主要特征有:篇幅短小,信息量小。每条微博输入文本的字符数限定在140个字符以内,微博所表达的信息量有限;数据类型多,包含大量噪声。微博上内容包含文本、图片、视频、表情、网络用语和超链接等,由于用户在平台上的表达以快捷、及时为主,因而文本的精确性不高,包含缩写、不规范词汇、错误词汇等多种噪音数据[2]传播速度快,实时性强。微博文本的更新速度与传播速度很快,一条有价值的消息被公布之后,往往会在很短的时间内被大量转发。

        2 相关工作

        2.1 语料获取及预处理

本文来源:https://www.2haoxitong.net/k/doc/5397595ebfd5b9f3f90f76c66137ee06eff94eba.html

《中文微博自动文摘生成方法.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式