微博项目资料整理

发布时间:2023-06-04 09:45:28   来源:文档文库   
字号:

利用周末的时间,做了微博相关资料的整理,和大家共同分享(附件:有相关的论文可供参考)
一、微博内容挖掘
主要技术支撑:文本挖掘技术
相关理论模型topicmodel
其中包含两个主要的模型分别为PLSA模型LDA模型.
1.1PLSA模型
LSA潜在语义分析
PLSA:概率潜在语义分析
1.引子
Bag-of-Words模型是NLPIR领域中的一个基本假设。在这个模型中,一个文档(document被表示为一组单词(word/term的无序组合,而忽略了语法或者词序的部分。BOW在传统NLP领域取得了巨大的成功,在计算机视觉领域(ComputerVision也开始崭露头角,但在实际应用过程中,它却有一些不可避免的缺陷,比如:
1.稀疏性(Sparseness:对于大词典,尤其是包括了生僻字的词典,文档稀疏性不可避免;


2.多义词(Polysem:一词多义在文档中是常见的现象,BOW模型只统计单词出现的次数,而忽略了他们之间的区别;
3.同义词(Synonym:同样的,在不同的文档中,或者在相同的文档中,可以有多个单词表示同一个意思;
从同义词和多义词问题我们可以看到,单词也许不是文档的最基本组成元素,在单词与文档之间还有一层隐含的关系,我们称之为主题(Topic。我们在写文章时,首先想到的是文章的主题,然后才根据主题选择合适的单词来表达自己的观点。在BOW模型中引入Topic的因素,成为了大家研究的方向,这就是我们要讲的LatentSemanticAnalysis(LSAprobabilitisticLatentSemanticAnalysis(pLSA
2.LSA简介
已知一个文档数据集
模型假设,我们可以将数据集表示为一个
及相应的词典
的共生矩阵,
采用BOW,其中,
表示词典中的第j个单词在第i个文档中出现的次数。
LSA的基本思想就是,将document从稀疏的高维Vocabulary空间映射到一个低维的向量空间,我们称之为隐含语义空间(LatentSemanticSpace.
如何得到这个低维空间呢,PCA采用特征值分解的思想类似,作者采用了奇异值分(SingularValueDecomposition的方式来求解LatentSemanticSpace。标准的SVD可以写为:

本文来源:https://www.2haoxitong.net/k/doc/047e4354ad02de80d4d8403d.html

《微博项目资料整理.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式