首页 > 微博项目资料整理

微博项目资料整理

发布时间：2023-06-04 09:45:28 来源：文档文库

小中大

字号：

手机查看

利用周末的时间，做了微博相关资料的整理，和大家共同分享（附件：有相关的论文可供参考）。
一、微博内容挖掘
主要技术支撑：文本挖掘技术
相关理论模型topicmodel。
其中包含两个主要的模型：分别为PLSA模型和LDA模型.
1.1PLSA模型
LSA：潜在语义分析
PLSA：概率潜在语义分析
1.引子
Bag-of-Words模型是NLP和IR领域中的一个基本假设。在这个模型中，一个文档(document被表示为一组单词(word/term的无序组合，而忽略了语法或者词序的部分。BOW在传统NLP领域取得了巨大的成功，在计算机视觉领域(ComputerVision也开始崭露头角，但在实际应用过程中，它却有一些不可避免的缺陷，比如：
1.稀疏性(Sparseness:对于大词典，尤其是包括了生僻字的词典，文档稀疏性不可避免；

2.多义词(Polysem:一词多义在文档中是常见的现象，BOW模型只统计单词出现的次数，而忽略了他们之间的区别；
3.同义词(Synonym:同样的，在不同的文档中，或者在相同的文档中，可以有多个单词表示同一个意思；
从同义词和多义词问题我们可以看到，单词也许不是文档的最基本组成元素，在单词与文档之间还有一层隐含的关系，我们称之为主题(Topic。我们在写文章时，首先想到的是文章的主题，然后才根据主题选择合适的单词来表达自己的观点。在BOW模型中引入Topic的因素，成为了大家研究的方向，这就是我们要讲的LatentSemanticAnalysis(LSA和probabilitisticLatentSemanticAnalysis(pLSA，
2.LSA简介
已知一个文档数据集
模型假设，我们可以将数据集表示为一个
及相应的词典
的共生矩阵，
，采用BOW，其中，
表示词典中的第j个单词在第i个文档中出现的次数。
LSA的基本思想就是，将document从稀疏的高维Vocabulary空间映射到一个低维的向量空间，我们称之为隐含语义空间(LatentSemanticSpace.
如何得到这个低维空间呢，和PCA采用特征值分解的思想类似，作者采用了奇异值分解(SingularValueDecomposition的方式来求解LatentSemanticSpace。标准的SVD可以写为：

本文来源：https://www.2haoxitong.net/k/doc/047e4354ad02de80d4d8403d.html