模糊C-均值聚类算法的优化

发布时间:2023-02-05 01:00:37   来源:文档文库   
字号:
模糊C-均值聚类算法的优化熊拥军;刘卫国;欧鹏杰【摘要】Inthelightoftherandomnessoftheinitialclusteringcenterselectionandthelimitationsofdistancevectorfor-mulaapplicationwiththetraditionalFuzzyC-Meansclusteringalgorithm(FCM,theoptimizedfuzzyC-meanscluster-ingalgorithm(FCMBMDisproposed.Thealgorithmistodeterminetheinitialclustercenterbycomputingthedensityofsamplepoint,soitavoidstheinstabilityofclusteringresultgeneratedrandomlybyinitialclustercenters.Inaddition,italsomeetstherequirementsofdifferentunitsofmeasurementdatausingthesimilarityofMahalanobisdistancecalcula-tionsampleset.TheexperimentalresultshowsthatFCMBMDalgorithmhasbettereffectinclusteringcenter,conver-gencespeed,iterations,accuracy,andsoon.%针对传统模糊C-均值聚类算法(FCM算法)初始聚类中心选择的随机性和距离向量公式应用的局限性,提出一种基于密度和马氏距离优化的模糊C-均值聚类算法(FuzzyC-MeansBasedonMahalanobisandDensityFCMBMD算法)。该算法通过计算样本点的密度来确定初始聚类中心,避免了初始聚类中心随机选取而产生的聚类结果的不稳定;采用马氏距离计算样本集的相似度,以满足不同度量单位数据的要求。实验结果表明,FCMBMD算法在聚类中心、收敛速度、迭代次数以及准确率等方面具有良好的效果。【期刊名称】《计算机工程与应用》【年(,期】2015(000011
【总页数】5(P124-128【关键词】聚类;模糊C-均值;密度函数;马氏距离;基于密度和马氏距离优化的模糊C-均值聚类(FCMBMD算法【作者】熊拥军;刘卫国;欧鹏杰【作者单位】中南大学信息科学与工程学院,长沙410083;中南大学信息科学与工程学院,长沙410083;中南大学信息科学与工程学院,长沙410083【正文语种】【中图分类】TP306.11引言模糊聚类作为无监督机器学习的主要技术之一,采用模糊集理论对数据进行分析和建模,来建立样本类属的不确定性描述,使相似的样本尽可能归为一类,而不相似样本划分到不同的类中。在众多的模糊聚类算法中,模糊C-均值聚类算法FuzzyC-MeansclusteringFCM)应用最为广泛且较成功,在1971年由Bezdek提出,算法的优势在于能够处理大规模数据集,不足之处为聚类结果对初始聚类中心的选择极为敏感,容易陷入局部极小值,而得不到全局最优解,在聚类数比较大的情况下,这一缺点尤为明显。而且传统的模糊C-均值聚类算法的距离度量函数采用的是欧几里德距离函数,会将用户的不同兴趣爱好看作是一样的,这一点不能满足用户的兴趣爱好有差别的要求,且其不能检测超球体[1-2]为了克服FCM算法存在的不足,研究者从不同的角度提出了一系列FCM算法的优化方法。文献[3]提出了模糊C均值聚类算法的改进简称GK聚类算法,该算法采用聚类协方差矩阵的自适应距离度量进行模糊聚类,可以有效地搜索超椭球体的
数据类。但它对初始值的设置非常敏感,初值的设定不当会陷入局部最优解。文献[4]提出了基于减法聚类的GK模糊聚类研究,该算法较好地解决了GK模糊聚类算法容易陷入局部最优解的问题;文献[5]提出将平方余弦函数引入模糊C-均值聚类算法,将传统的FCM算法中的欧式距离改用平方余弦距离公式来代替,使得算法更加符合用户-项目评分矩阵的分类问题。文献[6]根据制造问题中元件与设备之间的特殊对应关系,构建了相应的距离函数公式,来测定零件/设备之间的相似性,效果比原来的欧几里德距离函数好。以上文献考察的重点涉及初始值的敏感度、局部最优、相似距离等,也是本研究需要特别考虑的问题。由于FCM算法的聚类效果对于初始聚类中心的选择以及距离度量函数的要求较高,针对上述两个问题,提出一种将基于密度函数确定初始聚类中心和基于马氏距离的样本相似性计算方法相结合的方式来优化FCM算法,并通过实验分析算法的正确性和有效性。2模糊C-均值聚类算法模糊C均值聚类算法的思想是:先将n个点X={x1x2,…,xn}分成c个模糊类,并求每类的聚类中心,使得目标函数达到最小。目标函数的定义如下[17]式中,U=[uik]为模糊分类矩阵,uik∈[0,1]V=[vi]vi表示第i类聚类中心(i=12,…,cm为加权指数(即模糊指数)。dik=‖xk-vi‖为第i个聚类中心与第k个数据点间的欧几里德距离。J(UV表示各类中样本到聚类中心的加权距离平方和。可以使用公式(2)和公式(3)来计算模糊隶属度uik和聚类中心vi该法的具体步骤如下[8]1)确定类数c,给出初始聚类中心或者先给出隶属度矩阵U(0=(u(0ijU(0每列的元素之和应等于1

本文来源:https://www.2haoxitong.net/k/doc/64eab87928160b4e767f5acfa1c7aa00b52a9dbb.html

《模糊C-均值聚类算法的优化.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式