摘 要: 针对模糊C均值(FCM)算法聚类数需要预先设定的问题,提出了一种新的模糊聚类有效性指标。首先,计算簇中每个属性的方差,给方差较小的属性赋予较大的权值,给方差较大的属性赋予较小的权值,得到一种基于属性加权的FCM算法;然后,根据FCM改进算法得到的隶属度矩阵计算类内紧致性和类间分离性;最后,利用类内紧致性和类间分离性定义一个新的聚类有效性指标。实验结果表明,该指标可以找到符合数据自然分布的类的数目。基于属性加权的FCM算法可以识别不同属性的重要程度,增加聚类结果的准确率,使用FCM改进算法得到的隶属度矩阵定义的有效性指标,能够发现正确的聚类个数,实现聚类无监督的学习过程。
关键词: 模糊聚类;模糊C均值算法;有效性指标;最佳聚类数
0 引言
聚类分析[1-3]是一种无监督的分类过程。研究聚类问题的一个最基本问题是发现符合数据真实分布的聚类个数。借助模糊C均值算法[4-5],定义有效性指标,发现数据集的内在结构成为研究热点。由于数据类型和数据结构的多样性,导致没有通用的有效性指标。
针对FCM算法在聚类过程中未考虑样本各维属性对聚类贡献不同的问题,使用自适应的方法计算簇中每个属性的权值,得到一种基于属性加权的FCM算法。充分考虑数据集的几何结构,使用改进FCM算法得到的隶属度矩阵,计算类内紧致性和类间分离性,定义新的聚类有效性指标,发现符合数据真实分布的聚类个数。
1 一种新的模糊聚类有效性指标
1.1 一种基于属性加权的FCM算法
聚类过程中为了使FCM算法能够区分不同属性的重要作用,使用自适应的方法计算簇中每个属性的权值。给簇内方差较小的属性赋予较大的权值,给簇内方差较大的属性赋予较小的权值,得到同一属性在不同簇中具有不同权值的FCM算法。根据权值的大小识别属性的重要性,增加聚类结果的准确率。
改进算法通过最小化目标函数J′m实现:
1.2 紧致性和分离性
类内数据的紧致性和类间数据的分离性是衡量FCM聚类结果有效性的重要标准和基本条件[6-7]。基于属性加权的FCM算法,定义类内数据的紧致性为:
其中,表示样本xi属于簇p和簇q的隶属度的差值。簇间的分离性越大,Sep(c)的值越大。
对类内数据紧致性和类间数据分离性进行归一化,得到如下公式:
聚类质量越好,fc的值越小。因此,可以通过计算fc的最小值,发现符合数据分布的聚类个数。
2 仿真实验及结果
为了证明本文算法的有效性,进行真实数据的测试。取模糊因子m=2,最大聚类个数为10。
真实数据使用UCI中的Iris数据集、BUPA数据集和WDBC数据集。在数据集上运行基于属性加权的FCM算法,使用本文提出的聚类有效性指标进行聚类分析。3个数据集上有效性指标与聚类个数之间的变化关系如图1所示。多个有效性指标确定3个数据集的最佳聚类数,比较结果如表1所示。
由图1可知,3个数据集上有效性指标fc的最小值分别对应数据集的真实聚类个数。由表1可知,有效性指标fc和PBMF可以同时发现3个数据集的真实聚类个数。XB指标仅能发现WDBC数据集的真实聚类个数,SC指标不能发现BUPA数据集的真实聚类个数,FHV仅能发现Iris数据集的真实聚类个数,CWB指标发现的聚类个数与3个数据集的真实聚类个数均有偏差。由此证明有效性指标fc是有效的,且优于多个现有的有效性指标。
3 结论
为了使FCM算法在聚类过程中能够识别不同属性对聚类贡献的大小,使用自适应的方法计算簇中每个属性的权值,给簇内方差较小的属性赋予较大的权值,给簇内方差较大的属性赋予较小的权值,得到每个属性在不同簇中具有不同权值的FCM算法。利用改进FCM算法得到的隶属度矩阵计算类内数据的紧致性和类间数据的分离性,定义聚类有效性指标,自动获得最佳聚类数,实现聚类无监督的学习过程。通过实验证明了该指标的有效性和可行性。
参考文献
[1] Su Tieming, Ye Sanpai, Sun Wei, et al. Compensation model for thermal error of machining center based on gray-fuzzy clustering and LS-SVM[J]. Journal of Shenyang University of Technology,2011,33(5):524-530.
[2] 向培素.近邻半监督聚类算法的MATLAB实现[J].数学技术与应用,2012(8):100-101.
[3] Yu Haitao, Li Zi, Yao Nianmin. Research on optimization method for K-Means clustering algorithm[J]. Journal of Chinese Computer Systems, 2012,33(10):2273-2277.
[4] 王亮,王士同.动态权值混合C-均值模糊核聚类算法[J].软件学报,2011,28(8):2852-2855.
[5] 杨草原,刘大有,杨博,等.聚类集成方法研究[J].计算机科学,2011,38(2):166-170.
[6] KANNAN S R, RAMATHILAGAM S, DEVI R, et al. Robust kernel FCM in segmentation of breast medical images[J]. Expert System with Applications, 2011,38(4):4382-4389.
[7] ZALIK K R, ZALIK B. Validity index for clusters of different sizes and densities[J]. Pattern Recognition Letters, 2011,32(2):221-234.