您好,欢迎来到小侦探旅游网。
搜索
您的当前位置:首页基于簇间相似度判定的自适应K均值算法

基于簇间相似度判定的自适应K均值算法

来源:小侦探旅游网
2270 2010。31(10) ・人工智能。 计算机工程与设计ComputerEngineeringandDesign 基于簇问相似度判定的自适应K均值算法 陈 杰, 朱 娟 (华南理工大学计算机科学与工程学院,广东广州510006) 摘要:针对传统K.均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的 缺陷,定义了簇间相似度度量对传统K.均值聚类进行改进。新算法可以在事先不确定K值的情况下,根据欧氏距离选取初 始质心并按照K均值算法聚类,然后过滤噪声样本并确定簇半径,计算簇间相似度并合并相似簇确定数据集的类别数并得 到较优的聚类结果。通过在UCI数据集的实验结果表明,新算法能准确确定类别数并有高于传统K均值算法聚类精度。 关键词:半聚类;K均值算法;基本簇;簇间相似度;簇合并 中图法分类号:TP18 文献标识码:A 文章编号:1000—7024(2010)10-2270.03 Self-adaptive K—means algorithm based on determination of similarity between clusters CHEN Jie.ZHUJuan (Department of Computer Science and Engineering,South China University of Technology,Guangzhou 5 1 0006,China) Abstract:The traditional K.means clustering algorithm has two drawbacks.One is that the number ofclusters must be known in advance and the other is that the clustering result is sensitive to the selection of initial cluster centroids and this may make the algorithm converge to the local optima.An improved K-means based on the definition ofa similarity measure between clusters is brought forward.Although the value ofK is unknown,the new algorithm Can determine the number ofclasses nd asupply a pretty good clustering result through the following steps:Select the initial center ofmass,K—means clustering,filtering noising sample and calculate the similarity matrix between clusters nd ameNe the similar clusters.The experimental results on UCI data sets show that the new method could accurately determine the number of classes and get a better clustering accuracy. Key words:clustering;K—means;basic cluster;similarity between clusters;cluster meNer 0引 言 K均值算法属于聚类技术中一种基本的划分方法。其基 本思想是选取K个数据对象作为初始聚类中心,通过迭代把 数据对象划分到不同的簇中,使簇内部对象之间的相似度很 大,而簇之间对象的相似度很小。K均值算法由于实现简单 多于数据集实际类别的较小的基本簇;在第二阶段,根据任意 两个簇在空间上的重叠程度定义簇间相似度,将相似度较高 的簇合并,最终得到与实际类别相吻合的聚类结果。通过在 UCI数据集上多次实验,对结果进行统计,新的算法通过与传 统K均值算法对比,类别数基本一致,并且聚类较为稳定。 收敛快速,出现以来,已经提出了许多改进算法或新算法。文 献【l】提出了一种关于K均值的局部搜索近似算法;文献[2】针 对初始中心敏感提出了一种选取初始聚类中心的算法;文献 [3]对K均值算法的4种初始化方法:rndom、aForgy、MacQueen 和Kaufman进行了有效性和健壮性方面的比较。 1传统K均值算法描述 K均值聚类算法是根据欧氏距离把空间中数中N个样本 划分成K个簇,K为希望得到的类数,需预先指定。设数据集 X={x,Ix。∈R,i=1,2,3,…,n}为在聚类空间中的点。聚类目标 是得到式(1)最小值,其中,K为指定的簇个数,dim是空间维 度,nk表示第k个簇中包含的样本数,其含义是每个样本到其 所在簇质心的欧氏距离之和。 K m dkra 但是传统K.Means算法及其大部分改进算法都具有在聚 类划分之前要先确定聚类数目K,并且易陷入局部极值的缺 点。正是因为此原因,关于K.Means的研究,主要是对于某一 数据集,如何得到最佳的聚类划分数目,以及最佳的初始质心 集。本文提出了一种不需要事先确定K值并且能够得到稳定 ,=∑∑∑( 一 ) ^=1“ I J=1 (1) 算法1 K均值算法 输入:数据集X={xlIx,∈R,i=1,2,3,…,n}、聚类数目K。 输出:满足目标J函数最小的K个类。 高准确率的新算法。算法分为形成基本簇和合并相似度簇两 个阶段。在第一阶段,根据数据集的紧致程度,将数据划分成 收稿日期:2009.06.26;修订日期:2009.08—28。 作者简介:陈杰(1986一),男,湖南娄底人,硕士研究生,研究方向为软件开发环境和系统集成、图像处理; 朱娟(1957一),女,上海人,副 教授,硕士生导师,研究方向为软件开发环境和系统集成、图像处理。E—mail:stephenku@yeah.net 陈杰,朱娟:基于簇间相似度判定的自适应K均值算法 步骤: 2010,31(10) 2271 据集真实的类别数,需通过合并相似度高的簇逐步趋近于数 据集实际分类。 由于不同簇包含的样本数量不同,在空间中所铺展的范 围不同,用两个簇的质心距离或者最接近的样本的距离来度 量两个簇的相似度都是不准确的。本文中采用两个簇的范围 包含对方数据的百分比表征相似度。簇的范围其实就是在欧 氏空间中的半径,这是因为K均值的聚类结果通常在空间中 呈现为球状,即在各个维度上,距离质心的最大值非常接近。 (1)从数据集中随机选择K个样本,分别作为K个簇的质心。 (2)计算每个样本与K个簇的质心的欧氏距离,将其划分 到距离质心最近的簇中。 (3)针对每一个簇,计算其所有对象在各个维度上的平均 值,作为该类的新的质心。 (4)重新计算 若 没有变化则算法介绍否则返回(2)循环。 K均值算法简单而且快速,具有比较直观的几何意义,但 是该算法是一种局部搜索的聚类算法,算法的结果取决于该 过程的起始状态,也就是初始类中心点的选择,而且算法只能 如图1所示,三角形和圆形分别表示不同不同簇中的样本。 保证收敛到不动点,不保证收敛到目标函数的极小值点,并且 必须事先确定K值,在应用于实际问题时具有一定的局限性。 2根据欧氏距离形成基本簇 在实际问题中,我们常常事先不能确定需要聚类的数据 集合实际包含的簇的个数。然而,聚类的根本目标是把属性 上相似度数据划分到一个簇中,这体现在欧氏空间中就是同 一个簇中位置尽量相近而不同簇中尽量远离的原则。簇的数 目K虽然事先不能确定,但可以保守的把足够近的数据归并 到一起,形成较多的基本簇,同时要确保形成的基本簇多于数 据集实际包含的簇的数目,然后根据簇间相似度度量合并相 似度较高的簇,使得最终的聚类结果与实际的类别一致。在 形成基本簇的过程中,采用改进K均值算法,使其根据数据集 在空间中的分布情况自适应的划分簇。算法具体描述如下: 算法2形成基本簇 输入:数据集X={x Ix ∈R,i:1,2,3,…,n)和度量两个数 据不同类系数 。 输出:输出.i}个初始簇C。,c2,…,G。 步骤: (1)随机选择一个选择一个样本Xt,作为第一个簇的质心Cl; (2)对于所有样本xI(i=1,2,…,n),找到距离)【i最近的质心cj: 1)若Xi到质心cj距离小于距离阈值dmin,则将其划入簇cj, 并计算簇中所有样本在各个维度上的平均值作为新质心的值; 2)若X 到质心Cj距离大于距离阈dmin,则把)【i作为一个 新的质心添加到质心集中;其中dmin按照式(2)计算。 dim H +∑∑∑ 一 ) 业n*(n -厂一l1  (… 2) 式中: ——可调系数,dim——数据集维度,n——数据集样本 数量,式(2)含义为所有样本之间距离的平均值与系数的乘积。 (3)对于(2)中产生的K个簇的质心clI c2,…,Ck,按照K均 值算法(算法(1))聚类得K个簇。 上述算法中, 是非常重要的参数。对于较大的 ,算法度 较快快但是产生的簇较少,可能不能发现数据集中所有的类; 对于较小的 ,算法速度慢但是能够聚类的粒度较小,能够发 现所有的类,通过合并相似度较高的簇后确定数据集中真实 的类别数的准确率较高。实际应用中,可以根据问题规模以 及领域知识对 赋值。 3根据簇相似度进行簇合并 通过控制系数 ,算法2产生的初始簇的数量通常多于数 图1二维空间上簇相似度 然而,在海量数据集中很可能存在一些离群点,如图1中 点A,用离群点表征簇半径显然是不准确的,因此计算簇半径 之前必须过滤掉离群点。离群点的定义要结合所在簇Cj紧致 程度,如下定义: 定义1离群点 对于簇cj中任意一个点X。(Xi∈cj),距离质心cj距离大于 式(3)的定义为离群点。 a+∑∑ 一 ) 生——一 (3) 码 式中:Ilj——簇Ci中包含的样本个数,dim——空间维度通常取 值为10。 定义2簇半径 对于一个簇Ci,距离质心最远的非离群点为簇Ct的边缘 点,边缘点到质心的距离定义为簇C 半径R。 定义3簇相似度 对于簇C 与Cj,定义其相似度为式(4)。 im-丝 (4) ni.-t-nj 式中:n。, ——簇C cj中样本个数;“ __℃,中样本距离Cj质心 小于Cj半径的个数,nj。代表ci中样本距离C。质心小于C。半径 的个数,即相似度是两个簇中相交数据占所有数据百分比。 4白适应K均值算法描述 根据上述分析,提出自适应K均值算法——sAK-means。 算法3 SAK-means 输入:数据集X={x Ix。∈R,i=1,2,3,…,n), ,a(分别为式 (2)(3)中系数), 相似度闽值,0< 1)。 输出:聚类结果。 步骤: (1)按照算法(1)计算得出K个基本簇; (2)计算每个簇的半径 ,按照式(4)计算簇的相似度矩阵 S,S 表示簇C Cj的相似度; 2272 2010。3 1(10) 计算机工程与设计Computer Engineering and Design (3)若簇S 的值大于阈值s,则合并簇C。与G; (4)重新计算合并后的簇质心以及簇半径,并相应修改簇 的相似度矩阵; < --窖;5。: 250 200 (5)若相似度矩阵中所有值都小于s,算法结束,否则转(3)。 藿高 龄 50 0 5实验结果及分析 5.1实验数据及实验环境 实验采用多个UCI数据集进行了验证。本研究的所有实 验在采用Intel奔腾D2.8G CPU、内存为2G的计算机上进行, 取值 图2不同九值下在Balancescale数据集上形成初始簇的个数 算法用C++编程实现,采用实验数据集信息如表1所示。 表1实验所采用得数据集合信息 数据集 Wlne mS Spectfheart Balancescale housing ionosphere Pimaindians waveform 致 类别数 3 3 73 5 3 2 2 3 样本数 178 150 267 625 506 351 768 5000 维数 13 4 45 4 13 34 8 40 8 取值 图3 不同九值下在Balancescale数据集上形成初始簇的时间 数较大时,比如Spectfheart,形成的簇个数与实际略有差别,但 是聚类准确与K—means相比不会差很多。由于在初始质心选 取阶段,利用算法1通过调整较小的 值可以找到多个空间位 置非常接近的初始簇,再通过合并相似簇可以有效避免陷入 免局部最优,新的算法聚类结果较为稳定,而传统K均值算法 由于初始质心敏感导致聚类结果不稳定,最差聚类结果远远 低于稳定的SAK-means。 图2和图3分别显示了不同 值在Balncesacale数据集上 5.2实验方案 采用SAK.means与传统K-means算法在相同数据集和上 分别运行聚类算法1O次,并计算平均聚类准备率和最差的一 次准确率。对于SAK.means,设置多组 值不同的每种算法运 行1O次,计算形成初始簇的平均数目以及平均时间。 形成初始簇个数和时间,可以看出,对于较大的 ,算法度较快 快但是产生的簇较少,可能不能发现数据集中所有的类;对于 较小的 ,算法速度慢但是能够聚类的粒度较小,能够发现所 有的类,通过合并相似度较高的簇后确定数据集中真实的类 别数的准确率较高。 5.3实验结果汇总 表2为SAK—means与传统K—means算法在多个数据集上 聚类准确率的比较。表中列出了聚类准确率以及在SAK-means 算法在不确定K值情况下,自适应形成簇的个数与实际类别 的比较,其中形成的簇的平均个数是指,对于每个数据集运行 算法十次,统计每次的形成簇的个数并计算与实际类别数差 值的平均值。其中图2、图3为同一数据集当朋又不同值时,形 成的初始簇的个数和时间。 6结束语 针对传统K均值算法必须指定K具体值的约束,本文提 出了一种通过合并相似簇自适应确定K值的新算法SAK- means。新算法通过形成基本簇和合并相似簇两阶段实现。提 出了新的相似度定义,提高了聚类的准确率。然而对于不同 的问题背景如何设置 值,以实现确保聚类准确率基础上算法 效率最高,以及对于类别较多的数据集如何减少算法生成的 簇与实际类别的差值,还需要进一步研究。 5.4实验结果分析 由表2可以看出,SAK—means算法在多个UCI数据集上 聚类所得到的簇的个数,对于类别数目较少的数据集,与实际 完全一致,最大差值均为0,说明结果比较稳定,当数据集类别 表2两种不同算法在相同数据集合的聚类结果比较 数据集 实际类别数 3 lnS 3 形成的簇的平均 个数偏差 0 0 最大偏差 0 O SAK-means算法聚类准确率 平均准确率 61.0% 88.1% K.means聚类算法准确率 平均准确率 59_3% 87.7% 最差准确率 58.2% 86.8% 最差准确率 54.5% 83.1% Balancescale housing ionosphere 5 3 2 0 0 O O O 0 41.9% 50-3% 73.4% 40.1% 47.3% 71.7% 37.9% 50.5% 69-3% 33.4% 45.7% 66.8% Pimaindians waveform 2 3 0 3 0 0 67.6% 49.8% 65.4% 46.4% 65.8% 48.1% 61-3% 43.4% Spectfheart 73 2_3 4 31.4% 29.6% 33.80% 25.40% (下转第2375页) 郭超:决策树方法在提高电脱盐效果中的应用 以没有进行考虑,以免过度分类。但为了进一步了解破乳剂 浓度对脱盐率的影响,现单独考虑破乳剂浓度,用它的值作为 分类条件进行分类,结果如图4所示。 生产时问 2010,3 1(10) 表3比较结果 调整前 2375 调整后 (2008年) 平均脱除率% 1月I 2月 71.5 l 84.21 3月 4月 5月 6月 95.45 95-26 98.72 99.89 方法分析了影响电脱盐效果的主要因素和提高电脱盐效果的 方法,可将测量数据中的优类比例明显提高,为改进电脱盐装 l0002:80. HIGH: 33%l  0001:L0W.80:1 67% l lNin node: 72 I l0002:80一 HIGH: 54%l  0001:LOW-80:l 46%f  lNin node:41 l 置的操作提出了一种可行性方案,最后的结果经过分析与实 践,证明了该种方法的有效性,对生产具有一定的指导作用。 今后,为了进一步保证电脱盐的效果,要充分的利用生产数据 进行深入的实验,更准确的找到各影响因素之间的关系,并明 显的表示出来。 图4基于破乳剂浓度的分类结果 原样本中的优类所占比例为41%,而脱盐剂浓度、电压 1、加工量和脱盐温度值的改变对脱盐率影响较大,根据以上 的分类结果得到的决策树的分类规则,总结出提高电脱盐效 果的方案如下: 参考文献 【1】 侯侠,王静.影响电脱盐装嚣脱盐效率的因素分析及改进意见 [J】.石油化工应用,2006(4):37.40. (1)将脱盐剂浓度控制在30PPM以下,可使优类比例提高 到5O%以上: (2)破乳剂浓度应适当增加,比如高于28PPM,可使优类 比例有所提高; (3)增加脱盐温度是有利的,比如控制在125.5"C以上,可 将优类比例提高到45%以上; (4)加工量高于8900ffd时,可使优类比例达到45%。但 是在脱盐剂浓度低于30PPM且电压1低于300V的情况下,需 [2】 吴宴宾,侯志孝,王益民.提高电脱盐效果的措施【J]_石油化工腐 蚀与防护,2006,23(5):60—61. [3】 郭丹,王德会.电脱盐操作条件的优化[J].炼油技术与工程,2003 (1 1):35—37. [4] 张银奎,廖丽,宋俊,等.数据挖掘原理[M】.北京:机械工业出版 社,2003:93-105. [5]Huang Sun-jen,Lin Chieh・Yi,Chiu Nan—Hsing.Fuzzy decision tree approach for embedding risk assessment information into 要降低加工量到8600t/d以下,可使优类比例达到60%; (5)在脱盐剂浓度高于30PPM的情况下,将电压1控制在 不高于300V,可使优类比例提高到45%,反之,将电压1调整 到高于320V,可使优类比例提高到65%以上。 可见,适当改变5个主要影响因素的值可以使优类样本 比例达到半数以上。 根据以上得到的提高电脱盐效果的方案并考虑工厂生产 software cost estimation model[J].Journal of Information Scie. nee nd aEngineering.2006(22):297—3 l3. [5 罗印升,5]李人厚,梅时春.复杂工业过程中数据挖掘模型研究[J]. 信息与控制,2003,32(1):32.35. [6 吉旭,6]李忠明,朱立嘉.数据挖掘技术在共混材料制备的工艺研 中的实际操作情况,将此方案应用到后期的生产过程中,指导 生产操作并与前期的脱盐率相比较,以证明此方案的有效性。 根据分类规则调整工艺参数后,发现后期的脱盐率较之 从前有所上升,比较结果如表3所示。 究中的应用[J].高分子材料与工程,2004,20(3):29.32. [7】 朱群雄,麻德贤.过程工业中数据挖掘技术的应用[J].计算机与 应用化学,2004,21(1):107.11O. [8】 姚家奕,姜海,王秦.决策树算法的系统实现和修建优化[J].计算 机工程与设计,2002,23(8):75.77. [9】 陶灵姣,孙继银,李智,等.远程教育考试成绩分析决策树的构造 方法[J】.计算机工程与设计,2006,27(6):976.978. 3结束语 根据电脱盐装置测量数据,利用数据挖掘技术的决策树 (上接第2272页) 参考文献: 【1】KanungoT,MountDM.Alocal search app roximafionMgofithmfor [4] Jiawei Han,Michelnie Kamber.数据挖掘概念与技术[M].范明, 孟小峰,译.北京:机械工业出版社,2007. [5] 严宇平,肖菁.基于可变染色体长度的遗传K均值算法[J].计算 机工程与设计,2008,29(14):65.67. [6】 周涓,熊忠阳,张玉芳,等.基于最大最小距离法的多中心聚类算 法[J].计算机应用,2006,26(6):26—29. k-means clustering[J].Computational Geomelry,2004,28(2/3):89-1 12. 【2] Bradley P S,Fayyad U M.Refming initial points for k-means clustering[C].Proceedings ofthe 15th International Conference on Machine Learning,2006:91—99. [7】 姜园,张朝阳.用于数据挖掘的聚类算法[J]_电子与信息学报, 2005,21:39-42. 【3】Pesa J M,Lozano J A,Larrasaga EAn empirical comparison of ofur initialization mehodst orf het k-means algorithm[J].Pattern Recognition Leaers,2006,20(10):1027—1040. [8】 徐义峰,陈春明,徐云青.一种改进的k均值聚类算法[J].计算机 应用与软件,2008,25(3):76.79. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- xiaozhentang.com 版权所有 湘ICP备2023022495号-4

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务