2017年12月 舰船电子对抗 SHIPBOARD ELECTRONIC C0UNTERMEASURE Dec.2017 Vo1.40 No.6 第4O卷第6期 改进K均值聚类算法 杨 娟,屈传慧 (西安电子科技大学,陕西西安710071) 摘要:K均值聚类算法因需给定聚类中心数,使得聚类结果受初始化中心数的影响很大。介绍了K均值聚类法的 概念,并引入层次聚类的概念,采用先分解后合并的思想对K均值法进行了改进,对改进后算法进行了仿真验证。 关键词:K均值;聚类算法;分解合并 中图分类号:TN911.7 文献标识码:A 文章编号:CN32—1413(2017)06—0091—03 DOI:10.16426/j.cnki.jcdzdk.2017.06。020 Improved K means Clustering Algorithm YANG J uan,QU Chuan-hui (Xidian University,Xi'an 710071,China) Abstract:Because the K—means clustering algorithm need to give the clustering center number,the influence of initial center number on clustering result is great.This paper introduces the concept of K—means clustering algorithm and inducts hierarchical clustering concept,adopts the idea of decom— position before combination to improve the K—means algorithm,simulates and validates the im— proved algorithm. Key words:K—means;clustering algorithm;decomposition and combination 0 引 言 聚类,就是将样本分配到不同类的过程Eli。聚 过某个阈值,就把它加到与之相近的聚类中去,其代 表算法有DBSCAN算法、OPTICS算法等[5]。在众 多的聚类方法中,K均值方法是一种最经典的也是 应用最广泛的聚类方法[6 ],该方法对超球形和凸 状数据有很好的聚类效果。但是,由于经典K均值 算法必须在聚类前就设置聚类的个数K,最后所得 到的聚类结果会受到初始选择的聚类个数的影响。 若聚类个数选择得过小,可能导致同一类内的有些 样本差别过大,若聚类个数选择得过多,可能导致不 同类间的样本差别过小,都达不到有效聚类的目的。 因此,如何选择合适的聚类个数一直是聚类问题中 讨论的热点问题L8]。 本文基于K均值法,引入层次聚类的思想,对 类的基础为样本之间的相异性,聚类即寻找样本之 间的相似度对样本进行划分。 目前,常用的聚类方法包括:划分聚类、层次聚 类、密度聚类等。划分聚类就是对给定的数据集,采 用分裂法构造K个分组,每个分组就代表一个聚 类,且每一个分组至少包含一个数据纪录,每个分组 互不相交,即每一个数据纪录属于且仅属于一个分 组,常见的算法如K均值算法、CLARANS算法 等[2]。层次聚类就是对给定的数据集进行层次分解 或者合并,直到所有的记录组成1个分组或者某个 条件满足为止,具体又可分为合并(自底向上)和分 解(自顶向下)2种方案,常见的算法有BIRCH算 法、CURE算法等[3 ]。密度聚类基于密度,它克服 了基于距离的算法只能发现超球形聚类的缺点,该 方法的基本思想就是只要一个区域中的点的密度大 收稿日期:2017一O6—23 K均值法进行了改进,改善了K值的取值矛盾问 题,使得改进后的算法受初始聚类个数的影响变小, 有助于得到更好的聚类效果,且相比其它层次K均 值聚类算法,本算法实现简单。 92 舰船电子对抗 第4O卷 1 经典K一均值聚类 K均值算法能够使聚类域中的所有样品到聚 类中心距离平方和最小。其原理为:先取K个初始 聚类中心,计算每个样品到这K个中心的距离,找 出最小距离,把样品归入最近的聚类中心,修改中心 个聚类结果数据数的比值,当比值大于门限时.合并 第i个聚类结果和第J个聚类结果,作为新的聚类 结果;当比值小于门限时,不合并,此文档中的门限 值取为定值0.5,即当2个聚类结果有一半以上数 据交叠时,将两者合并归为一类。 改进后的K均值算法流程如图1所示。 点的值为本类所有样品的均值,再计算各个样品到 新的聚类中心的距离,重新归类,修改新的中心点, 直到新的聚类中心和上一次聚类中心差距很小时结 束。此算法结果受到聚类中心的个数和聚类中心初 次选择影响,也受到样品的几个性质及排列次序的 影响。如果样品的几何性质表明它们能形成几块孤 立的区域,则算法一般可以收敛。 2 改进K均值聚类 K均值算法需设置聚类数,改进的K均值算法 初始化K值时,设置比较大的K值,此处K值具体 的设置需根据所聚类对象来设置,若无法判断,则只 罔1改进K均值聚类流程 3 仿真分析 一 为了比较传统的K均值法和改进后的K均值 法的效果差异,本文给出了K均值法的聚类结果和 改进K均值法的结果。仿真数据为二维3组高斯 数据,3组数据的均值不同,协方差相同,3组数据的 均值分别为: Jf1一Eo,ol, 们一[1.25。1.253. 一需将其设置很大即可,但此时的计算量也将增大。 改进的K均值法采用先分后和的思想,即先将整个 数据根据K均值法聚类成设置的K个集合,再利用 各集合中心与其相对应的最大聚类半径确定的圆与 其它圆的交叠的比例来确定是否合并,当交叠比例 超过门限时,2个聚类结果合并,更新合并后的聚类 .Ti,。=E-1.25,1.25],方差矩阵为:[。0- 。(]1], 结果,如此往复。直至所有的聚类结果不满足合并 条件,此时的结果作为最终的聚类结果。 聚类初始化个数为7。仿真结果如图2~图4所示。 交叠比例的计算方法为:计算第i个聚类结果 中的每个元素与第 个聚类中心的欧氏距离,欧氏 距离的计算方法: d. 一 式中: 为第i个聚类结果中的第P个元素与第J 为第i类聚类结果中的第P个 2聚类前腺始数据 个聚类中心的欧氏距离,其中P为第i个聚类结果 中的数据编号; 数据;.2- 为第 个聚类中心; 为数据样本的维度, 本文中,n一2。 第 个聚类结果的聚类半径r 的计算方法为: ,r ———————————一、 图2为聚类前的数据二维平面图,图3为K均 值法的聚类结果图。图4为改进后的K均值法的聚 类结果图。由仿真结果可得:改进后的算法对K均 值聚类分离的7类结果进行了相似合并,最终聚类 结果为3类,聚类效果较好。 r 一max( /∑I 一 ,l。) t=1 式中:i—l,2,…,K;P一1,2,…,n; 一1,2,…,K, 圭 。 当该距离小于第 个聚类半径,即d ≥rj时, 交叠值加一;否则,不加一。最终计算交叠值与第i 第6期 , 杨娟等:改进K均值聚类算法 …93 加馅 H 的琢 ●,J^H●u”J… 黼 …击I}i …,I、.日笛津 ……一 ) 恂信笛 ’J Lt^7T.1“,’J2 1 5 一・:再一 1 . +々 + … .一 荔 ____________。●…; L ∞舳∞∞加∞舳∞∞ 实现简单,并对改进后的算法进行了仿真验证,该聚 O O 0 O 0 O O 0 O 0 O 辐 类算法可用于各种无监督聚类应用中,也可以用于 J’0 5 一 0 .鼋 -______- 一 鬯峨毛 : 电子侦察中的信号分选模块。 参考文献 [1]贺玲吴玲达,蔡益朝.数据挖掘中的聚类算法综述 ,—0 5 一l } 。・ ・ ・ [J].计算机应用研究,2007,24(1):10—13. [2]谢崇宝・袁宏源.最优分类的模糊划分聚类改进方法 EJ].系统工程,1997.15(1):58—63. 1 c ~--2_ -2-l・5-‘-。 网3 K均值法聚类结果 1 [3]Cll IBRASI R I ,VITANYI P M B.A fast quartet tree heuristic for hierarchical clustering[-j].Pattern Recog一 j 2 1.5 1 o ・』旌 ● .[4]李凯,王兰.层次聚类的簇集成方法研究[J].计算机工 ::b [5]武佳薇,李雄飞,孙涛,等.邻域平衡密度聚类算法[J]. 程与应用,2O10,46(27):12O一123. nition,2Ol1,44(3):662—677. ‘ +’' ●■ ¨ J’0.5 0 0.5 —潮 rf 篷 ~. ・ 计算机研究与发展,2010,47(6):1044—1052. 《墨 l・5 2 2 5 [6] KANUNGO T,MOUNT D M.A local search approxi— marion algorithm for K—means clustering[J].Computa— tional Geometry,2004.28(2,/3):89一l12. 1 -t -5-2-l 5・・0・5 0。t 5 [7]E1 KAN C.Using the triangle inequality to acce1erate K—means[c]//Pr。ceedings。f The 2“d l“ em i。 l Conference on Machine I earning.Menlo Park:AAAI 图4 改进K均值聚类结果 4 结束语本文对K均值聚类算法进行了改进,改进后的 Press,2003:147—153. [8] 胡伟.改进的层次K均值聚类算法[J].计算机应用研 究,2013,49(2):157—159. (上接第82页) 4 结束语 本文结合了线性调频连续波雷达和脉冲体制雷 达的传统信号处理方法,将其应用于连续波体制搜 甚鲢 罂 索雷达慢速小目标的检测。通过仿真结果分析和实 际工程应用,这一系列检测方法可有效检测出噪声 J… .. -lJ.一i ^ 和地物杂波背景下慢速小目标,而对于海杂波等背 景下慢速小目标的检测则需要进一步探索和研究。 『訇6 FFT等相关处理后的结果 2 1 1 1 l ; 参考文献 [1] 杨帆.I.FMCW雷达信号处理算法研究及实现[D].西 安:西安电子科技大学 2007. I [2] 张琳.线性调频连续波雷达信号处理技术[D].西安: 西安电子科技大学.2003. 譬- E3]李鲜武.数字调频连续波测距雷达方程[J].雷达科学 与技术,2009.7(5):329—332. [4]SK()I NIK M I_雷达系统导论[M].林茂庸,程云明, 毛二可,等译.北京:国防工业出版社,1 992. 罔7 CFAR处理后的结果