各种聚类算法及改进算法的研究(3)
作者:佚名; 更新时间:2014-12-05
3.7 其它聚类算法
3.7.1 基于群的聚类方法
该法是进化计算的一个分支,模拟了生物界中蚁群、鱼群等在觅食或避敌时的行为。可分为蚁群算法ACO和PSO。蚁群聚类算法的许多特性,如灵活性、健壮性、分布性和自组织性等,使其非常适合本质上是分布、动态及又要交错的问题求解中,能解决无人监督的聚类问题,具有广阔的前景。PSO模拟了鱼群或鸟群的行为。在优化领域,PSO可以与遗传算法相媲美,并在预测精度和运行速度方面占优势。对ACO或PSO在数据挖掘中应用的研究仍处于早期阶段,要将这些方法用到实际的大规模数据挖掘的聚类分析中还需要做大量的研究工作。
3.7.2 基于粒度的聚类方法
从粒度的角度看,我们会发现聚类和分类有很大的相通之处:聚类操作实际上是在一个统一粒度下进行计算的;分类操作是在不同粒度下进行的。所以说在粒度原理下,聚类和分类是相通的,很多分类的方法也可以用在聚类方法中。作为一个新的研究方向,虽然目前粒度计算还不成熟,尤其是对粒度计算语义的研究还相当少,但相信随着粒度理论的不断发展,今后几年它必将在聚类算法及其相关领域得到广泛的应用。
3.7.3 谱聚法
谱聚类方法建立在谱图理论基础之上,并利用数据的相似矩阵的特征向量进行聚类,是一种基于两点间相似关系的方法,这使得该方法适用于非测度空间。它与数据点的维数无关,而仅与数据点的个数有关,可以避免由特征向量的过高维数所造成的奇异性问题。它又是一个判别式算法,不用对数据的全局结构作假设,而是首先收集局部信息来表示两点属于同一类的可能性;然后根据某一聚类判据作全局决策,将所有数据点划分到不同的数据集合中。通常这样的判据可以在一个嵌入空间中得到解释,该嵌入空间是由数据矩阵的某几个特征向量张成的。谱聚类算法成功原因在于:通过特征分解,可以获得聚类判据在放松了的连续域中的全局最优解。与其他算法相比,它不仅思想简单、易于实现、不易陷入局部最优解,而且具有识别非凸分布的聚类能力,非常适合于许多实际问题。目前,该算法已应用于语音识别、VLSI设计、文本挖掘等领域。
3.7.4 多种聚类方法的融合
实际应用的复杂性和数据的多样性往往使得单一的算法无能为力。因此,很多人对多种算法的融合进行了广泛研究并取得了一些成果。大致可分为以下几类:(1)基于传统聚类方法的融合,如CLIQUE、CUBN等。(2)模糊理论与其他聚类法的融合,如遗传+模糊C2均值混合聚类法等。(3)遗传算法与机器学习的融合。(4)传统聚类法与其他学科理论的融合,如谱算法等。总之,很多新算法是以上几类方法中两种或两种以上方法有机结合而得的,它们取长补短,优势明显,这也是我们数据挖掘研究人员要努力的研究方向之一。
4 结论
综上所述,分层聚类的突出优点是它能够生成比较规整的类集合,聚类结果不依赖元素的初始排列或输入次序,与聚类过程的先后次序无关,聚类结果比较稳定,不易导致类的重构。但计算开销较大,对异常数据比较脆弱。划分聚类的优势是运算量小,能用于处理庞大的样本数据,也为实时处理提供了一定的可能性。但要求用户必须事先给出要生成的簇的数目。网格聚类处理速度快,处理时间与数据对象的数目无关。缺点是只能发现边界是水平或垂直的聚类,而不能检测到斜边界。也不适用于高维情况,并存在量化尺度的问题。密度聚类的优点是一遍扫描,并可以在带有“噪声”的空间数据库中发现形状任意、个数不定的聚类。
通常可参考以下建议:(1)如果希望聚类算法对数据输入的顺序不敏感,可选用基于网格的STING算法。(2)如果目标数据库比较大,建议使用综合性的聚类算法,如CURE等。(3)如果聚类的形状是球形或者凸形,BIRCH和CLARANS比较适合。(4)将不同类型的聚类算法相互结合以满足不同的聚类要求。
5 结束语
各种聚类算法各有优缺点,又由于实际问题的复杂性和数据的多样性,使得无论哪一种方法都只能解决某一类问题。因此,用户应该根据具体问题具体分析,选择恰当的适合自己的聚类算法。近年来,随着数据挖掘、机器学习和人工智能等领域中传统方法的不断发展以及各种新方法和新技术的涌现,聚类算法得到了长足的发展。不难发现其新趋势:(1)传统聚类方法的融合发展。(2)新方法不断涌现。(3)根据实际需要,有针对性地融合众多领域的技术。总之,聚类算法综合了数据挖掘、模式识别、数学等众多领域的研究成果。随着这些领域中相关理论的发展、完善和相互渗透,以及新技术的出现,聚类分析将得到更快的发展。
参考文献:
[1] 孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008,19(1):9.
[2] 贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,(01):16-19.
[3] 陆云.聚类分析数据挖掘方法的研究与应用[D].合肥:安徽大学,2007.4.
[4] 李东琦.聚类算法的研究[D].成都:西南交通大学,2007.5.
[5] 李明华,刘全,刘忠,郗连霞.数据挖掘中聚类算法的新发展[J]. 计算机应用研究,2008,25(1):60-62.
[6] 马帅,王腾蛟,唐世渭,等.一种基于参考点和密度的快速聚类算法[J].软件学报,2003,14(6):61-67.
[7] 卜东波,白硕,李国杰.聚类/分类中的粒度原理[J].计算机学报,2002,25(8):810-816.
[8] 王磊,潘进,焦李成.免疫算法[J].电子学报,2000,28(7):74-78.
上一篇:浅论Viterbi算法
下一篇:论基于本体的特征知识库研究
热门论文