浅论分类方法的发展
作者:佚名; 更新时间:2014-12-05
  论文关键词:分类;数据挖掘 
  论文摘要:分类是数据挖掘的重要任务之一,分类在实际应用中有广泛的应用,如医疗事业、信用等级等。近年来,分类方法得到了发展,本文对这些方法进行了归纳分析,总结了今后分类方法发展的方向。 


  1 引言
  分类[1](Classification)是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类可用于提取描述重要数据类的模型或预测未来的数据趋势。分类可描述如下:输入数据,或称训练集是一条条记录组成的。每一条记录包含若干条属性,组成一个特征向量。训练集的每条记录还有一个特定的类标签与之对应。该类标签是系统的输入,通常是以往的一些经验数据。一个具体样本的形式可为样本向量:(v1,v2,…,vn:c)。在这里vi表示字段值,c表示类别。
  分类作为数据挖掘的一个重要分支[2],在商业、医学、军事、体育等领域都有广泛的应用,在过去的十多年中引起很多来自不同领域学者的关注和研究。除了基本的统计分析方法外,数据挖掘技术主要有:神经网络(Neural Network)、决策树(Decision Tree)、粗糙集(Rough Set)、模糊集(Fuzzy Set)、贝叶斯网络(Bayes Network)、遗传算法(Genetic Algorithm)、k近邻分类算法(k Nearest Neighbour)与支持向量机(Support Vector Machine)等。
  不同的分类器有不同的特点,目前有三种分类器评价或比较尺度[1]:1) 预测准确度。预测准确度是用得最多的一种比较尺度,特别是对于预测型分类任务,目前公认的方法是10折分层交叉验证法;2) 计算复杂度。计算复杂度依赖于具体的实现细节和硬件环境,空间和时间的复杂度问题将是非常重要的一个环节;3) 模型描述的简洁度。模型描述越简洁越受欢迎,如采用规则表示的分类器结果就较容易理解,而神经网络方法产生的结果就难以理解。不同的算法有不同的特点,充分认识各算法的优点和存在的缺陷,掌握其适应的环境,方便研究者明确算法的改进和研究,本文主要对算法的研究现状进行分析和比较。
  
  2 分类方法的发展
  2.1 决策树的分类方法
  ID3算法是较早的决策树归纳算法。当前最有影响的决策树算法是Quinlan于1986年提出的ID3和1993年提出的C4.5。ID3选择信息增益值最大的属性划分训练样本,其目的是进行分裂时系统的熵最小,从而提高算法的运算速度和精确度。这种方法的优点是描述简单、分类速度快和产生的分类规则易于理解;但缺点是抗噪性差、训练正例和反例较难控制以及是非递增学习算法。C4.5是ID3的改进算法,不仅可以处理离散值属性,还能处理连续值属性,但是也不能进行增量学习。
  SLIQ是一个能够处理连续及离散属性的决策树分类器。该算法针对C4.5分类算法产生的样本反复扫描和排序低效问题,采用了预排序和宽度优先两项技术。预排序技术消除了结点数据集排序,宽度优先为决策树中每个叶结点找到了最优分裂标准。这些技术结合使SLIQ能够处理大规模的数据集,并能对具有大量的类、属性与样本的数据集分类;并且该算法代价不高且生成紧凑精确的树。缺点是内存驻留数据会随着输入纪录数线性正比增大,限制了分类训练的数据量。
  SPRINT方法完全不受内存的限制,并且处理速度很快,且可扩展。为了减少驻留于内存的数据量,该算法进一步改进了决策树算法的数据结构,去掉了SLIQ中需要驻留于内存的类别列表,将类别合并到每个属性列表中。但是对非分裂属性的属性列表进行分裂却比较困难,因此该算法的可扩展性较差。
  2.2 贝叶斯分类方法
  贝叶斯分类是统计学分类方法,是利用Bayes定理来预测一个未知类别的样本可能属性,选择其可能性最大的类别作为样本的类别。朴素贝叶斯网络作为一种快速而高效的算法而受到人们的关注,但是其属性独立性并不符合现实世界,这样的假设降低了朴素贝叶斯网络的性能;但是如果考虑所有属性之间的依赖关系,使其表示依赖关系的能力增强,允许属性之间可以形成任意的有向图,由于其结构的任意性,这样使得贝叶斯网络的结构难以学习,然而,贝叶斯网络的学习是一个NP-Complete 问题。
核心期刊快速发表
Copyright@2000-2030 论文期刊网 Corporation All Rights Reserved.
《中华人民共和国信息产业部》备案号:ICP备07016076号;《公安部》备案号:33010402003207
本网站专业、正规提供职称论文发表和写作指导服务,并收录了海量免费论文和数百个经国家新闻出版总署审批过的具有国内统一CN刊号与国际标准ISSN刊号的合作期刊,供诸位正确选择和阅读参考,免费论文版权归原作者所有,谨防侵权。联系邮箱:256081@163.com