设I={I1,I2,...,Im}是一组物品集,其中每一个事务T是一组物品,显然TI。设X为一组物品,信捷职称论文写作发表网,当且仅当XT时,称事务T包含X。一个关联规则是如下形式的一种蕴涵:XY,其中XI,YI且X∩Y=。如果D中s%的事务包含X∪Y,则称规则XY在事务集D上的支持度support(X∪Y)=s。可信度为c,如果c=support(X∪Y)*100/support(X),则说明D中包含X的事务中有c%的事务同时也包含了Y。可信度说明了蕴涵的强度,而支持度说明了规则中所出现模式的频率。具有高可信度和强支持度的规则称为“强规则”(strong rules)。关联规则发现任务的本质是要在数据库中发现强关联规则。利用这些关联规则可以了解客户的行为,这对于改进零售业等商业活动的决策很有帮助。例如,可以帮助改进商品的摆放(把顾客经常同时买的商品摆放在一起),帮助如何规划市场(互相搭配进货)等。在数据挖掘研究领域,对于关联分析的研究开展的比较深入,人们提出了多种关联规则的挖掘算法,如APRIORI、FP增长、STEM、AIS、DHP等算法分类发现
分类要解决的问题是为一个事件或对象归类。设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。在电子商务中分类分析可以预测客户响应,如哪些客户最倾向于对直接邮件推销做出回应,又有哪些客户可能会换他的手机服务提供商,或进行商店定位,如按成功的商店、一般商店和失败商店排列得出这3类商店各自具有的属性。然后选择包含位置属性的地理数据库,分析每一预期的商店位置属性,以确定预期的商店定位属于哪一类。只有那些符合成功一类要求的商店位置才作为商店定位的候选。用于分类分析的技术有很多,典型方法有统计方法的贝叶斯分类、机器学习的判定树归纳分类、神经网络的后向传播分类等。最近数据挖掘技术也将关联规则用于分类问题 。另外还有一些其它分类方法,包括k-最临近分类、MBR、遗传算法、粗糙集和模糊集方法。目前,尚未发现有一种方法对所有数据都优于其它方法。实验研究表明,许多算法的准确性非常相似,其差别是统计不明显,而训练时间可能显著不同。一般的,大部分神经网络和涉及样条的统计分类与大部分判定树方法相比,趋向于计算量大。
回归发现
回归是通过具有已知值的变量来预测其他变量的值。它与分类类似,差别在于前者的预测值是连续的,而后者是离散的。在最简单的情况下,回归采用的是象线性回归这样的标准统计技术。但在大多数现实世界中的问题是不能用简单的线性回归所能预测的。如商品的销售量、股票价格、产品合格率、利润的大小等,很难找到简单有效的方法来预测,因为要描述这些事件的变化所需的变量以上百计,且这些变量本身往往都是非线性的。为此人们又发明了许多新的手段来试图解决这个问题,如逻辑回归、决策树、神经网络等。一般同一个模型既可用于回归也可用于分类,如CART决策树算法既可以用于建立分类树,也可建立回归树。神经网络也一样。
序列模式发现
序列模式分析和关联分析类似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序列关系。它能发现数据库中形如“在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列ABC出现的频率较高”之类的知识。序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要有用户输入最小值信度C和最小支持度S。另外序列关联规则挖掘中采用的Apriori特性可以用于序列模式的挖掘,另一类挖掘此类模式的方法是基于数据库投影的序列模式生长技术。
3.2理解可以获得的数据的信息。
对可以挖掘的数据进行分析,理解可以获得的数据的信息:内容、字段类型、记录之间的关系。可能影响数据挖掘技术选择的数据性质主要有:
1)种类字段:关联分析和连接分析只适用于种类字段。决策树也可以很容易的用于种类字段。但是有一个忠告:就是当种类的值较多的时候,效果可能就会比较差,当然如果限制分支的个数的时候,决策树的效果还是不错的。神经元网络,可以将种类字段转化成数值字段,但是这样就给种类字段强加了一个先后次序。也可以将种类字段作为多个输入,但是当值很多时,这种方法就成问题了。
2)数值字段:神经元网络将所有输入转化到0—1之间。MBR和聚集检测通过距离函数来处理数值字段。决策树可以通过splitter数值来处理数值字段。对于关联分析,则必须将数值变量区间化成种类变量,但是区间的选择是一个很困难的问题。
3)每条记录都有大量的字段(独立):记录中的字段很多,神经元网络和MBR技术会受其影响,关联规则挖掘也会受影响。而决策树受其影响的程度就比较的小。
4)多个目标字段(非独立):对于存在多个依赖变量的情况,神经元网络是最佳的选择。
5)记录是变长的 :只有关联规则和连接分析可以直接处理变长记录。对于其他的技术,数据需要一些预处理:可以生成一些统计字段;将一条记录拆分成几条记录,每个含有记录号。
6)有时间顺序的数据:神经元网络,关联规则对时间顺序的数据的处理能力比较的好。决策树也能处理时间顺序,但是需要的数据准备就相对较多一点。
7)自由文本数据:MBR技术最适合。
4结论
总之在选择一种数据挖掘技术我们应根据商业问题的特点来决定采用哪种数据挖掘形式比较合适。应选择符合数据的模型的算法,确定合适的模型和参数。只有选择好正确的数据挖掘工具,才能真正发挥数据挖掘的作用,使企业在激烈的市场竞争中做出正确的决策,保持有力的竞争优势。
参考文献:
1.《构件面向CRM的数据挖掘应用》/(美)贝尔森,(美)史密斯,(美)西瑞林著;贺奇等译。人民邮电出版社,2001.8
2.《数据挖掘概念与技术》,机械工业出版社,2001.8
3.[AGGR98]R.Agrawal,J.Gehrke,D.Gunopulos,and P.Raghavan.Automatic subspace clustering of high dimensional data mining applications.In Proc.1998 ACM-SIGMOD Int.Conf.Management of Data(SIGMOD`98),Pages94-105.Seattle,WA,June 1998.
4.[AAP00]R.Agarwal,C.Aggarwal,and V.V.V Prasad.A tree projection algorithm for generation of frequent itemsets.In Journal of Parallel and Distributed Computing(Special issue on High Performance Data Mining),200