论文关健诃:数据挖掘 农民专业合作社 决策树 技术服务
论文摘要:应用决策树方法获取提高农民专业合作社技术服务能力的规律性认识。通过对合作社的业务数据样本进行分析挖掘和分类,建立基于社员生产能力的决策树分类模型,根据该模型生成规则集,从而发现合作社技术服务管理与主要因素间潜在的规则性知识,为丰富合作社的服务内容、提高合作社的服务能力、实现指导社员合理最优地生产提供可参考的依据。
l概述
随着信息技术的发展和农民专业合作社信息化建设-2的不断深入,在大规模的管理信息系统建设完成后,应用这些系统产生了大量的业务数据,数据应用和信息资源开发的需求应运而生。如何利用已有的业务数据,结合社员自身的特点,寻找一种有效的评估社员生产的农产品品质的方法,帮助社员在提高农产品产量的同时提高农产品的质量,进而有效地提高农民专业合作社的整体服务能力,已经成为农民专业合作社管理者需要深入研究和解决的问题。
2数据挖掘及决策树算法
现在大多数专业合作社已经累积了大量的业务数据,数据挖掘的任务就是在海量数据中发现有利于评估社员生产能力和合作社服务能力的数据,通过某种挖掘算法将这些有用的数据转换成评估能力的判定规则和预测性信息,最后利用这些规则帮助合作社在销售过程中做出正确的决策,为指导农户生产和销售提供有意义的信息和规则,同时提高农民专业合作社的服务能力、闯市场能力和促增收能力。
2.1决策树及生成算法.
决策树算法是数据挖掘中常用的分类技术i。本文应用决策树方法,从农民专业合作社业务数据中提取评价社员生产能力和农产品品质的生产决策规则。决策树算法的核心是树的生成,开始时所有数据都在根节点,然后根据设定的标准选择测试属性,用不同的测试属性递归地进行数据分割。目前大多数的决策树学习算法是ID3算法的变体,本文应用基于ID3算法的决策树生成算法如下:
(1)计算每一属性的信息增益。
(2)以具有最高信息增益的属性作为集合的检验属性。
(3)用检验属性生成节点并标记。
(4)对于检验属性的每个值生成分叉。
重复以上整个过程,用每个分支节点关联的训练样例选取在该点被测试的最佳属性,如此自上而下地构造决策树。生成的决策树的每个内部节点代表对一个属性的测试,分支代表测试的每个结果,树的每个叶节点代表一个类别。其中信息增益的计算方法如下:
设=D1×D2X…XD是17维有穷向量,其中,D是有穷离散符号集;中的元素P=<l,,…,>(vieD,,j=l,2,…,叫作例子。假设向量空间E中的正例集和反例集的大小分别为P和,ID3算法基于下列2个假设:
(1)在向量空间上的一棵正确决策树对任意例子的分类概率与中正比例的概率一致。