模型以农民专业合作社业务数据库为操作对象,通过业务理解、数据预处理、模型建立及验证和结果分析等,归纳总结出提升合作社技术服务能力的关键因素。其中,业务理解是从合作社业务角度理解目标和需求,然后将这种知识转换成一种数据挖掘的问题定义;数据预处理是指收集合作社系统中现有原型数据,然后进行熟悉数据的各种活动;预测模型是在数据预处理的基础上,通过决策树算法构建适用于农民专业合作社的分析与决策模型;最后通过对模型进行分析说明,为合作社进行决策、技术指导、经验交流提供依据。
3.1业务理解
合作社在进行农产品收购时,将农产品按重量、色泽和形状分为A(优等品)、B(中等品)、c(等外品)等多个级别,级别越高的农产品单价越高;农产品在销售之前,需要在冷库中储存一段时问,合作社一般以存储期内农产品的腐烂率(或者变质率)作为标准对社员进行一定的物质奖励。优等品占有率(AP)和腐烂率(BP)既是考察社员生产能力的重要标准也是评估合作社服务能力的主要指标。提高农产品优等品的占有比例、降低腐烂率以提高农产品品质是合作社服务能力的主要体现方式。目前,大部分合作社为社员提供了培训和直接进入现场提供指导等系列化的技术服务,直接促进了农业发展和农民增收。
3.2数据预处理
本文以北京郊区某专业合作社的业务数据为例,利用决策树技术挖掘影响该合作社社员农产品品质优劣的潜在因素。数据记录主要来源于合作社日常管理系统和物流管理系统提供的生产资料记录、历史销售信息、培训情况和现场指导等信息。经过数据清理和数据交换,从合作社320个社员的5000多条符合条件的数据中随机选取2/3的数据作为学习样本,选取的测试属性包括入社时间(T)、是否入股(M)、参加培训频率(ETPY)和接受现场指导频率(GTPY)。本文对入社时间设置2个阈值,离散化为是、否2个等级,对参加培训频率和接受现场指导频率设置2个闽值,离散化为经常、一般2个等级,再经过重点选样得到训练集。表1为农产品品质分析的部分训练集。
3.3预测模型建立
建模是数据挖掘的核心环节,是利用已知的数据和知识建立一种数据分析模型。本文根据f:文提出的决策树生成算法,运用决策树模型对农产品品质进行分类。
训练集中决策属性为农产品品质的共有213个社员记录,其中,89个为优秀社员;l24个为普通社员,如表2所示。本文优秀和普通的定义原则是:经过实地调研,将农户生产的A级品(优等品)占有率大于36%且产品存储腐坏率小于3%的社员评为优秀社员,反之,为普通社员。