1) 趋势预测
数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。出口退税数据挖掘的预测趋势是对纳税人特定税收指标、经济指标或税收经济关系指标一段时期走势和趋向的分析和推断,了解和掌握税收经济的发展趋势,有利于判断未来出口退税形势的好坏,使出口退税做到心中有数。
趋势预测的两个基本要求是说明特定指标的发展方向和变化幅度,基础分析技术是时间序列分析技术,常用说明指标有变动率和平均变化速度等。
2) 关联分析
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
在出口退税评估工作中,可以利用企业财务报表、纳税申报表和出口退税汇总表等各项数据指标之间的相互逻辑关系进行核算检查,对于不满足应有逻辑计算关系的内容,即认为破坏了会计核算或税款计征关系,均应视为异常做进一步的深入分析。由于企业财务指标和出口退税申报数据有上百条之多,所以与此相关的逻辑计算关系也会在此基础上更为丰富和复杂,只有通过关联分析,才有可能在出口退税申报环节实现实时的出口退税评估工作。
3) 聚类分析
聚类分析是数理统计的一个分支,是运用事物本身所具有的某种数据特征,遵循“物以类聚”规律进行数据处理,为事物的分类管理提供数据支持的一种分析方法。借用这种方法开展税收分析,可将具有某种税收共同特征的事物聚集在一起,使我们更清楚地认识税收征管工作的分类特征。
聚类分析的基本原理是根据数据指标差异的绝对距离进行分类,结合矩阵分析技术,可以进行多指标的综合特征分析,为复杂事物的分类提供了一种可行的分析方法。聚类分析的关键是找到一组关系密切的相关指标,如退税增长、税源增长、退税变化弹性和出口影响等,均可以利用这一分析技术进行综合分析和技术处理。
4) 差异分析
数据库中的数据常有一些异常记录,从数据库中检测这些差异很有意义。差异包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。
差异分析的基本方法是测算不同样本同一指标的差异程度。差异分析的关键是建立评价差异的标准,有了标准才能说明差异的影响程度。表示差异程度可以用绝对值,也可以建立参照系用相对值。应用差异分析开展微观税收分析的典型分析案例就是同业税负分析模型。应用同业税负分析模型可以测算出各项相关指标的客观水平和样本离散状况,以此为标准比对个别检验样本的具体数值,超出差异允许界限的即为预警对象。
5) 波动分析
波动分析是描述税收事物运行变化平稳性的分析。税收事物的运行受经济变化影响、税收制度规定的约束和现有征管环境制约有其自身客观的规律。在经济运行相对平稳、税制不变的条件下,税收事物运行平稳与否,直接反映税收征管情况的影响作用。因此,开展波动分析,一定程度上可以了解和说明退税管理的表现,反映退税管理是否能按税源的发展变化规律同步开展,监督退税管理的执行情况。
4 出口退税数据挖掘的实现
出口退税数据挖掘应用系统由三部分组成:第一部分是由用户数据源到中央数据库的ETL过程;第二部分是根据出口退税业务模型建立业务智能分析模型;第三部分是面向税收管理人员进行数据的发布和多维分析工作。基本结构如图1所示。
数据的ETL(Extract-Transform-Load,数据抽取、转换、装载)过程采用微软的SSIS(SQL Server Integration Services)来完成数据预处理阶段对于原始数据的转换、清洗加载过程;中央数据库采用微软的SQL Server 2005,SQL Server 2005除了提供一个安全、可靠和高效的数据管理平台之外,它还是一个企业级数据整合平台,通过SSIS提供了构建企业级ETL应用程序所需的功能和性能,是一个集成的商业智能平台,通过Analysis Services提供了统一和集成的商业数据视图,可被用做所有传统报表、OLAP分析、关键绩效指标(KPI)记分卡和数据挖掘的基础。
SQL Server 2005分析服务提供了数据挖掘服务,支持集成其它个人或者企业的DM算法,并且将DM算法集成的复杂度不断降低,它主要是基于OLE DB for DM规范,使用灵活。开发人员能够利用数据挖掘功能开发应用程序,其数据挖掘语言非常类似于SQL,数据挖掘供应者是一个开放系统,因为它是OLE DB的一个部件,数据挖掘服务能够通过DSO(Decision Support Object)、或ADO可包含在任何用户应用程序中。将DM算法无缝集成到SQL Server的分析服务中,利用集成的DM算法来构建数据挖掘解决方案是一种理想的方式。
在SQL Server 2005数据挖掘平台中,创建关系型挖掘模型的语法如下:
Create mining model () using
它类似于建立一个关系表,其中包括输入、预测属性,每一个模型与一个数据挖掘算法相关联。
多维数据分析工具和报表工具使用统一空间模型UDM(Unified Dimensional Model),利用UDM中对业务实体的友好描述、等级导航、多视角、自动平滑翻译为本机语言等功能,可以实现出口退税数据挖掘过程中所得到的结果集的友好展示。
4 结束语
随着数据仓库技术的发展,数据挖掘会越来越发挥其独到的分析优势,特别是将挖掘出的新知识通过用基于OLAP的决策支持系统加以验证、结合,可以更好地为决策者服务。出口退税管理的电子化系统已经积累了大量的业务数据,可以为数据挖掘提供大量数据,数据仓库和数据挖掘技术在收税管理具有广阔的应用前景。