当前位置:主页 > 中学教育
基于决策树的数据挖掘算法的应用与研究

 

基于决策树的数据挖掘算法的应用与研究 发布日期:2012-10-30 11:26:12    来源:    编辑:拓步ERP资讯网    浏览:    

      摘要:数据挖掘是指从数据库中抽取隐含的、具有潜在使用价值信息的过程,是一种新型的数据分析技术。研究数据挖掘中的决策树算法以及决策树算法在具体的客户关系管理系统中的研究与分析,对数据挖掘中的决策树技术做了详细的描述。       原标题:基于决策树的数据挖掘算法的应用与研究      原作者:发表时间:2012/10/29 邹媛 来源:万方数据

1 背景

随着信息技术的迅猛发展,人们可以利用计算机方便地获取和存储大量的数据。但是,仅仅停留在对于已获得的数据进行一些表层的处理(如查询、统计等)已越来越不能满足日常工作的需要,因而人们把需要深入挖掘数据之间的内在关系和隐含的信息作为下一步的研究目标。人们迫切需要一种能够智能的、自动的将数据转换成有用信息和知识的技术和工具,这种对强有力数据分析工具的迫切需求使得数据挖掘技术成为了信息技术中的一个前沿的焦点。

2 数据挖掘的相关理论

    2.1 数据挖掘的概念

数据挖掘从大量的,不完整的,有噪声进行模糊随机在原始数据,提取隐瞒,人们事先不知道,而且是潜在有用的,可信的,新颖的信息和知识的过程。数据挖掘由三个步骤组成:数据预处理阶段、模型设计阶段和数据分析阶段(见图1)。

图1 数据挖掘流程

图1 数据挖掘流程

(1)数据预处理阶段(Data Preprocessing Phase)中,特定的业务问题必须得到明确的定义,否则数据挖掘将变得漫无目的。在业务问题的域知识基础上,该阶段的任务包括验证、选择和准备被要求用来论述问题的数据。在构造良好的数据仓库环境里,这些步骤相对简单些,但是仍然会涉及到对采样和平衡数据的考虑。

(2)模型设计阶段(Model Design Phase)需要深入地检查数据,并从中选择那些显示与问题最有关系的字段,它也需要选择一个正确的数据挖掘算法以应用于数据(如:决策树、规则归纳)。然后,最小化地细分数据,一般需要将数据分为一个调整集或者多个测试集。

(3)数据分析阶段(Data Analysis Phase)典型地包括一个附加的准备活动(数据转换)来重组数据,以求更好地匹配己选择的算法和业务问题(例如,处理数据中缺少的值)。此后将已经选择好的数据挖掘工具应用于数据,典型情况下包括创建一个采用数据修正集的模型,然后用至少一个测试数据的独立集来证明这个模型。模型的准确性和有效性需有效地评估。初始的模型将很可能没法达到数据挖掘的目的,许多反复是有必要的,尤其是在模型设计和数据分析阶段中。

    2.2 决策树的概念

决策树是作为与样本属性结点,用属性的取值作为分支的树型结构。它是进行了分析和归纳利用信息理论的原则,分析大规模的样本属性而产生的。决策树的根节点是最大的属性信息的内容,在所有样本。树的中间节点是在示例子集的根树包含的信息内容最大的属性点。决策树的叶点是样品类别的价值。决策树使用新的样本分类,即通过新的决策树属性值测试的样本,从树的根节点开始,根据样本属性值逐渐向下沿决策树,直到树的叶子点,这一点表现的类是新的样本类别。决策树方法是在数据挖掘中非常有效的方法。决策树是一种知识的一种表现形式,它是所有高采样数据摘要,即决策树能准确识别所有的样本类别,也可以有效识别地新样本的类别。

决策树包含许多不同的算法,主要分为3类:

(1)基于统计论的方法,以CART为代表,在这类算法中,对于非终端结点来说,有两个分枝。

(2)基于信息论的方法,以D13算法为代表,此类算法中,非终端结点的分枝数由样本类别个数决定。

(3)以AID,CHAIN为代表的算法,在此类算法中,非终端结点的分枝数在两个到样本类别个数范围内分布。

选择决策树算法的优点有:在学习过程中不需要使用者了解很多的背景知识这同时是它的能够直接体现数据的特点,很容易被人理解。速度快。易改造分类规则。只要沿树的根叶向下,沿途可以只确定一个分类规则的裂变条件。更高的精度。同时,它也有许多不足之处,以处理设置每个算法(离散,样品),不仅增加了排序算法的开销,而且降低了大型数据分类的准确性。

    2.3 决策树的主要步骤

决策树算法构造决策树来发现数据中蕴涵的分类规则,如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行: