from:http://kb.cnblogs.com/page/76804/
在1996年,当时数据挖掘市场是年轻而不成熟的,但是这个市场显示了爆炸式的增长。三个在这方面经验丰富的公司DaimlerChrysler、SPSS、NCR发起建立一个社团,目的建立数据挖掘方法和过程的标准。在获得了EC(European Commission)的资助后,他们开始实现他们的目标。为了征集业界广泛的意见共享知识,他们创建了CRISP-DM Special Interest Group(简称为SIG)。
大概在1999年,SIG(CRISP-DM Special Interest Group)组织开发并提炼出CRISP-DM(CRoss-Industry Standard Process for Data Mining),同时在Mercedes-Benz和OHRA(保险领域)企业进行了大规模数据挖掘项目的实际试用。SIG还将CRISP-DM和商业数据挖掘工具集成起来。SIG组织目前在伦敦、纽约、布鲁塞尔已经发展到200多个成员。
当前CRISP-DM提供了一个数据挖掘生命周期的全面评述。他包括项目的相应周期,他们的各自任务和这些任务的关系。在这个描述层,识别出所有关系是不可能的。所有数据挖掘任务之间关系的存在是依赖用户的目的、背景和兴趣,最重要的还有数据。SIG 组织已经发布了CRISP-DM Version 1.0 Process Guide and User Manual的电子版,这个可以免费使用。
Figure: Phases of the CRISP-DM Process Model
一个数据挖掘项目的生命周期包含六个阶段。这六个阶段的顺序是不固定的,我们经常需要前后调整这些阶段。这依赖每个阶段或是阶段中特定任务的产出物是否是下一个阶段必须的输入。上图中箭头指出了最重要的和依赖度高的阶段关系。
上图的外圈象征数据挖掘自身的循环本质――在一个解决方案发布之后一个数据挖掘的过程才可以继续。在这个过程中得到的知识可以触发新的,经常是更聚焦的商业问题。后续的过程可以从前一个过程得到益处。
业务理解 (Business Understanding)
最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。
数据理解 (Data Understanding)
数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。
数据准备 (Data Preparation)
数据准备阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将是模型工具的输入值。这个阶段的任务有个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。
建模(Modeling)
在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。
评估(Evaluation)
到项目的这个阶段,你已经从数据分析的角度建立了一个高质量显示的模型。在开始最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达成。
部署 (Deployment)
通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。在很多案例中,这个阶段是由客户而不是数据分析人员承担部署的工作。
分享到:
相关推荐
CRISP-DM数据挖掘实施方法论帮助企业把注意力集中在解决业务问题本身,而不是技术层面上。CRISP-DM流程模型包括了六个步骤,涵盖了数据挖掘的整个过程
SPSS数据挖掘流程手册_CRISP-DM
英文版CRISP-DM规范1.0,从SPSS官方网站摘抄下来的,方便大家查阅,不用去官网一堆英文资料里翻了
为了帮助人们勇攀数据科学金字塔,很多人或公司提出了他们认为的最佳的数据科学处理流程。最常用的流程为“跨行业标准数据挖掘流程”(Cross ...CRISP-DM最初是由一个由领先的数据科学供应商、终端用户、咨询
IBM SPSS Modeler CRISP-DM指南(中文).pdf 官方中文帮助文档 实用权威
CRISP-DM1.0循序渐进数据挖掘指南
酥脆受CRISP-DM框架的启发,项目模板快速设置了CRISP-DM文件夹结构。 有关CRISP-DM的更多信息,请参见: 假定所有工作将主要在Anaconda上完成,因此请安装Anaconda。 否则,请设置您自己的requirements.txt文件。...
第03课:CRISP-DM详解 共11页 第04~05课:DM项目实际建设与管理过程(上) 共23页 第04~05课:DM项目实际建设与管理过程(下) 共23页 第06课:DM项目团队组成与能力素养 共4页 第07课:SPSS MODELER基础 共3页 第08...
CRISP-DMManual.pdf
数据挖掘方法论及案例介绍,华为的数据挖掘资料PPT,包含实际数据挖掘案例,比较好的参考学习资料
数据挖掘的体系结构 数据挖掘的过程模型 Fayyad模型 CRISP-DM模型
SpssModeler数据挖掘的一版过程,中文文档
数据挖掘分类模型:针对我的OSU数据挖掘项目,遵循完整的CRISP-DM方法
【目录】 什么是数据挖掘 数据挖掘的实现路线和流程 数据挖掘方法论——CRISP-DM
一、数据挖掘概述 • 什么是数据挖掘 • 数据挖掘的实现路线和流程 • 数据挖掘方法论——CRISP-DM
跟随CRISP-DM阶段————5 商业理解————5 数据理解————7 数据准备————8 建立模型————9 模型评估————11 成果发布————11 选择数据挖掘工具————12 有关SPSS公司————14 SPSS产品——...
使用场景:如何应用跨行业数据挖掘标准流程方法论CRISP-DM模型?工业数据分析调查表是怎样的,如何做初步的数据调研,数据源、数据量、数据基础、数据变量和数据质量?如何分析现状和预期?如何发现问题?如何进行探索...
2.跨行业数据挖掘标准流程方法论CRISP-DM介绍 3.运用CRISP-DM方法解决问题的具体案例:业务问题、问题描述、技术挑战、模型实现 4.工业智能应用误区及解决办法 5.工业智能团队组建方法 6.附录:工业互联网创新发展...
已经开发了许多数据挖掘和知识发现方法论以及过程模型,并且取得了不同程度的成功,其中有三种主要的方法可以用来发现数据模式。 KDD,SEMMA和CRISP-DM。 它们在该地区的许多出版物中都有介绍,并在实践中使用。 据...