一、课题研究的背景与意义
现如今正处于信息爆炸的大数据时代,各行各业都积累了大量的数据资料。如何撷取、处理和管理巨量数据,并获得有效、新颖、潜在有用的资讯,在决策支持活动中显得尤为重要[1]。
20世纪80年代出现了数据挖掘这一新兴学科,由数据挖掘分析的信息与知识已经广泛的被应用到了各个领域,例如商务管理、生产控制、市场分析、工程设计和科学探索等[2]。特定专业领域需求的不同,数据挖掘工具的评价体系也是不同的。再者,基于用户平台的不同,则应选择对应的数据挖掘工具。在需求难以统一的市场中,数据挖掘工具的选择也是多种多样的。为了更好的选择适用的工具,我们将其进行分类和对比。数据挖掘工具在市场一般可被分为三个部分。
1.通用型工具;通用的数据挖掘工具不区分数据的具体含义,采用通用的挖掘算法,处理常见的数据类型。其中包括的主要工具有IBM QUEST 系统,SGI MineSet系统,Simon Fraser大学DBMiner 系统、SAS Enterprise Miner、IBM Intelligent Miner、Oracle Darwin、SPSS Clementine、UnicaPRW等软件[3]。通用的数据挖掘工具可以做多种模式的挖掘,由用户来解决具体的挖掘内容。
2.综合数据挖掘工具;其反映了商业对于多功能的决策支持工具真实与迫切的需求。商业上要求该工具能够提供管理报告、在线分析处理和在普通结构中的数据挖掘能力[4]。这种综合工具包括Cognos Scenario和Business Objects等。
3.面向特定应用工具;这些工具是纵向的、贯穿某一领域的方方面面。其常用的工具有主要应用在零售业的KD1、主要应用在保险业的Option&Choices和针对欺诈行为探查开发的HNC软件[5]。
市场的数据挖掘工具同时也可划分为企业型工具以及小型工具。根据其着眼点与数据量的不同来选择更加合适的工具。企业型的挖掘工具需要高处理能力,高网络容量,大数据量,通常基于客户机/服务机的模式,支持多种平台。有能力解决多种应用问题[6]。例如:IBM Intelligent Miner、SASEnterprise Miner。而小型数据挖掘工具则针对特定的应用问题提供特定的解决方案。例如SAS Enterprise Miner、Insightful公司的Insightful Miner。
数据挖掘工具的评估可以从数据存取、数据处理、模型算法、自动建模、可视化五个方面来考量[7]。对于数据挖掘工具,最重要的是模型算法其次是数据的处理。根据加权的表现来对数据挖掘工具进行评估。除此之外,用户也应当根据本身的数据挖掘需求是属于长期使用还是短期行为、数据挖掘的水平和经验、数据状态、财务预算等制定对应的评估标准[8]。
面对众多数据挖掘工具顺应需求的出现,有必要对工具进行分类和优势评估。参考不同数据挖掘工具的特性,再根据具体的需求来选择合适的数据挖掘工具来进行数据挖掘,能更高效准确的挖掘出有价值的信息。无论在商业或科研的应用中都非常重要。
二、课题研究的内容
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。