网络信息挖掘系统评价初探(2)
2018-06-26 01:56
导读:6)A.Berson等认为数据挖掘软件产品因为不同的目标用户和不同类型的解决问题而具有不同的重点[6]。主要可以分为目标解决方案、商业工具、商业分析工具
6)A.Berson等认为数据挖掘软件产品因为不同的目标用户和不同类型的解决问题而具有不同的重点[6]。主要可以分为目标解决方案、商业工具、商业分析工具、研究分析工具4类。另外,从目前整个数据挖掘市场看也可以分成3个主要组成部分:通用的工具、综合DSS/OLAP/数据挖掘工具和快速成长的面向特定应用的工具。他们还进一步提供了一套专门用于数据挖掘工具评价的属性和方法,对11种具体的工具进行了评价,其中包括Clementine、IntelligentMiner等著名的工具。
从国内来看,数据挖掘系统的评价研究不如国外活跃,这与数据挖掘系统在国内的应用仍处于初步阶段有直接关系。目前这方面的研究状况如下。
朱爱群提出了一种高级记分卡系统[7],采用该记分系统有助于商业用户更好地比较不同的数据挖掘技术,并以此作出正确的选择。该系统共有3种不同的记分卡:商业记分卡、算法记分卡、应用记分卡。
从上述文献的调查看,国内外数据挖掘系统评价普遍具有的特点是:
1)重视系统算法能力的评价。在7个调查对象中,其中6个都明确采用了算法评价指标,特别是J.F.Elder、D.W.Abbott、朱爱群等人,对算法指标的分析尤为细致。
2)突出或者具有从商业能力角度的评价。朱爱群和A.Berson都明确提出采用商业能力指标,而其他研究者提供的从用户端角度对系统易用性的评价实际上可以作为系统商业能力评价的一部分。
3)缺少对数据挖掘流程的评价。数据准备、数据预处理、数据建模、模型评估、模型应用等一系列步骤是几乎每个数据挖掘系统所必须经历的,往往各种系统在每个阶段表现的能力各有不同,因此有必要对过程中的每个阶段进行评价。
4)缺少从应用能力角度的评价。从所有的调查对象中看,仅有国内的一个评价提到了应用评价,而且其具体的指标并不是直接针对如保险业、零售业、电子商务等实际应用领域的。
您可以访问中国科教评价网(www.NsEac.com)查看更多相关的文章。
由此可见,本文所要进行的网络信息挖掘系统的评价应当积极吸取已有数据挖掘系统评价的优点,同时结合网络信息挖掘的特点来弥补评价中的不足。
2 评价系统的选择
由于目前许多数据挖掘系统也同时提供网络信息挖掘功能,因此本文所要评价的网络信息挖掘系统,一方面从一些著名的数据挖掘系统中选择,一方面将参考KD-nuggets上有关网络信息挖掘软件的最新统计报道。
从文献调查看[8],Int