Rexer Analytics 2010年度数据挖掘调查
Rexer Analytics 关于数据挖掘的年度调查开始于 2007 年,本次(2010年)是第四次年度调查,原文链接在这里。
调查的关键要点如下:
1.调查样本量
2010年前期,735个参与者,来自于60个国家
2.数据挖掘覆盖领域
数据挖掘覆盖很多领域,但CRM/Marketing在过去的几年一直排名第一。
3.涉及算法
决策树、回归、聚类是主要的使用方法,但其他算法也被广泛使用。虽然第一次涉及 Ensemble Models,但22%的人宣称正在使用。
4.模型
三分之一的建模人员使用了10个及以下的变量建模,同时28%的建模人员宣称模型一般使用45个以上的变量
5.工具
随着过去几年稳定的增长,开源数据挖掘软件R已经成为挖掘人员的首选(43%),其次是 STATISTICA(18%)。STATISTICA、IBM SPSS Modeler 和 R 在2009、2010年被参与调查的挖掘人员给了最高满意得分。
6.技能
数据挖掘依然主要发生在个人电脑上(而不是服务器),数据一般也是存储在本地。模型的结果依然主要依赖于软件本身。STATISTICA 用户比其他软件用户,更倾向于使用PMML标准。
7.挑战
脏数据,数据挖掘概念的普及、对数据的访问
8.未来
参与调研的人员对于数据挖掘还是非常乐观的。这个领域仍然有上升空间,只有13%的挖掘人员给自己的公司的分析能力评为“excellent”,只有8%的人认为他们的数据质量可以被认为“very strong”。
同往常一样,一些评论:- 鉴于数据挖掘从业人员的总体数量,有735个样本已经很不错了。
- CRM/Marketing在中国国内也依然是数据挖掘最重要的应用领域。
- 比较惊讶的是,Ensemble Models 居然在国外的使用率已到到22%。
- 模型的变量问题是具体业务所决定,甚至是效率、成本的考虑,多少都是正常。
- R语言成为挖掘人员的首选工具是必然的(包括在 KDNuggets 上的调查也是如此)。当然如果从数据分析的本源出发的话,R语言有不可替代的天然优势。
- PMML标准依然可以在R语言上实现,感谢Graham Williams和他的同事。
- 挑战估计是每个挖掘从业人员都遇到过的问题,大家多多交流吧
- 数据挖掘的未来是美好的,毕竟我们生活的世界数据越来越多,扔在那儿太可惜了~~