Rexer Analytics 2010年度数据挖掘调查

发表于 2011-03-09 分类于旧闻

Rexer Analytics 关于数据挖掘的年度调查开始于 2007 年，本次（2010年）是第四次年度调查，原文链接在这里。

调查的关键要点如下：

1.调查样本量

2010年前期，735个参与者，来自于60个国家

2.数据挖掘覆盖领域

数据挖掘覆盖很多领域，但CRM/Marketing在过去的几年一直排名第一。

3.涉及算法

决策树、回归、聚类是主要的使用方法，但其他算法也被广泛使用。虽然第一次涉及 Ensemble Models，但22%的人宣称正在使用。

4.模型

三分之一的建模人员使用了10个及以下的变量建模，同时28%的建模人员宣称模型一般使用45个以上的变量

5.工具

随着过去几年稳定的增长，开源数据挖掘软件R已经成为挖掘人员的首选（43%），其次是 STATISTICA（18%）。STATISTICA、IBM SPSS Modeler 和 R 在2009、2010年被参与调查的挖掘人员给了最高满意得分。

6.技能

数据挖掘依然主要发生在个人电脑上（而不是服务器），数据一般也是存储在本地。模型的结果依然主要依赖于软件本身。STATISTICA 用户比其他软件用户，更倾向于使用PMML标准。

7.挑战

脏数据，数据挖掘概念的普及、对数据的访问

8.未来

参与调研的人员对于数据挖掘还是非常乐观的。这个领域仍然有上升空间，只有13%的挖掘人员给自己的公司的分析能力评为“excellent”，只有8%的人认为他们的数据质量可以被认为“very strong”。

同往常一样，一些评论：