Beta

It’s a beautiful thing when free data meets free algorithm.

今年 5 月份,KDnuggets 给出了近六个月用于实际数据挖掘(非评估)项目中使用的挖掘工具调查,共 364 个投票人。

  1. SPSS (PA)和 SAS(BA) 没啥可说的,老牌的商业数据分析软件商,尤其是 SPSS,去年就是 KDnuggets 这项调查的第一位,SPSS 的销售常拿这个说事;
  2. Excel(spreadshit),可进行“简单数据操作”的 MS 产品;
  3. RapidMiner,比较流行的开源数据挖掘软件;
  4. R,为数据分析而生的开源软件。说到这儿,我突然卡壳了,它能做的事情太多……。R 更贴近于数据的本质(继续鼓吹)~~

SAS、SPSS、Statistica 陆续增加了对 R 语言的支持,从这个角度来讲,这几大厂商自己都心虚了,几年后数据挖掘领域必定是 R 的天下。

原文链接:http://www.kdnuggets.com/polls/2009/data-mining-tools-used.htm

SPSS(Statistical Product and Service Solutions) 时代终结,从此它叫做 PASW (Predictive Analytics SoftWare)。

旗下产品基本上名称也被换了个遍:

  • SPSS Clementine —— PASW Modeler
  • Text Mining for Clementine ——PASW Text Analytics
  • SPSS Dimensions ——PASW Data Collection
  • SPSS Statistics——PASW Statistics
  • ……

最早 SPSS 是做社会统计分析的,从它最初的名称(Statistical Package for the Social Sciences)就可以看出来。不知道是经营不下去了,还是美其名曰的战略调整。

业界变化大啊,和上次 S+ 被 IBCO Software Inc.收购一样,我又一次“后知后觉”。

Jack Noonan, SPSS Chairman, President and CEO, said, “SPSS is the only predictive analytics vendor to deliver the depth and breadth of software to capture customer feedback, predict behaviors and then act on the results by improving business processes. With important and valued feedback from customers, we have created a new, over–arching product portfolio name that builds on our 40 year legacy of innovation, enhanced performance, and robust deployment capabilities in Predictive Analytics.”

一句话评论:华丽地抹了层金粉,里头还是泥胎!

上次说到准备分析一下火箭的投篮点,今天补上一张球员投篮点和球队命中率的示例图:

注释:Hit Rate 部分,不同颜色的线条代表了第一二三四节的投篮命中率,也就是hat(beta)的值。 如果有人把图一帧一帧的看完,会发现:

  1. 火箭开局并不好,但在第一节后半段和第二节上半段发挥很好;其余时间发挥着实一般。
  2. 火箭攻击点大部分集中在两个区域:篮板前3英尺的水平线上和弧顶至禁区间区域。

是说,湖人成功将火箭进攻路线阻断?呵呵,比赛的时候我在写上面图的代码,没来得及看 ^_^

有意思的一个赛季,由于赛季之初 Artest 的到来,球迷们又开始 YY 松鼠姚的总冠军之路。不过可惜,随着 T-McGrady 的报废,基本上这赛季总决赛大门又一次提前关闭。紧接着球队的主力得分后卫 R. Alston 被换走,今天又签下 James White,我就纳闷了,为啥和火箭有关系的人我都关注过呢。 松鼠姚至今天(2009.03.05)共 28 次两双,占出场次数的 48%,场均数据并不惊艳。场均上场 32.9 分钟,得分为 19.8 分,篮板为 9.6 个。离场均两双还有一点点距离,给个及格分好了。

顺便做了下对火箭球员分析,共使用了 273 个火箭球员的相关变量,得到的结论解释了我几条疑问:

指标我就不多说了,爱打篮球的筒子一般都知道 FG、AST、REB 这类乱七八糟的指标,要说明的是 1722、532 这些数字是 ESPN 给 NBA 球员定义的编号,1722 就是 Y. Ming 了,其他的 532 为 T. McGrady,11 为 R. Alston,25 为 Artest ,1781 为 L. Scola ,3192 为 A. Brooks;而 1、0 则为方便记录胜负而设置的。

从图上不难找到火箭的关键球员,他们左右了每场比赛的胜负。对火箭成绩走向最关键的球员是 Y. Ming ,因为他在最根部,是决定下一个球员因素的前提(本赛季 T. McGrady 由于伤病困扰数据大幅下滑,不过从侧面说明 Y.Ming 已然是球队老大)。其他球员因素不必过多解释,数据显示结果唯一让我不满便是 S. Battier 的重要性,本来这次数据探索我就是朝着他去的,结果还是没有合适指标可以显示他的作用。再找时间做好了。

关于为什么 R. Alston 为什么会被换走,这里同样可以给大家一个清晰的解释:当 Yao 的 Field Goal 低于 5.5 时,同时 T. McGrady 的 AST 小于4.5 次时,R. Alston 的上场时间成为关键因素,不过抱歉的说,当他上场时间大于35.5 min 时,火箭会输!!估计莫雷应该用的是同样方法看到这一怪现象吧。那 R. Alston 在交易日截止之前被换走也就不难理解了。

阿德尔曼的普林斯顿体系是不是适合火箭。说实话,我也不熟。至今,我对经典的三角进攻都不知道如何开始。不过,火箭的 Team 数据(不包括20090305对爵士)可以说明一切。Exciting 的时刻来了:

  1. 如果火箭的得分(PTS)能够上到 102 分以上,那么这场比赛是拿定了。这种比赛个人认为应该是队员对教练战术执行彻底,进攻如行云流水,人挡杀人,见佛杀佛。这赛季以高于 102 的比分战胜的球队甚至包括马刺(103-84)、爵士(120-115) 等西部强队。
  2. 如果得分小于等于 102 分时,决定因素就转到防守篮板(DREB)上了。一般防守篮板小于31个时,输得概率比较高;不过即使防守篮板不济,当抢断大于10次时还是有希望得回胜利的。
  3. 得分小于 102,篮板大于 31 个,决定因素就变成了三分球试投(3PA)。只要投进三分球试投能够低于 19 个时,球队仍然可以以高概率赢得比赛(92%)。大家该冒出疑问了,为啥三分球试投数小了才能赢球,不是多了更好么。诚然从数字上看确实如此,但火箭三分多了,一般都是后卫在“浪投”,既不能对内线造成杀伤也不能迅速解决战斗。这也就是火箭从赛季之初一直在囤积后场的原因。只可惜,至今天,火箭的后场还是那么烂。

看看今天对爵士的比赛:火箭得分 94(没进攻),防守篮板 23(没防守) ,抢断为 8(没激情),你把这些数据按上图走一遍,是不是告诉你会返回 0。不输才怪!

0%