Beta

It’s a beautiful thing when free data meets free algorithm.

前段时间应朋友之邀请,在新华社某个栏目做了一期小节目,主题是彩票可不可以作为投资手段? 正好,借着这个机会说说大家对彩票的误区。

1. 先说说公正性

在国际上彩票的各期投注结果是需要进行随机性验证的,一般的验证由高校的研究所主导,一般来说 大概会有上百种统计方法来验证彩票开奖的随机性,并随时发布在官方网站上供民众查询。 比如09年我曾写过一篇博文,说明为什么福彩双色球是随机开奖的,也是利用了 一种证明随机性的方法。

同国际相比,国内福彩和体彩就明显有中国特色了,是采用一种叫做公证员公正的方式来保证彩票的公正性,而不是用更为科学的概率论。 虽说北大和北师大都有传说中的彩票研究所,但同两大彩票发行机构却并不同步,略有遗憾。

阅读全文 »

前段时间同事推荐《明朝那些事儿》,正好上班路上无聊,于是下载了电子版通读了一下。果然,作为汉族最后一个王朝——大明的历史非常有意思,各种不可思议,各种匪夷所思。个人觉得作者的确有功底,但精彩还是来源于辉煌壮丽的明史。

职业习惯,顺手把《明朝那些事儿》中所有的人物关系绘制一下,正好作为明史的温习:

阅读全文 »

R 2.14.0 版本以后,parallel 包被作为核心包引入 R,这个包主要建立在 multicore 和 snow 包的工作基础之上,包含了这两个包大部分功能函数,以及集成了随机数发生器。

实际上对于R来说,并行化可以在不同的层级上实现:比如,在最底层,现在的多核CPU可以实现一些基础的数值运算(比如整数和浮点算数); 高级一点的,一些扩展 BLAS 包使用多线程并行处理向量和矩阵的操作,甚至有些R扩展包,通过调用 OpenMP(注释1)或 pthreads 来使用C 级别的多线程方式。

阅读全文 »

第13期KDnuggets 关于数据挖掘软件的调查结果新鲜出炉,调查了对于过去的 12 个月里实际的项目过程中使用了哪些数据挖掘(分析)软件?不出所料,底层语言使用频率最高的是依旧是 R 语言、SQL、Java和 Python。而从软件工具角度上看,R、Excel和RapidMiner则名列三甲(去年R排名第二),具体排名如下图:

可以看到,排名靠前的以开源软件为主,商业软件则相对靠后。造成这种现象的原因很多,其中一条比较重要的因素就是当今社会复杂的数据环境,必须有更加灵活的软件做支持,灵活则是生命力。这个角度上看,闭源的商业软件依旧停留在上个世纪 70 年代 batch 的方式,曾经积攒的优势越来越不明显。

对于同 R 语言同级别的 SAS 而言,在这个调查下其使用流行度进一步萎缩。甚至有人估计,2015 年将是 SPSS 和 SAS 历史的终点。

其实我不太想看到这一天~~

在我还没回过神的时候,今年的 R 语言会议北京场己经结束,伴随着早上迷糊的送走李舰,意味着这次相聚终于曲终人散。本来我不是伤感的人,但今天看到邱怡轩师弟的一句微博:

感谢几位引路人。@谢益辉 @刘思喆 @雁起平沙 @thinkfan

这个中滋味……

这些年,和周围的朋友们一起成长,一起为了一个目标努力。大家同分享,同分担,俨然一个大家庭一样,想到马上这些优秀的师弟、师妹们都会远赴大洋彼岸,真的很失落。

R会议结束后,大家又一起和熊师妹过生日party,遥想去年还有江堂,现已身居美帝。紧接着就是轩、熊和岚,明年的这时候再聚又会少了很多。也许相聚的次数越来越少,正如堰平所说,有的人一转身就是一辈子。

最后来张照片——非常荣幸能够受到伯克利统计系郁彬教授的教诲。郁老师同大家分别时,饱含深情的一席话:

You are the future of statistics!

与致力于统计事业的各位共勉!

0%