Beta

It’s a beautiful thing when free data meets free algorithm.

北京场

拖到今天写随笔,还是有很多想法!不过大家已经先我一步,已经有太云那儿,菁菁师妹那儿,还有遥远的益辉那儿。

12 月 5 日:

  • 堰平师弟非常辛苦,记得刚刚得知 yihui 师弟远赴美国后,我就在想,第二届会议 谁来组织?当时脑子里的第一印象就是堰平师弟,后来 yihui 临走前,大家去 K 歌,我还特意问了一下 yihui,果不其然……
  • 高涛、李程从统计图形角度对 R 软件进行了介绍,虽然我平日用的图形也很多,但这么系统详细的总结一定没少花心血。当时第一印象是台下的 SPSS China 和 SAS China 的兄弟姐妹听了是什么感受……(罪过罪过)
  • 菁菁师妹第一次认识是在 cos 上有一篇关于 RExcel 的用法的文章。师妹像极了我我大学时的同学,刚到会场时险些脱口而出。更令我惊讶的师妹的涉猎,江山辈出人才,巾帼不让须眉!
  • 钟其顶大哥以前就认识,记得第一次谋面谈的是 PLS,没想到的是 machine learing 的算法在食品行业居然有这么多的应用,佩服佩服!
  • 肖楠关于《R 环境安全特征初探和前瞻》给了大家一个全新的认识 R 的视角,记得会前我还特意询问了一下,结果听了一遍还是没懂。直到演讲一半时我才终于恍然大悟,是啊!R 的这个特性如果被人利用,损失可就大了!
  • 石油大学宫雨教授:通读 40 万行 R 代码的绝世牛人,从 IT 应用角度重新诠释 R 的优劣势。太牛了,没啥说的……
  • 刘永生老师使用 R 的时间也非常超前,2001(2003)已经开始在中国地质环境检测院使用 R,又一个孤独的世外高人。
  • 奚谭去年就见到一次,非常严谨的一个帅哥。讲的灰色系统理论,以前没怎么听过,有时间序列的感觉。太云那提了一句“统计界貌似关注很少”,自己有些孤陋寡闻了……
  • 祝迎春的本子里居然装的是正版 SPSS,晚间调侃“他笔记本里单软件就得100w+,大家赶紧打劫去,啊哈哈”。
  • 孙晓燕一行特地从北大深圳研究生院过来,虽然我不懂心理学,虽然没听太懂,但实在感动……

12 月 6 日:

  • 左辰应该是第三次见面了,印象最深的是他以前的一篇关于降维的博文,才俊
  • 太云的矩阵可视化又一次让我吃了一惊,关系的学科和技术太多了。相关矩阵都描述不了,我这文字就更不用提了,大家移步至优秀是一种习惯,或者直接参考 corrplot 包。
  • 陈丽云,山东大学的超级才女,和太云一样,看看博客啥都知道了。
  • 孙蝶,大P小N——开始还真没猜到是啥,听报告发现原来是变量大于样本数据的处理,又一次见到 lasso,额……
  • 王化儒博士在空间分析上的 R 应用也非常精彩,举止儒雅,尤其是从北师过来的,倍感亲切!
  • QSAR 是啥可能这辈子我都不会搞清楚了,但依稀记得演讲者马斌好像是手抄4000+数据的那个牛人,哈哈
  • 丁鹏演讲时说的“估计我很难把 Winbugs 讲清楚”,呵呵,青年学者中一杆 Bayes 大旗!
  • 黄志一的 WebR-R 给在座的科研人员打了一剂兴奋剂,要知道“云计算”可是现在主流

辛苦的会务组:

  1. 陈主席、范师弟、邱师弟(可爱的人)、关师妹,两位学弟
  2. 中南一行,当然还有远在美国的 yihui 。

遗憾:

  1. 得知吴喜之老师远赴伯克利,思绪万千。想起老师带我们学 R 的那一年,想起第一次看到 LaTeX 黑压压地编译,想起……
  2. yanlinlin 的演讲只能明年听得了,期待
  3. 如果不是6日晚上还有事,肯定去火车站陪张翔去了

12 月 14 日上海场

很早以前就听人说过,北有北师,南有华师,不过因为专业和地理原因,一直以为自己不会和华师有什么关系。这次承蒙张翔和焦静的辛苦组织,华师的资环和金统学院联合主办中国 R 语言会议(上海)。在华师不但让我见识了 LaTeX 、R 界的前辈——汤银才教授,还结识了一大批业界精英、青年学者,倍感荣幸。

华师的大门和我想象的差不多,里面古朴的建筑风格也别具一格。无奈天公不作美,上海这几日阴雨霏霏,没有好好的在华师内仔细转转。

最后是趣闻几则:

  • 中芯国际的林光启博士,演讲时提到自己生长于德州,然后马上注解了一句:“不是山东的德州啊,是美国的那个!”额……
  • 周六晚上大家一起聚餐,席间汤银才老师提到当年他和吴凌云的学术交流,Oh,那可是传说中的人物。汤老师还提到,他给统计系讲 R 的时候,会和大家说:“有问题就去 COS 上问,肯定有人回答!”啊.....
  • 回到住处,准备再补几张演讲材料,结果发现笔记本电力不足,遂向前台借插线板(notebook是欧货,需要欧标插头),被告知“对不起,没有!”于是乎,要补的材料,一概没加。第二天,大家发现演讲时间严重不足,还好没有插线板,不然……罪过!
  • 周日上午,林桢舜师兄做最后总结,说到:“我们一定要与时俱进……”,还不忘强调一下:“这是党说的!”我当时几乎翻了,因为林师兄是台湾人,博士期间来的大陆。不知道说的这个是不是我朝,OMG!
  • 傍晚同中南一行地铁内转车,路上一直在说上海地铁的自动门很恐怖,发生过很多次事故……在某一站换乘时,人太多,自动门发出警告时,刚好我是外面的最后一个,额!下意识退后一步,哈哈,隔着自动门和大家 goodbye !

最近忙着准备第二届中国 R 语言会议的报告,其中一篇是关于《R 在大规模数据整理及自动化报告方面的应用》,演讲里说到了 LaTeX,于是乎,顺手翻了翻以前的文档。结果非常惊讶地发现汤银才老师 2004 年的时候已经翻译了 pdfscreen,PPower4 的相关文档。这次汤老师在第二届中国 R 语言会议(上海)会有一篇《R 与 Winbugs》的演讲,非常期待。预祝 第二届 R 语言会议成功举办!

R 语言会议报告的摘要附下:

近年来高速发展的计算机技术极大地丰富了数据收集的方式与存储的总量。尤其是商业数据库优良的性能,为数据分析带来了极大的便利性。与此同时,数据规模和数据环境复杂性仍是我们需要面对的巨大挑战。作为当前数据分析领域最为活跃的 R 语言,不但提供了广泛的数据分析方法,而且为我们带来了灵活的扩展、便捷的编程,无疑是数据分析领域最优秀的环境。本文选取了一个侧面,主要介绍了 R 利用 Oracle 数据库进行大规模数据整理,以及利用 LaTeX 环境和 Sweave 技术实现自动化报告的若干技术和应用。

2009年10月20日 REvolution 消息,REvolution 获得来自 North Bridge 和英特尔的 900 万美元的风险投资。最为轰动的是:SPSS 软件的创始人之一,前 SPSS 的 CEO——Norman Nie 正式成为 REvolution 的 CEO!

REvolution 是一家专注销售基于开源统计分析语言 R 开发的统计建模软件的公司,据其自身报道,REvolution 解决了 R 在多线程计算、内存使用、高性能计算等关键性问题,且提供专业的商业统计服务。注: R 也有解决此类问题的包,可参见 HighPerformanceComputing

 国内很多介绍 SPSS 的资料一般都会有提到:

20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部……

而这三位研究生中最主要的一位就是上面所说的 Norman Nie。Nie 从1975 至 1992 年间一直担任 SPSS 公司 CEO,而后一直担任董事会主席和软件设计顾问。

REvolution 的 David Smith 说 Norman Nie:

he is deeply passionate about making Statistics better with R.

今年 SPSS 发生了很多事,比如 SPSS 重塑金身,比如 IBM 花费 12 亿美元收购 SPSS,但我认为 Norman Nie 转向 R 社区最让人兴奋!

visualfunhouse 看到一张视觉欺骗的图,非常有意思。闲话不说了,下面的图片里有一个人,找一找在哪里?

和作者一样,我瞪了5秒居然没找到那个隐形人,很是巧妙。其他类似的图请移步这里visualfunhouse上还有很多有意思的 Body Paint,作者是Liu Bolin(译音)。

R 各个镜像中的 Contributed Packages 越来越多,截至今日,已经达到1950个,单单拉动鼠标把所有的 包名 从 A 到 Z 过一遍也得 10 几秒。随便考你一道:最后一个 R 包是啥?

zoo?

呵呵,我的印象里一直是它,仔细瞧了瞧发现是个叫 zyp 的包。

又一次领略了 R 强大的扩展能力撒?这个特点给我们带来了一些烦恼,因为人类的大脑能够理解的概念是有限的,对于没有任何关联的概念,我们的识别能力一般不超过 7,而且 R 的涵盖范围实在太广。从我们的有限性(7个概念)和 R 的无限性这一角度讲,逐一认识这些包几乎是不可能的!不过还好,至少我们可以可以参考 CRAN 上的 Task Views,大致了解 R 包的使用方向。

我们换个思路,不是从 R 的使用方向上,而是从 R 包的依赖关系上?

这些 R 包并不是相互独立的。比如说,MASS 包依赖于 R (>= 2.5.0), grDevices, graphics, stats, utils 这些基础包;而又会有包依赖于 MASS 包,比如 yihuianimation ,当然还有可能有包依赖于 animation ……

遍历所有的包,我们就看到了一个网络,一个 R 包的网络。

为了简化起见,这里忽略了同其他包没有关系的包(当然并不是完全没有关系,所有的包都和 RR 的基础包有关,如果这样计量的话,会导致所有的包都会指向 R)。

首先截取了这个庞大网络的一部分:

从上图我们可以看到,标记点为215、271的两个包是我们研究的包网络中的两个关键点,这两个包分别是lattice、mvtnorm。

关于这两个包:
  1. lattice:网格绘图的基础包。很多包基于它扩展并不惊讶吧;
  2. mvtnorm:多元正态分布和t分布的概率密度函数、累计分布函数、分位数函数、分布随机数。多元分布的基础。

从 271(mvtnorm)向左上,又会有一个小的聚集。那个小的聚集中心(110),是 fBasics 包,如果各位对金融领域关注的话,应该知道它在其中的地位吧。

当然,由于抽取的是一个子网络,很多的连接都被生硬地隔断,因此出现了大量的孤立点。

如果我们把 CRAN 上的1950个包都放到我们的网络中会是这样:

最后说明:
  1. 第一张图的 包 id 换成 包名称 会导致 演示的视觉效果很差,网页又不支持 pdf 直接显示,只好把带包名的图放这(pdf)。
  2. 带包名的 ,1950 个包的全图就算了吧,单绘图就得 2 分钟,更别提调整参数了 ……
0%