Beta

数量庞大的包，复杂的网络

发表于 2009-09-05 分类于不务正业的 R

R 各个镜像中的 Contributed Packages 越来越多，截至今日，已经达到1950个，单单拉动鼠标把所有的包名从 A 到 Z 过一遍也得 10 几秒。随便考你一道：最后一个 R 包是啥？

zoo？

呵呵，我的印象里一直是它，仔细瞧了瞧发现是个叫 zyp 的包。

又一次领略了 R 强大的扩展能力撒？这个特点给我们带来了一些烦恼，因为人类的大脑能够理解的概念是有限的，对于没有任何关联的概念，我们的识别能力一般不超过 7，而且 R 的涵盖范围实在太广。从我们的有限性（7个概念）和 R 的无限性这一角度讲，逐一认识这些包几乎是不可能的！不过还好，至少我们可以可以参考 CRAN 上的 Task Views，大致了解 R 包的使用方向。

我们换个思路，不是从 R 的使用方向上，而是从 R 包的依赖关系上？

这些 R 包并不是相互独立的。比如说，MASS 包依赖于 R (>= 2.5.0), grDevices, graphics, stats, utils 这些基础包；而又会有包依赖于 MASS 包，比如 yihui 的 animation ，当然还有可能有包依赖于 animation ……

遍历所有的包，我们就看到了一个网络，一个 R 包的网络。

为了简化起见，这里忽略了同其他包没有关系的包（当然并不是完全没有关系，所有的包都和 R 或 R 的基础包有关，如果这样计量的话，会导致所有的包都会指向 R）。

首先截取了这个庞大网络的一部分：

从上图我们可以看到，标记点为215、271的两个包是我们研究的包网络中的两个关键点，这两个包分别是lattice、mvtnorm。

关于这两个包：

lattice：网格绘图的基础包。很多包基于它扩展并不惊讶吧；
mvtnorm：多元正态分布和t分布的概率密度函数、累计分布函数、分位数函数、分布随机数。多元分布的基础。

从 271（mvtnorm）向左上，又会有一个小的聚集。那个小的聚集中心（110），是 fBasics 包，如果各位对金融领域关注的话，应该知道它在其中的地位吧。

当然，由于抽取的是一个子网络，很多的连接都被生硬地隔断，因此出现了大量的孤立点。

如果我们把 CRAN 上的1950个包都放到我们的网络中会是这样：

最后说明：

第一张图的包 id 换成包名称会导致演示的视觉效果很差，网页又不支持 pdf 直接显示，只好把带包名的图放这（pdf）。
带包名的，1950 个包的全图就算了吧，单绘图就得 2 分钟，更别提调整参数了 ……

水立方和 Voronoi 原理

发表于 2009-08-29

还记得第一次看到水立方时的惊讶么？

是什么这么吸引我们？是有如天空般的颜色？还是那气泡似的形状？

从水立方的外墙结构上看，不但外观美观，而且十分紧凑。水立方外墙为什么会有这样的性质，是因为它上应用了一项最优化的技术，即Voronoi 原理。

Voronoi 图也常常被称为 Dirichlet 格局（Dirichlet tessellation）。通俗讲，其原理是一项从点到面的技术。它的每个多边形只有一个"生成点"，而这个多边形上的每个点到"生成点"的距离总是比到其他"生成点"的距离要小（是不是想到了 K-means 算法？）。

在建筑设计上，有设计人员争论这类方法定义为“参数化设计”。认为这种方法不能同传统的、依靠灵感的设计方式相比，因为这种方法高度依赖计算机，只需要简单改变若干参数就能得到设计方案。但这个论断，恰恰忽略了“参数化设计”背后的数学意义。

既然 Voronoi 是一种最优化的算法，那么除在建筑学上给我们带来的美轮美奂的视觉效果外，它在空间统计上同样也有应用。

下面，我根据各个省会城市（包括香港、澳门）的地理位置，利用 Voronoi 原理，计算每个省最佳控制范围（使用红色的线条标记）：

虽然理论值（最优）和现实值（行政区划、地理）总有差距，但是，比较一下会发现一些值得探讨的现象：

内蒙古应该好好的规划一下，从东边到西边实在太远了，把西边的划给宁夏可能好点；东边划给北京、东三省；
河北北部，不论是属于北京还是天津都会好些，记得我小的时候，宁可去北京、天津，也不乐意去遥远的省会--石家庄；
青海应该把甘肃的北部包括进去；
上海、香港、澳门有一部分管辖区也也不错么：）

整体上看，大部分省的行政区划还是符合 Voronoi 原理。也就是说，单纯从空间距离的角度来看，我国的行政区划还是比较不错的。，

从小数到分数

发表于 2009-08-08

很多时候，在社会调研中会出现一些小数（或百分数），而这些数字背后隐藏的信息也常常被统计人关注。比如 COS 主站上的这篇文章--《从调查报告中的比例数字说统计人如何甄别统计假象》，yihui 生动地为我们展示了一种考量问题的思路。

正如文章中所说的，如果我们对数字足够敏感的话，很容易判断出 0.6667 的分数是 2/3 ，0.625 的分数是 5/8，0.14286 的分数是 1/7。但我们的经验毕竟有限，不可能穷尽所有的数字，通过一个算法来确定分数是十分有必要的。

法里序列（farey sequence）也是考虑这类问题的一个角度。如果给定法里序列的 n 足够大，那么我们必定能够将逼近出一个和小数相等的分数F_i[j]。

法里序列 F_i （i=1 到 n）：

F₁ = {⁰⁄₁, ¹⁄₁}

F₂ = {⁰⁄₁, ¹⁄₂, ¹⁄₁}

F₃ = {⁰⁄₁, ¹⁄₃, ¹⁄₂, ²⁄₃, ¹⁄₁}

F₄ = {⁰⁄₁, ¹⁄₄, ¹⁄₃, ¹⁄₂, ²⁄₃, ³⁄₄, ¹⁄₁}

F₅ = {⁰⁄₁, ¹⁄₅, ¹⁄₄, ¹⁄₃, ²⁄₅, ¹⁄₂, ³⁄₅, ²⁄₃, ³⁄₄, ⁴⁄₅, ¹⁄₁}

F₆ = {⁰⁄₁, ¹⁄₆, ¹⁄₅, ¹⁄₄, ¹⁄₃, ²⁄₅, ¹⁄₂, ³⁄₅, ²⁄₃, ³⁄₄, ⁴⁄₅, ⁵⁄₆, ¹⁄₁}

F₇ = {⁰⁄₁, ¹⁄₇, ¹⁄₆, ¹⁄₅, ¹⁄₄, ²⁄₇, ¹⁄₃, ²⁄₅, ³⁄₇, ¹⁄₂, ⁴⁄₇, ³⁄₅, ²⁄₃, ⁵⁄₇, ³⁄₄, ⁴⁄₅, ⁵⁄₆, ⁶⁄₇, ¹⁄₁}

F₈ = {⁰⁄₁, ¹⁄₈, ¹⁄₇, ¹⁄₆, ¹⁄₅, ¹⁄₄, ²⁄₇, ¹⁄₃, ³⁄₈, ²⁄₅, ³⁄₇, ¹⁄₂, ⁴⁄₇, ³⁄₅, ⁵⁄₈, ²⁄₃, ⁵⁄₇, ³⁄₄, ⁴⁄₅, ⁵⁄₆, ⁶⁄₇, ⁷⁄₈, ¹⁄₁}

但这个过程会比较麻烦，F₁₀₀₀ 已经达到300927 个数字。幸好 R 中的 MASS 包提供了 fractions 函数。这个函数使用有理近似的方式，将小数转化为分数（连分数）形式。比如《从调查报告中的比例数字说统计人如何甄别统计假象》中提到的 29.1667% 这个数值：

> fractions(0.291667)
[1] 7/24

不过，既然是近似算法，这个函数对小数的精确度要求还是蛮高的，而且最好不要用无理数去逗人家。

> fractions(pi)
[1] 4272943/1360120

IBM 花费 12 亿美元收购 SPSS

发表于 2009-07-29

SPSS 在首页显著位置公布 An important message for our customers and partners，同 IBM 共同宣布 SPSS 被收购的 definitive agreement。这 SPSS 改名还没几天，又有了这么大的动作，BI 界不太平啊！

IBM 的 Press 里有段话很有意思：As companies attempt to control costs and use resources more wisely, IDC estimates that the worldwide market for business analytics software will swell to $25 billion this year, growing 4% over 2008.(1)