Beta

It’s a beautiful thing when free data meets free algorithm.

2012年最后一天,北京新开了四条地铁线,分别是6号线的一期、8号线一期的南段、9号线的北段、10号线二期。这几条地铁极大的方便了市民的出行。鉴于北京地方台1号一整天都在介绍地铁开通的情况,不写点东西有点对不起北京市民的称呼,于是胡言乱语了如下文字。

增加这几条线路之后,北京地铁现在的形状是这样的:

1. 好地段是怎么度量的?

地段的好坏不是那么容易区分,如果你常和置业顾问(中介)打交道,他们一般会说会说有如下几大因素影响板块价值:

  • 学区,幼小初高
  • 临近医院,三甲
  • 交通方便,公交地铁
  • 社区成熟,配套完备
  • 空气好,水质好(上风上水上海淀)
阅读全文 »

RHive 是一种通过HIVE高性能查询来扩展R计算能力的包。它可以在R环境中非常容易的调用HQL,也允许在Hive中使用R的对象和函数。理论上数据处理量可以无限扩展的Hive平台,搭配上数据挖掘的利器R环境,堪称是一个完美的大数据分析挖掘的工作环境。

阅读全文 »

前段时间应朋友之邀请,在新华社某个栏目做了一期小节目,主题是彩票可不可以作为投资手段? 正好,借着这个机会说说大家对彩票的误区。

1. 先说说公正性

在国际上彩票的各期投注结果是需要进行随机性验证的,一般的验证由高校的研究所主导,一般来说 大概会有上百种统计方法来验证彩票开奖的随机性,并随时发布在官方网站上供民众查询。 比如09年我曾写过一篇博文,说明为什么福彩双色球是随机开奖的,也是利用了 一种证明随机性的方法。

同国际相比,国内福彩和体彩就明显有中国特色了,是采用一种叫做公证员公正的方式来保证彩票的公正性,而不是用更为科学的概率论。 虽说北大和北师大都有传说中的彩票研究所,但同两大彩票发行机构却并不同步,略有遗憾。

阅读全文 »

前段时间同事推荐《明朝那些事儿》,正好上班路上无聊,于是下载了电子版通读了一下。果然,作为汉族最后一个王朝——大明的历史非常有意思,各种不可思议,各种匪夷所思。个人觉得作者的确有功底,但精彩还是来源于辉煌壮丽的明史。

职业习惯,顺手把《明朝那些事儿》中所有的人物关系绘制一下,正好作为明史的温习:

阅读全文 »

R 2.14.0 版本以后,parallel 包被作为核心包引入 R,这个包主要建立在 multicore 和 snow 包的工作基础之上,包含了这两个包大部分功能函数,以及集成了随机数发生器。

实际上对于R来说,并行化可以在不同的层级上实现:比如,在最底层,现在的多核CPU可以实现一些基础的数值运算(比如整数和浮点算数); 高级一点的,一些扩展 BLAS 包使用多线程并行处理向量和矩阵的操作,甚至有些R扩展包,通过调用 OpenMP(注释1)或 pthreads 来使用C 级别的多线程方式。

阅读全文 »
0%