R 语言企业级数据挖掘应用
三月底参加了中国人民大学统计学院海峡两岸数据挖掘研讨会,和大家简单聊了聊R语言在京东商城的数据挖掘应用。本来想接着写篇博文说明一下, 一直也没腾出时间,今天补上。
1. 为什么要使用R语言
在互联网企业,在分析端使用闭源的商用软件几乎是不可能的,原因很简单:成本太高,不管是使用,还是研发及维护。 但我个人觉得这可能还不是最主要的原因,对于互联网企业来说,数据虽然获取更容易,但环境更为复杂。开源软件可以根据业务的变化 进行调整,但商业的闭源软件则很难做到。
三月底参加了中国人民大学统计学院海峡两岸数据挖掘研讨会,和大家简单聊了聊R语言在京东商城的数据挖掘应用。本来想接着写篇博文说明一下, 一直也没腾出时间,今天补上。
在互联网企业,在分析端使用闭源的商用软件几乎是不可能的,原因很简单:成本太高,不管是使用,还是研发及维护。 但我个人觉得这可能还不是最主要的原因,对于互联网企业来说,数据虽然获取更容易,但环境更为复杂。开源软件可以根据业务的变化 进行调整,但商业的闭源软件则很难做到。
一般来说,大家喜欢使用微软的产品 Power Point(PPT)来做幻灯片演示,但我对它基本没有什么好感,基本观点是认为它既不 Power 也没有 Point。当然不喜欢它也是有原因的:15 分钟的汇报需要搞很久才能达到好的一个效果。对于习惯使用 LaTeX 的我来说,beamer 是一个非常不错的选择,除了动画稍稍麻烦以外,其他所有 PPT 的功能它全部支持,PPT 不擅长的功能它也能支持(比如标签)。而且 beamer提供的模板着实漂亮,就更没有拒绝它的理由了。beamer 手册非常不错,其中一段是讲述如何准备演讲,简单翻译一下供大家参考。
2012年最后一天,北京新开了四条地铁线,分别是6号线的一期、8号线一期的南段、9号线的北段、10号线二期。这几条地铁极大的方便了市民的出行。鉴于北京地方台1号一整天都在介绍地铁开通的情况,不写点东西有点对不起北京市民的称呼,于是胡言乱语了如下文字。
增加这几条线路之后,北京地铁现在的形状是这样的:

地段的好坏不是那么容易区分,如果你常和置业顾问(中介)打交道,他们一般会说会说有如下几大因素影响板块价值:
RHive 是一种通过HIVE高性能查询来扩展R计算能力的包。它可以在R环境中非常容易的调用HQL,也允许在Hive中使用R的对象和函数。理论上数据处理量可以无限扩展的Hive平台,搭配上数据挖掘的利器R环境,堪称是一个完美的大数据分析挖掘的工作环境。
前段时间应朋友之邀请,在新华社某个栏目做了一期小节目,主题是彩票可不可以作为投资手段?
正好,借着这个机会说说大家对彩票的误区。
在国际上彩票的各期投注结果是需要进行随机性验证的,一般的验证由高校的研究所主导,一般来说 大概会有上百种统计方法来验证彩票开奖的随机性,并随时发布在官方网站上供民众查询。 比如09年我曾写过一篇博文,说明为什么福彩双色球是随机开奖的,也是利用了 一种证明随机性的方法。
同国际相比,国内福彩和体彩就明显有中国特色了,是采用一种叫做公证员公正的方式来保证彩票的公正性,而不是用更为科学的概率论。
虽说北大和北师大都有传说中的彩票研究所,但同两大彩票发行机构却并不同步,略有遗憾。