Beta

周末看房记

发表于 2010-08-10 分类于亲历

上周末一时无聊，跟朋友跑去看房子。回来总结一下，当作经验和大家分享一下。现在这年代，看房子主角向来都是职业顾问（俗称中介），跟中介打交道，斗智斗勇那是相当有意思！回想起来，看房子的过程，几乎可以说是一部部大片的集合！且请听我细细道来：

看房子的地带有些远，通州九棵树附近（北京除了五棵松以外，还有九棵树，囧）

因为不是自己买房子，所以心态比较随意。等我睡饱爬起，吃过早饭，收拾妥当已然11点有余。慢条斯理的奔向长椿街，记录了一下从长椿街到九棵树的地铁运行时间，差不多1小时。出轻轨，打黑车，果然被黑之，忍之……

奔向朋友看中的房子，留意了一下小区的环境——环境确实非常不错，低密度6层板楼，让人很放松的感觉。房主是个搞艺术的，内部装修非常有品位，当听到中介MM说物业费是每月0.9元时，我自己差点没忍不住，要出手。

警匪篇

我见到的第二波中介一行有5个，其中三个男的，各个满脸横肉，凶神恶煞一般，若不是说带我们去看房子，我还真把他们当成劫匪了。不过最让我纳闷的是，总共就我们3个看房的，来5个中介陪同，兴师动众。搞得卖房的业主开门时都愣了，明显提高了警觉（估计当时想的是不是抢劫）。

这段时间中介日子不好过，真热情啊～～

科技篇

第三波中介是店长加助理组合（一个中介店面会有3、4个店长），店长颇能侃，一边走一边胡扯，其实聊的和房子没点实际关系。更牛的是，最后一套房子也没给我们看，直接把我们忽悠到他店里了，现在想想也纳闷的很，怎么当时就听他的了。

最奇怪的是，进到他们的店里，我们3人的手机全没信号。本来，一路上不同的中介给我们通电话，突然手机没了信号，没有电话可接，相当不习惯。中介谈生意的手段非常高明：许诺我们中意的那套房子的业主30分钟必到，马上可以进入真刀真枪的划价阶段。然而30分钟过后……中介解释为：在路上，再等30分钟……又一个30分钟过去，中介解释：下班点，路上，有些堵（周日，囧），再等一刻钟……仍没到，解释：手机打不通了！不信你听听～～再等5分钟……演的真像，绝对不亚于我们敬爱的影帝爷爷。

就这样从4点半耗到了7点。事后我又看了看别人看房经历，发现中介店里都会有个房间可以屏蔽手机信号的，为什么把我们拉到店里，恐怕是不想让别的中介从抢走这单生意吧（高科技成就业务，真NB了）。

惊悚篇

第四波中介是两小伙儿，其中的一个文质彬彬，颇有好感。路上，聊到我们刚刚看的一套房子，中介告诉我们，那是小区里最便宜的一套。而后问我们，上一波的中介有没有告诉我们便宜的原因。当时我就冒疑问了，里面还有文章？

中介小伙儿说，你们没看到他们正对楼下的红垫子么？没觉得有问题？我心说了，估计可能要说屋里面有人去世之类的话题，不过也很正常么。但后来，中介小伙儿说的话还是让我打了个冷战：

“这楼下住了个老头，就一个人儿，有天直接挂在屋里了，但也没人知道。过了一个月，天气炎热，尸体腐烂，散发出恶臭才被邻居发现……后来医院过来人，整个楼都是福尔马林消毒水。上面的住户受不了，想快速出手……”

惊悚归惊悚，我其实是对着老头的子女是很有看法的。老头就一个人，不在身边照顾就罢了，电话也不勤着点打。真是林子大了，什么鸟都有。

后编

中介MM，中介GG都太牛了，坐在屋里谈费用的时候，手里只用一台20元的计算器完全搞定。嘴里还念叨着，这我们可以给你避税，这儿我们有优惠……

我还好事了一下，提议搞个Excel表，把房价输入，生成明细单，你我这边都省时间。结果被中介鄙视了一下，理由是周围政策环境变化是很快的，这东西只能装脑子里（言外之意，只能意会不能言传，额……）

据中介说，买房子有个费用叫“代书费”，是北京建委收的，收费的缘由是要求网签，而网签是由建委“代书”的，故要收这一笔。问题是，这笔费用不是常量，而是房价×0.5%，也是一笔不小的银子。我没忍住又好事了一把，搜了一下所谓的“代书费”，原来又是中介巧立名目。实际是“10元工本费和80元手续费”。

额，这中介也太无良了吧！

Oracle数据库开始支持R语言

发表于 2010-06-08

一则令人兴奋的简讯：

据Oracle官方博客最近更新的 New R Interface to Oracle Data Mining Available for Download，甲骨文开始正式支持R语言在Oracle数据库中的应用（简单的非官方说法是：甲骨文贡献了一个提供Oracle和R之间接口的附加包）。

援引博客中对R-ODM(R-Oracle Data Mining)的介绍：

R-ODM is especially useful for:

Quick prototyping of vertical or domain-based applications where the Oracle Database supports the application
Scripting of "production" data mining methodologies
Customizing graphics of ODM data mining results (examples: classification, regression, anomaly detection)

众所周知，R在实现原型算法方面有着不可替代的巨大优势。诚然，通过R实现的一般性数据挖掘算法都可以嵌入到数据库中，但Oracle提供的这个接口，极大地提高了挖掘算法的部署效率。

今天（2010.06.08），CRAN上更新了RODM包的1.0-2版本，支持Windows、Linux、MacOS X系统。

下面是RODM包帮助文档中的一个例子，可以初步地体会算法高效的部署：

## Not run:
x1 <- 2 * runif(200)
noise <- 3 * runif(200) - 1.5
y1 <- 2 + 2*x1 + x1*x1 + noise
dataset <- data.frame(x1, y1)
names(dataset) <- c("X1", "Y1")
RODM_create_dbms_table(DB, "dataset")   # Push the training table to the database

glm <- RODM_create_glm_model(database = DB,    # Create ODM GLM model
                             data_table_name = "dataset",
                             target_column_name = "Y1",
                             mining_function = "regression")

glm2 <- RODM_apply_model(database = DB,    # Predict training data
                             data_table_name = "dataset",
                             model_name = "GLM_MODEL",
                             supplemental_cols = "X1")
windows(height=8, width=12)
plot(x1, y1, pch=20, col="blue")
points(x=glm2$model.apply.results[, "X1"],
       glm2$model.apply.results[, "PREDICTION"], pch=20, col="red")
legend(0.5, 9, legend = c("actual", "GLM regression"), pch = c(20, 20),
                col = c("blue", "red"),
                pt.bg =  c("blue", "red"), cex = 1.20, pt.cex=1.5, bty="n")

RODM_drop_model(DB, "GLM_MODEL")            # Drop the model
RODM_drop_dbms_table(DB, "dataset")   # Drop the database table
RODM_close_dbms_connection(DB)
RODM_close_dbms_connection(DB)

说一句题外话：R的影响力除了在统计分析领域（SAS、SPSS、Statistica已经都开始支持R接口）外，已然发展到了商业数据库领域。

北京房地产网上签约情况

发表于 2010-03-04

最近两会期间，房地产又一次成为焦点中的焦点，各位代表各抒己见，据说在政协的各项提案之中，关于房地产市场的提案几乎占据半壁江山。

房价涨与不涨，各位代表是各抒己见，有声音说北京房价2年内会涨到4万，而且还有佐证。当然俺们的总理最近5年一直在说这事，童鞋可移步这里，当然还有一张漫画，这里就不贴了，太不Harmany。若感兴趣可以使用 blogtd + 总理姓名 google 之（可能得翻墙出去）。

人家说啥都不如自己看看，来点实际的。关注一下最近几年北京房地产市场每天网上（期房、存量房）签约的套数。

（首先声明，房地产市场比较复杂，比如官啊、商啊、摇号啊、中介啊、银行啊、炒房团啊，空军、多军……指标忒多，所以我一直也没搞太明白。搞不明白也想凑一凑热闹，与时俱进嘛！扔两张图上来，大家笑笑）

2008年9月1日至今的期房（不包含经适房、限价房）签约情况：

其中的时点数据不包括：

2009.01.25 - 2009.02.01 春节
2009.11.02，2010.01.10，2010.01.16 调试
2010.02.13 - 2010.2.19 春节

如果只看2008年后半年，会发现其实每天签约的期房数量也不是很多，一直都在100套左右。不过在年底的时候，随着第一次楼盘降价潮的来临，部分刚需释放，期房签约的数量要明显高于平日。

假设2008年是期房市场正常年的话，那么2009年几乎可以用“疯狂”二字来标记北京的期房市场。每天平均400套的签约数量，动辄200、300万的房价，都贵成这样了，被谁买去啦？

阅读全文 »

用 LaTeX 放大 pdf 文档

发表于 2010-03-01

2009年12月，hastie教授主页上更新了勘误后的The Elements of Statistical Learning II。这部机器学习领域的巨著，做数据挖掘或者统计分析的同行应该比较熟悉，不过这本书在美帝的 Amason 上要卖 80$，非常不符合中国特色的社会主义！

好在 Hastie 几位大牛深刻体会广大发展中国家莘莘学子的购买能力，在其主页上提供了免费的pdf版本。不过pdf版本有个小问题：排版是为了a4打印而设计的，白边太多，在电脑上看或者打印出来极为不爽。

下面提供一个解决方案来处理这个问题——使用LaTeX中的pdfpages宏包。具体LaTeX代码参考如下：

\documentclass[a4paper,12pt]{report}
\usepackage[final]{pdfpages}
\begin{document}
\includepdf[pages=19-26, scale=1.3,
delta=0mm 5mm, frame]{ESLII_print3.pdf}
\end{document}
\endinput

使用PDF LaTeX编译。主要参数非常简单，即从ESLII_print3.pdf中提取第19至26页（第一章），并放大1.3倍（成功剔除掉多余的白边）。

中国及周边版图地震情况可视化

发表于 2010-01-26

大自然的力量永远让人敬畏，地震、海啸、陨石、雷击……因为我们在大自然的面前如此渺小，所以我们必须协作，必须发展科技，必须懂统计：）

说到地震，我可能比较敏感，因为我是唐山人。虽然 76 年唐山大地震时，我还没有形成碳水化合物形态，但后来，每每听到老一辈讲起当时的惨烈，心常戚戚。

讲几则作为唐山人的小故事：

小时候对地震的初相识：有一次刚刚从床上爬起来，正在懒洋洋的坐着穿衣服，就发觉床开始做规则的前后晃动。当时年龄小，很无知，只知道傻乎乎地沉浸在如秋千般的跳动中，那叫个带劲……
有一次上课，感觉课桌在晃动，没法看书，于是停下来查看周围哪个同学在晃。检查一圈发现周围几个同学没有一个再晃！结果，紧张地直接拍案而起，大呼——地震啦（事后新闻证明是真的）！在我们那儿，这点比较好：即使是课上误判地震的这种事儿，一般老师都是笑笑而过；）
每年我们那都会有地震的谣言，而且说的神乎其神，俺老爸一般会守夜（感谢俺老爸！）。或者天气好的话，干脆去广场之类空旷的地方，找地方打地铺。当然一般都是打牌、聊天到 24 点，然后回家睡觉。

恩，不多扯了，言归正传。自从汶川大地震以后，国人对地震明显敏感很多。且不说海地，单单前两天（24日）山西河津、运城地震就让然琢磨不懂：有人说，21日山西省地震局辟谣称不会有地震，但运城震感明显。为什么地震局会出来辟谣，仔细一读，原来才知——地震局指的是“破坏性”地震。

但有个问题：

国务院1995年颁布的《破坏性地震应急条例》，破坏性地震指“造成一定数量的人员伤亡和经济损失的地震事件”，并没有规定特定的级数。

这破坏级地震可不是闹着玩的，得仔细瞧瞧最近这地震都发生在哪里了，震级多大？是不是会对我们构成威胁！？于是有了下面这张图——最近一周中国及周边版图地震情况（1月20日至1月25日共计六天）：

数据童鞋们可以在这里查看，里面的震级需要注意一下，有Ms和ML两种，换算关系如下。但具体什么意思大家直接 wiki 好了。

ml=(1.17mb+0．67)/1.13

ml=(ms+1.08)/1.13

一些说明（不是写商业报告，偷工减料啦）：

蓝色的背景是地震点的密度——也许是喜马拉雅造山运动，也许是三峡工程，不管怎样，四川地区不太平啊！弟兄们小心！

红色的点代表地震的位置，其大小表示震级的大小。

从1月20日至1月25日，版图周边共计有901条地震记录（有点吓人）！其中大于ML5级的一共两次：

2010-01-24  10:36:13.8       35.45   110.70       15 Ms4.8  天然地震        山西河津
2010-01-21  10:02:02.8       13.70   125.85       33 Ms5.1  天然地震  菲律宾群岛地区

最后我们再回头看一下，最近一周地震的震级（ML）分布：

至少可以长舒一口气，原来大部分都是小震，不具“破坏性”的居多。