Beta

It’s a beautiful thing when free data meets free algorithm.

1. 案例场景

假设你是肯德基的门店运营负责人,某天,你们决定在某家分店(称为 A 店)推出买一送一的促销活动。你想评估这项促销活动的效果,看看它是否提高了这家分店的销售额。

这个评价问题在于,你只有一家分店进行了促销活动,其他的分店都没有进行相同的促销。你无法直接比较 A 店的销售额和没有进行促销的分店的销售额,因为这些分店可能本身就存在很多差异,比如地理位置、人流量等因素。

但通过使用其他分店(控制组)的数据来构建一个“虚拟”的对照组,这个虚拟的对照组在没有促销的情况下表现得和 A 店相似。通过比较促销之后实际的 A 店和这个虚拟对照组的业绩,就可以评估促销活动的效果。

  • 收集 A 店在促销活动前后的一段时间内的销售数据。
  • 收集其他分店在同一时间段内的销售数据。
  • 选择一些影响销售额的关键特征,比如每天的顾客数量、人均消费额等。

通过对其他分店的特征进行加权平均,构建一个“合成”分店,使其在促销活动开始之前的特征与 A 店尽可能相似。例如,假设你选择了三家分店 B、C 和 D,它们在促销开始前的特征分别是:

  • B 店:顾客数量 100 人,人均消费额 20 元;
  • C 店:顾客数量 150 人,人均消费额 25 元;
  • D 店:顾客数量 200 人,人均消费额 30 元。

如果你发现 A 店在促销开始前的特征是顾客数量 150 人,人均消费额 25 元,那么你可以给 B、C、D 店分配权重,使得加权平均后的特征与 A 店相近。比如,权重可能是 B 店 20%,C 店 60%,D 店 20%。

实际和合成控制组有这样的比较效果:

  • 促销活动前 A 店销售额序列和合成组(由其他分店加权平均得到)销售额序列基本一致。
  • 活动后,比较 A 店的实际销售额与合成控制组的预测销售额。
  • 如果 A 店的实际销售额显著高于合成控制组的预测销售额,那么可以认为促销活动是有效的。

以上是一个简单的原理说明,下面从详细的数学理论做完整推导和扩展。

阅读全文 »

本文可以帮助大家理解 ChatGPT 这类的大语言模型是如何在我们的日常生活中发挥作用。

1. 解决的是什么问题?

假如你叫刘弱(强)西(东),现在经营一家售卖食品的电商平台 Bmazon,拥有 70000 件各类食品(包括零食、糕点、巧克力、糖果、猫粮、狗粮……)。这些商品对应有自己的描述和顾客购买使用后的评价。如果有一个机器人,它能通过和客户对话,总结顾客的潜在购买意图,给出推荐商品。这样聪明的机器人能不能来一个呢?

先随便来一个用户购买咨询:

有什么好吃的坚果推荐购买吗?

先别看答案,闭上眼睛暂停十秒钟!如果你是客服导购,你会怎么回答?

....

这个机器人这样回答的:

这些商品是各类坚果产品,包括混合坚果、坚果棒和单品种坚果如碧根果和夏威夷果等。它们的特点是:品质上乘,口感绝佳,深受大人小孩喜爱;部分产品采用完美配比,融合了杏仁、蜂蜜烤花生、芝麻棒、黑巧克力裹 soy 坚果以及软糯的核桃和山核桃,甜度适中;部分坚果无盐且新鲜美味,特别适合健康饮食需求,如控制血压者食用;有些产品提供大包装,经济实惠;还有自制混合坚果与干果,适合早餐搭配,营养丰富。另外,部分品牌因其出色的产品线和快速免费送货服务而受到高度推荐。总体而言,这些坚果产品不仅美味可口,还具有多种健康益处,是聚会、节日礼物或日常零食的理想选择。

以及相关的商品推荐,您可以在 Bmazon 上购买:

这三款产品,它们长这个样子:

是不是很神奇?这个问答型引擎可以用 90 行代码实现。喔?有点意思……且听我讲讲如何实现。

阅读全文 »

叶文洁是第一个通过太阳向宇宙发出了信号的地球人,从而暴露了地球在茫茫宇宙中的坐标,成为了三体人进攻和侵略地球的开始。

《三体》小说贡献了太多的经典桥段,“不要回答,不要回答,不要回答”的黑暗丛林法则也让人印象深刻。不过,我们较个真,从科学的角度聊聊需要具备怎样的条件,才能把地球的坐标发出去。为了类比,我们小处着眼,先理解一下在地球上的坐标是咋出来的?

1. 坐标系

世界大地测量系统(World Geodetic System, WGS)是一种用于地图学、大地测量学和导航(包括全球定位系统)的大地测量系统标准。WGS 包含一套地球的标准经纬坐标系、一个用于计算原始海拔数据的参考椭球体,和一套用以定义海平面高度的引力等势面数据。

地球的形状不是完美的球形。因此,当我们试图近似地球的形状时,需要一个更好的模型。这个模型就是 WGS84 坐标系:它的坐标中心点为地球质心,采用一个十分近似于地球自然形状的参考椭球体,作为描述和推算地面点位置和相互关系的基准面。

有了这个椭球体,地球上任意一个点就可以在这个体系中有唯一投影。这个投影一般使用经度和纬度两个数据,表达该点的位置(也可以有高度)。

WGS84 是世界上第一个统一的地心坐标系(最后修订于 2004 年),因此也被称为大地坐标系、原始坐标系。不同的地区地理信息差别较大(海拔、地表趋势等),为了更精确的表达信息,各地使用的参考椭球体(或参数)不同。欧洲石油调查组织(EPSG)的成员在 1985 年发起了一个介于1024 和 32767 之间的 EPSG 注册表,这个注册表包含了大地基准面、空间参考系统、地球椭球体、坐标变换和相关测量单位等信息。

阅读全文 »

1. 研究背景

1988 年 11 月,California 发起了一项名为”99 号提案“的选民倡议,该提案是美国第一个现代大规模烟草控制项目(次年 1 月正式生效)。在该法案的有两项主要内容:

  1. California 的每包香烟香烟的消费税(cigarette excise tax)提高了 25 美分;
  2. 法案的所得收入专项用于控烟的教育与媒体宣传。

P.S. California 香烟消费税现在是每包 87 美分,为美国最高的州之一。

该法案在后续引发了一系列关于室内清洁空气的地方立法。那问题来了:

在 California 该项法案的实施,对烟草控制是积极的还是消极的?影响有多大?

阅读全文 »

运筹学(Operational Research)是一门应用于管理有组织系统的科学,最早的朴素思想在中国的古文献中多有记载,比如耳熟能详的田忌赛马的故事。运筹的一般思想是:在各项资源条件优先的情况下,如何确定一个方案,使得预期目标最优;或者为了达到预期目标,确定资源消耗最小的方案。在二次世界大战之后,组织和企业的活动规模更大,信息系统化空前完备(想象一下水晶报表的诞生多么让人兴奋),加之各类数学算法模型层出不穷,研究如何做好决策的运筹学也有了极大的发展。

运筹学方向很多,比如线性规划、非线性规划、整数规划、目标规划、动态规划、排队论、对策论等。笔者偷个懒,找一些在整数规划体系下的例子,让大家感受一下在日常企业中这些方法的应用。

1. 一个简化问题

公司有 4 条生产线,每条生产线的月产量分别为 0.56, 3.11, 3.04, 2.11。近期因为经济不景气,需要将月产量总和控制在 5 以内,但出于总成本摊销的考虑,又要保证产出尽可能的大,那么哪几条产线需要被关闭。我们盲猜结果:3 和 4 需要被关闭。当然这个问题手指头可以掰过来,超过十个手指头怎么办?

阅读全文 »
0%