A/B测试算法大揭秘 | 一切都从这个定理开始
对于通过A/B测试来优化产品的用户而言,置信区间无疑是最关注的元素之一,它可以反映出试验版本与对照版本之间的真实提升范围。但是置信区间背后的原理,以及具体的计算方法是怎样的?从今日起,我们将为你逐步揭开置信区间的神秘面纱,解答你的疑惑。本文是第一章,一切先从奠基性的定理——中心极限定理说起。
关于正态分布
在正式介绍中心极限定理之前,需要先了解一下什么是“正态分布”。
以掷2颗骰子为例,对所掷的点数求和并将数值在坐标轴上标记出来,当掷出次数增大到无限时,坐标轴上的散点就会呈现出“正态分布”的形式。
因其曲线形态呈现出两头低、中间高、左右对称的样式,正态分布又被称为钟形曲线。它是概率分布函数里最重要的一个分布类型,体现了随机性的最基本规律。
在正态分布的表达式中,有几个比较重要的参数:样本均值x、总体均值μ、方差σ。纵轴表示概率密度,横轴表现随机变量的值,曲线与横轴间构成的面积求和为1,表示所有可能的取值加起来的概率是100%。
其实,正态分布在生活中有着相当广泛的应用:如根据考生成绩的正态分布规律来判断本次试卷的命题难度,凭借同质群体的身体机能状况来界定医学参考值范围等。
两种青年对中心极限定理的两种表达
那我们今天的主角——中心极限定理,与正态分布有什么联系吗?
关于中心极限定理的表达方式其实有很多种,在这里,我们选取了和A/B测试较为相关的两种表达,供大家参考:
普通青年:从总体中随机抽取一个样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从正态分布。
普通青年对于中心极限定理的理解较为直观,但对于某些随机变量来说,简单的样本均值分布并不满足正态分布的形态。
针对随机变量的具体分布情况,文艺青年有着更为科学的见解:
多个相互独立的随机变量,他的均值(和)的分布是以正态分布为极限,也就是逼近正态分布,与随机变量的具体分布无关。
也就是说,无论现有的样本数据是什么样的分布,只要通过均值或者和的方式对变量数据进行组合转换,最终得到的具体分布类型肯定是正态分布状态。所以我们在处理相关数据时,并不需要这个数据一定是正态分布的表现。
中心极限定理在A/B测试中的应用
中心极限定理是概率论中最重要的一类定理,它支撑着和置信区间相关的T检验和假设检验的计算公式和相关理论。如果没有这个定理,之后的推导公式都是不成立的。
事实上,以上对于中心极限定理的两种解读,在不同的场景下都可以对A/B测试的指标置信区间判定起到一定作用。
对于属于正态分布的指标数据,我们可以很快捷地对它进行下一步假设检验,并推算出对应的置信区间;而对于那些不属于正态分布的数据,根据中心极限定理,在样本容量很大时,总体参数的抽样分布是趋向于正态分布的,最终都可以依据正态分布的检验公式对它进行下一步分析。
不过,了解了中心极限定理,只是完成了最基础的部分。要想真正了解A/B测试和置信区间,还需要走很长一段路。第二章,我们将向你讲述假设检验。
作者:王晔,吆喝科技创始人兼 CEO
本文由 @王晔 原创发布于人人都是产品经理。未经许可,禁止转载。
-
微信创始人张小龙首次公开演讲(官方无删减版)
微信创始人张小龙首次公开演讲(官方无删减版) -
如何通过APP看到产品战略层面
产品经理拿到一款产品的时候,不能只能看到表面信息,而是要能看到产品背后的信息。 -
基于用户的“真需求”创新产品
产品创新是保证企业在竞争激烈的市场上长久生存的关键,今天,我们就围绕产品创新和用户研究分享一些看法。 -
有一种交互设计研究验证叫“设计走查”
如何在最短的时间内对自己的产品做出检验,确保其在定位、设计、营销计划等多个环节,在可视范围内是正确的,需要一套比较科学、完善的方法去做出检测。 -
你为什么离不开微信?
张小龙说用完即走,你却爱不释手; 到底是什么让你离不开微信? -
移动互联时代APP的发展方向
现在我们已经走上了移动互联网时代,无论是企业还是公司,都会经过网络竞争中争取有利的优势,较为传统的产品竞争逐渐向互联网竞争转型,出现了很多数据云大数据等等 -
AI 时代产品经理的机遇和挑战
AI 时代产品经理的机遇和挑战 -
前1%与前10%的产品经理差距在哪?
前1%与前10%的产品经理差距在哪? -
你有哪些策略应对不断的需求变更?
你有哪些策略应对不断的需求变更? -
如何运营天猫【十亿俱乐部】商家页面?
如何运营天猫【十亿俱乐部】商家页面?