正态分布探索器

拖动 μ 和 σ 滑块,实时观察钟形曲线如何变化

核心公式
\[ f(x) = \frac{1}{\sigma\sqrt{2\pi}} \, e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]

其中 μ 为均值(分布中心),σ 为标准差(控制曲线宽度),σ² 为方差。68-95-99.7 法则:约 68% 数据落在 μ±σ,95% 落在 μ±2σ,99.7% 落在 μ±3σ。

大数定律

模拟抛硬币,观察比例如何收敛到理论值

核心公式
\[ \bar{X}_n = \frac{1}{n}\sum_{i=1}^{n}X_i \xrightarrow{P} \mu \quad (n \to \infty) \]

弱大数定律(Khintchine):对独立同分布且期望有限的随机变量序列,样本均值依概率收敛到总体期望 μ强大数定律更进一步:X̄ₙ 以概率 1 收敛到 μ(几乎必然收敛)。抛硬币实验中,正面比例随 n 增大而趋近 0.5。

中心极限定理

从任意分布抽样,观察样本均值如何趋向正态分布

核心公式
\[ \bar{X}_n = \frac{1}{n}\sum_{i=1}^{n}X_i \xrightarrow{d} N\!\left(\mu,\;\frac{\sigma^2}{n}\right) \]

X₁, X₂, …, Xₙ 为均值 μ、方差 σ² 的独立同分布随机变量,则样本均值 X̄ₙ 的分布近似正态分布,均值为 μ,方差为 σ²/n。标准化后:\( Z = \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1) \)

置信区间模拟

反复抽样验证「95% 的区间包含真实均值」的含义

核心公式
\[ \text{CI} = \bar{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \]

其中 为样本均值,zα/2 为标准正态分布的临界值(95% CI 时为 1.96),σ/√n 为标准误(SE)。置信区间的频率学解释:如果反复抽样构造 CI,其中约 95% 的区间会包含真实参数值 μ。

P 值可视化

拖动观测值,直观理解假设检验的核心概念

核心公式
\[ Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}} \]
\[ p\text{-value} = 2 \cdot P(Z \geq |z_{\text{obs}}|) \]

其中 Z 为检验统计量,μ₀ 为原假设下的总体均值,Φ 为标准正态分布的 CDF。P 值是在原假设 H₀ 为真时,观测到当前或更极端结果的概率。当 p < α(通常 α = 0.05)时拒绝 H₀。

Type I / Type II 错误

可视化 α、β 与检验功效 Power 之间的权衡

核心概念

α(Type I 错误):「误报」,原假设为真时错误地拒绝它。
β(Type II 错误):「漏报」,备择假设为真时未能拒绝原假设。
Power = 1-β 是检测到真实效应的能力。

贝叶斯定理

调整先验与似然度,观察后验概率如何更新

核心公式
\[ P(A \mid B) = \frac{P(B \mid A)\,P(A)}{P(B)} \]

在本模拟中:A = 患病,B = 检测阳性。
P(A) 为先验概率,P(B|A) 为灵敏度,P(B) 为阳性总概率。当先验很低时,后验概率也可能出人意料地低——这就是「基率谬误」。

辛普森悖论

分组趋势 vs 合并趋势的「反转」现象

核心概念

辛普森悖论(Simpson's Paradox):在每个子组中,X 与 Y 正相关;但合并所有子组后,X 与 Y 变成负相关(或反之)。这是因为存在混淆变量(分组变量)影响了 X 与 Y 的关系。在因果推断和 A/B 实验中,忽略混淆变量可能导致完全错误的结论。

马尔可夫链

状态转移动画,理解平稳分布与收敛

核心公式
\[ \mathbf{\pi} = \mathbf{\pi} \mathbf{P} \]

马尔可夫性:下一个状态只依赖当前状态,与历史无关。P 为转移矩阵,Pij 表示从状态 i 到状态 j 的概率。平稳分布 π 满足 πP = π,是长期运行后各状态的占比。MCMC 方法就基于此原理进行采样。

概念导航
正态分布探索器 中心极限定理 P 值可视化 置信区间模拟 贝叶斯定理 大数定律 Type I/II 错误 辛普森悖论 马尔可夫链