统计模拟 - DataHenry

正态分布探索器

拖动 μ 和 σ 滑块，实时观察钟形曲线如何变化

核心公式

\[ f(x) = \frac{1}{\sigma\sqrt{2\pi}} \, e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]

其中 μ 为均值（分布中心），σ 为标准差（控制曲线宽度），σ² 为方差。68-95-99.7 法则：约 68% 数据落在 μ±σ，95% 落在 μ±2σ，99.7% 落在 μ±3σ。

参考材料

大数定律

模拟抛硬币，观察比例如何收敛到理论值

核心公式

\[ \bar{X}_n = \frac{1}{n}\sum_{i=1}^{n}X_i \xrightarrow{P} \mu \quad (n \to \infty) \]

弱大数定律（Khintchine）：对独立同分布且期望有限的随机变量序列，样本均值依概率收敛到总体期望 μ。 强大数定律更进一步：X̄ₙ 以概率 1 收敛到 μ（几乎必然收敛）。抛硬币实验中，正面比例随 n 增大而趋近 0.5。

参考材料

中心极限定理

从任意分布抽样，观察样本均值如何趋向正态分布

核心公式

\[ \bar{X}_n = \frac{1}{n}\sum_{i=1}^{n}X_i \xrightarrow{d} N\!\left(\mu,\;\frac{\sigma^2}{n}\right) \]

设 X₁, X₂, …, Xₙ 为均值 μ、方差 σ² 的独立同分布随机变量，则样本均值 X̄ₙ 的分布近似正态分布，均值为 μ，方差为 σ²/n。标准化后：\( Z = \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1) \)

参考材料

置信区间模拟

反复抽样验证「95% 的区间包含真实均值」的含义

核心公式

\[ \text{CI} = \bar{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \]

其中 X̄ 为样本均值，z_α/2 为标准正态分布的临界值（95% CI 时为 1.96），σ/√n 为标准误（SE）。置信区间的频率学解释：如果反复抽样构造 CI，其中约 95% 的区间会包含真实参数值 μ。

参考材料

P 值可视化

拖动观测值，直观理解假设检验的核心概念

核心公式

\[ Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}} \]

\[ p\text{-value} = 2 \cdot P(Z \geq |z_{\text{obs}}|) \]

其中 Z 为检验统计量，μ₀ 为原假设下的总体均值，Φ 为标准正态分布的 CDF。P 值是在原假设 H₀ 为真时，观测到当前或更极端结果的概率。当 p < α（通常 α = 0.05）时拒绝 H₀。

参考材料

Type I / Type II 错误

可视化 α、β 与检验功效 Power 之间的权衡

核心概念

α（Type I 错误）：「误报」，原假设为真时错误地拒绝它。
β（Type II 错误）：「漏报」，备择假设为真时未能拒绝原假设。
Power = 1-β 是检测到真实效应的能力。

参考材料

贝叶斯定理

调整先验与似然度，观察后验概率如何更新

核心公式

\[ P(A \mid B) = \frac{P(B \mid A)\,P(A)}{P(B)} \]

在本模拟中：A = 患病，B = 检测阳性。
P(A) 为先验概率，P(B|A) 为灵敏度，P(B) 为阳性总概率。当先验很低时，后验概率也可能出人意料地低——这就是「基率谬误」。

参考材料

辛普森悖论

分组趋势 vs 合并趋势的「反转」现象

核心概念

辛普森悖论（Simpson's Paradox）：在每个子组中，X 与 Y 正相关；但合并所有子组后，X 与 Y 变成负相关（或反之）。这是因为存在混淆变量（分组变量）影响了 X 与 Y 的关系。在因果推断和 A/B 实验中，忽略混淆变量可能导致完全错误的结论。

参考材料

马尔可夫链

状态转移动画，理解平稳分布与收敛

核心公式

\[ \mathbf{\pi} = \mathbf{\pi} \mathbf{P} \]

马尔可夫性：下一个状态只依赖当前状态，与历史无关。P 为转移矩阵，P_ij 表示从状态 i 到状态 j 的概率。平稳分布 π 满足 πP = π，是长期运行后各状态的占比。MCMC 方法就基于此原理进行采样。

参考材料