统计学习
Statistical Learning — 从经典回归到集成方法
Random Forests
Machine Learning, 45(1), 5–32
提出随机森林算法,通过 Bagging 与随机特征选择构建决策树集成模型,在分类和回归任务中表现优异,成为最广泛使用的机器学习方法之一。
Support-Vector Networks
Machine Learning, 20(3), 273–297
提出支持向量机(SVM),通过核函数将数据映射到高维空间进行线性分离,为小样本分类问题提供了理论优雅且实用的解决方案。
Greedy Function Approximation: A Gradient Boosting Machine
Annals of Statistics, 29(5), 1189–1232
提出梯度提升框架(GBDT),将提升方法推广为一般函数空间中的梯度下降,为 XGBoost、LightGBM 等现代集成方法奠定理论基础。
Bagging Predictors
Machine Learning, 24(2), 123–140
提出 Bootstrap Aggregating(Bagging)方法,通过对训练集进行自助采样并聚合多个模型预测结果,有效降低方差、提升稳定性。
Regularization and Variable Selection via the Elastic Net
Journal of the Royal Statistical Society: Series B, 67(2), 301–320
提出弹性网络正则化方法,结合 L1(Lasso)和 L2(Ridge)惩罚,在高维特征选择中兼顾稀疏性和分组效应,广泛应用于基因组学和金融建模。
Regression Shrinkage and Selection via the Lasso
Journal of the Royal Statistical Society: Series B, 58(1), 267–288
提出 Lasso 回归方法,通过 L1 正则化实现参数稀疏化,自动进行变量选择,成为高维统计与特征工程的核心工具。
深度学习
Deep Learning — 神经网络的革命性突破
Deep Learning
Nature, 521, 436–444
三位图灵奖得主联合撰写的深度学习综述,全面回顾了卷积网络、循环网络、表示学习等核心技术,被视为深度学习时代的宣言书。
Deep Residual Learning for Image Recognition
CVPR 2016
提出残差网络(ResNet),通过跳跃连接解决深层网络训练中的退化问题,使训练超过 100 层的网络成为可能,深刻改变了深度学习架构设计范式。
Generative Adversarial Nets
NeurIPS 2014
提出生成对抗网络(GAN),通过生成器与判别器的博弈实现无监督生成建模,开创了图像生成、数据增强、风格迁移等广泛应用。
Dropout: A Simple Way to Prevent Neural Networks from Overfitting
JMLR, 15(1), 1929–1958
提出 Dropout 正则化技术,训练时随机丢弃神经元以防止过拟合,简单有效,成为深度学习中最基础的正则化手段之一。
Batch Normalization: Accelerating Deep Network Training
ICML 2015
提出批量归一化(BatchNorm),通过对每层输入进行标准化来缓解内部协变量偏移,大幅加速训练收敛并提升模型性能。
Adam: A Method for Stochastic Optimization
ICLR 2015
提出 Adam 优化器,结合动量法和自适应学习率(RMSProp),实现高效稳定的随机梯度优化,成为深度学习默认优化算法。
自然语言处理
Natural Language Processing — 从词向量到大语言模型
Attention Is All You Need
NeurIPS 2017
提出 Transformer 架构,完全基于自注意力机制取代 RNN/CNN,成为 BERT、GPT 等所有现代大语言模型的基础架构,重新定义了 NLP 领域。
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
NAACL 2019
提出 BERT 预训练模型,通过掩码语言模型和下一句预测任务进行双向预训练,在 11 项 NLP 任务上刷新记录,开启了"预训练+微调"范式。
Efficient Estimation of Word Representations in Vector Space
ICLR 2013 Workshop
提出 Word2Vec(CBOW 和 Skip-gram),将词语映射为稠密向量使语义相似的词在向量空间中邻近,催生了分布式表示学习的研究浪潮。
Language Models are Few-Shot Learners
NeurIPS 2020
提出 GPT-3(175B 参数),展示了超大规模语言模型的少样本学习能力,无需微调即可通过提示完成多种 NLP 任务,开启了大模型时代。
GloVe: Global Vectors for Word Representation
EMNLP 2014
提出 GloVe 词向量方法,结合全局矩阵分解和局部上下文窗口方法的优点,在词类比和命名实体识别等任务上表现出色。
Sequence to Sequence Learning with Neural Networks
NeurIPS 2014
提出 Seq2Seq 编码器-解码器架构,使用 LSTM 实现端到端的序列到序列映射,奠定了机器翻译、文本摘要等生成式 NLP 的基础。
计算机视觉
Computer Vision — 从 CNN 到 Vision Transformer
ImageNet Classification with Deep Convolutional Neural Networks
NeurIPS 2012
提出 AlexNet,在 ImageNet 竞赛中大幅超越传统方法,标志着深度学习在计算机视觉领域的突破性胜利,引发了 CNN 革命。
Very Deep Convolutional Networks for Large-Scale Image Recognition
ICLR 2015
提出 VGGNet,证明了通过增加网络深度(16–19 层)使用小卷积核(3×3)可以有效提升图像识别性能,架构简洁且特征迁移性强。
U-Net: Convolutional Networks for Biomedical Image Segmentation
MICCAI 2015
提出 U-Net 编码器-解码器架构,通过跳跃连接融合低层和高层特征,在小样本医学图像分割中表现卓越,成为分割任务的标准架构。
Faster R-CNN: Towards Real-Time Object Detection
NeurIPS 2015
提出区域建议网络(RPN),与检测网络共享卷积特征,实现近实时的端到端目标检测,成为两阶段检测方法的经典范式。
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
ICLR 2021
提出 Vision Transformer(ViT),将图像分割为 Patch 序列后直接应用 Transformer,证明了纯注意力机制在视觉任务中可超越 CNN。
Going Deeper with Convolutions
CVPR 2015
提出 GoogLeNet/Inception 架构,引入 Inception 模块实现多尺度特征提取,在增加网络深度和宽度的同时控制计算量。
强化学习
Reinforcement Learning — 从 Q-Learning 到 AlphaGo
Human-level Control through Deep Reinforcement Learning
Nature, 518, 529–533
提出 DQN,将深度学习与 Q-Learning 结合,使用经验回放和目标网络使 Agent 在 Atari 游戏中达到人类水平,开启深度强化学习时代。
Mastering the Game of Go with Deep Neural Networks and Tree Search
Nature, 529, 484–489
提出 AlphaGo,结合深度卷积网络与蒙特卡洛树搜索(MCTS),首次击败人类围棋世界冠军,成为 AI 发展史上的标志性事件。
Proximal Policy Optimization Algorithms
arXiv preprint
提出 PPO 算法,通过裁剪概率比限制策略更新幅度,兼顾训练稳定性和采样效率,成为强化学习(尤其是 RLHF)中最常用的策略优化方法。
Q-Learning
Machine Learning, 8(3), 279–292
提出 Q-Learning 算法,通过离策略的时序差分学习直接逼近最优动作价值函数,不需要环境模型,是强化学习最基础的无模型方法之一。
因果推断
Causal Inference — 从相关性到因果性
The Central Role of the Propensity Score in Observational Studies for Causal Effects
Biometrika, 70(1), 41–55
提出倾向性评分方法,通过将多维混杂因素压缩为一维评分来平衡处理组和对照组,成为观察性研究中消除选择偏差的核心工具。
Causality: Models, Reasoning, and Inference
Cambridge University Press (2nd ed.)
图灵奖得主 Judea Pearl 的经典著作,系统阐述了因果图模型(SCM)、do-演算和反事实推理的数学框架,建立了现代因果推断的理论体系。
Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies
Journal of Educational Psychology, 66(5), 688–701
提出 Rubin 因果模型(潜在结果框架),将因果效应定义为潜在结果的差异,建立了 ATE、ATT 等核心概念,成为统计因果推断的主流范式。
Double/Debiased Machine Learning for Treatment and Structural Parameters
The Econometrics Journal, 21(1), C1–C68
提出双重/去偏机器学习(DML)框架,利用交叉拟合和 Neyman 正交条件将机器学习方法引入因果推断,实现高维数据下的有效处理效应估计。
AB 实验
A/B Testing & Online Experimentation — 数据驱动决策的基石
Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing
Cambridge University Press / KDD 2017
微软/谷歌资深实验专家的权威指南,系统阐述了在线对照实验的设计、运行、分析全流程,涵盖样本量计算、护栏指标、常见陷阱等,是工业界 AB 实验的"圣经"。
CUPED: Controlled-experiment Using Pre-Experiment Data
WWW 2013 / Microsoft
提出 CUPED 方差缩减方法,利用实验前的协变量数据对实验指标进行回归调整,可在不增加样本量的情况下显著提升实验灵敏度,已成为业界标配技术。
Improving the Sensitivity of Online Controlled Experiments by Utilizing Pre-Experiment Data
WSDM 2018
对 CUPED 方法的重要扩展,提出使用机器学习模型预测实验前指标来进一步降低方差,同时探讨了多种协变量选择策略对灵敏度提升的影响。
Diagnosing Sample Ratio Mismatch in Online Controlled Experiments
KDD 2019
系统研究了样本比例不匹配(SRM)问题的诊断方法,提出了多层级检测框架来定位实验中的数据质量问题,SRM 检查已成为实验平台的核心护栏机制。
Switchback Experiments for Marketplace and Network Interference
KDD 2022
针对双边市场中用户间干扰(interference)问题,提出 Switchback 实验设计,在时间维度上交替切换处理组,有效减少网络效应带来的估计偏差,被 Uber、Lyft 等广泛采用。
Applying the Delta Method in Metric Analytics: A Practical Guide with Novel Ideas
KDD 2018
系统阐述了 Delta 方法在实验指标分析中的应用,包括比率指标的方差估计、分位数指标的置信区间构造等,为实验平台的统计引擎提供了实用的数学框架。
降维与聚类
Dimensionality Reduction & Clustering — 发现数据的隐含结构
Visualizing Data using t-SNE
JMLR, 9, 2579–2605
提出 t-SNE 降维方法,通过 Student-t 分布保持高维数据的局部邻域结构,成为高维数据可视化的标准工具,广泛用于单细胞基因组学等领域。
UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction
arXiv preprint
提出 UMAP,基于黎曼几何和拓扑数据分析理论进行降维,速度远快于 t-SNE 且更好地保持全局结构,已成为高维数据探索的首选工具。
A Density-Based Algorithm for Discovering Clusters (DBSCAN)
KDD 1996
提出 DBSCAN 密度聚类算法,无需预设聚类数量,可发现任意形状的簇并自动识别噪声点,获 KDD 2014 Test of Time Award。
A Tutorial on Spectral Clustering
Statistics and Computing, 17(4), 395–416
系统介绍谱聚类方法,利用图拉普拉斯矩阵的特征向量将数据嵌入低维空间再进行聚类,特别适合处理非凸形状的簇结构。
贝叶斯方法
Bayesian Methods — 不确定性建模与概率推理
Auto-Encoding Variational Bayes
ICLR 2014
提出变分自编码器(VAE),通过重参数化技巧使变分推断可微,实现了深度生成模型的端到端训练,成为生成模型的两大支柱之一。
Latent Dirichlet Allocation
JMLR, 3, 993–1022
提出 LDA 主题模型,使用 Dirichlet 先验的贝叶斯生成模型发现文档集合中的隐含主题,广泛应用于文本挖掘、推荐系统和数字人文等领域。
Bayesian Deep Learning and a Probabilistic Perspective of Generalization
NeurIPS 2020
探讨贝叶斯深度学习的核心观点,阐明贝叶斯边际似然如何自动实现奥卡姆剃刀,以及贝叶斯模型平均如何提升泛化与不确定性估计。
Variational Inference with Normalizing Flows
ICML 2015
将正规化流引入变分推断,通过一系列可逆变换将简单分布转换为复杂后验分布,显著提升了变分推断的表达能力。
时间序列
Time Series Analysis — 从经典统计到深度预测
Long Short-Term Memory
Neural Computation, 9(8), 1735–1780
提出 LSTM 网络,通过门控机制(遗忘门、输入门、输出门)解决传统 RNN 的梯度消失问题,成为序列建模的基础组件。
Forecasting at Scale (Prophet)
The American Statistician, 72(1), 37–45
提出 Prophet 时间序列预测框架,采用可分解的加法模型(趋势+季节性+假期),面向业务分析师设计,可自动处理缺失值和异常值。
Time Series Analysis: Forecasting and Control
Holden-Day (Book)
奠定了 ARIMA 系列模型的理论基础,系统阐述了时间序列的辨识、估计和诊断方法论(Box-Jenkins 方法),是经典时序分析的奠基之作。
Are Transformers Effective for Time Series Forecasting?
AAAI 2023
提出 DLinear 等简单线性模型,在多个时间序列预测基准上超越复杂 Transformer 模型,引发了 "Transformer 是否适合时序预测" 的广泛讨论。
图神经网络
Graph Neural Networks — 对图结构数据的深度学习
Semi-Supervised Classification with Graph Convolutional Networks
ICLR 2017
提出 GCN(图卷积网络),通过谱域上的一阶近似在图结构上实现高效卷积,简洁优雅地解决了半监督节点分类问题,引发了 GNN 研究热潮。
Graph Attention Networks
ICLR 2018
提出 GAT(图注意力网络),引入注意力机制为不同邻居节点分配不同权重,无需预知图的全局结构,可处理归纳式学习和动态图场景。
Inductive Representation Learning on Large Graphs (GraphSAGE)
NeurIPS 2017
提出 GraphSAGE,通过采样邻居并聚合特征实现归纳式图表示学习,可泛化到训练时未见过的节点,支持大规模工业图的高效推理。
How Powerful are Graph Neural Networks?
ICLR 2019
从理论角度分析 GNN 的表达能力,证明其上界等价于 WL 图同构测试,并提出 GIN(图同构网络)达到这一上界,为 GNN 设计提供了理论指导。