DataHenry
📑 论文精读 · 核心方法论合集

论文精读

数据科学核心领域的里程碑论文精选与深度解读

📐

统计学习

Statistical Learning — 从经典回归到集成方法

2001 引用 179,000+

Random Forests

Leo Breiman

Machine Learning, 45(1), 5–32

提出随机森林算法,通过 Bagging 与随机特征选择构建决策树集成模型,在分类和回归任务中表现优异,成为最广泛使用的机器学习方法之一。

集成学习 分类/回归
1995 引用 81,000+

Support-Vector Networks

Corinna Cortes, Vladimir Vapnik

Machine Learning, 20(3), 273–297

提出支持向量机(SVM),通过核函数将数据映射到高维空间进行线性分离,为小样本分类问题提供了理论优雅且实用的解决方案。

核方法 分类
2001 引用 28,000+

Greedy Function Approximation: A Gradient Boosting Machine

Jerome H. Friedman

Annals of Statistics, 29(5), 1189–1232

提出梯度提升框架(GBDT),将提升方法推广为一般函数空间中的梯度下降,为 XGBoost、LightGBM 等现代集成方法奠定理论基础。

Boosting 梯度优化
1996 引用 24,000+

Bagging Predictors

Leo Breiman

Machine Learning, 24(2), 123–140

提出 Bootstrap Aggregating(Bagging)方法,通过对训练集进行自助采样并聚合多个模型预测结果,有效降低方差、提升稳定性。

集成学习 方差减小
2005 引用 18,000+

Regularization and Variable Selection via the Elastic Net

Hui Zou, Trevor Hastie

Journal of the Royal Statistical Society: Series B, 67(2), 301–320

提出弹性网络正则化方法,结合 L1(Lasso)和 L2(Ridge)惩罚,在高维特征选择中兼顾稀疏性和分组效应,广泛应用于基因组学和金融建模。

正则化 特征选择
1996 引用 58,000+

Regression Shrinkage and Selection via the Lasso

Robert Tibshirani

Journal of the Royal Statistical Society: Series B, 58(1), 267–288

提出 Lasso 回归方法,通过 L1 正则化实现参数稀疏化,自动进行变量选择,成为高维统计与特征工程的核心工具。

L1 正则化 稀疏模型
🧠

深度学习

Deep Learning — 神经网络的革命性突破

2015 引用 90,000+

Deep Learning

Yann LeCun, Yoshua Bengio, Geoffrey Hinton

Nature, 521, 436–444

三位图灵奖得主联合撰写的深度学习综述,全面回顾了卷积网络、循环网络、表示学习等核心技术,被视为深度学习时代的宣言书。

综述 里程碑
2015 引用 312,000+

Deep Residual Learning for Image Recognition

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

CVPR 2016

提出残差网络(ResNet),通过跳跃连接解决深层网络训练中的退化问题,使训练超过 100 层的网络成为可能,深刻改变了深度学习架构设计范式。

ResNet 网络架构
2014 引用 93,000+

Generative Adversarial Nets

Ian Goodfellow et al.

NeurIPS 2014

提出生成对抗网络(GAN),通过生成器与判别器的博弈实现无监督生成建模,开创了图像生成、数据增强、风格迁移等广泛应用。

GAN 生成模型
2014 引用 61,000+

Dropout: A Simple Way to Prevent Neural Networks from Overfitting

Nitish Srivastava, Geoffrey Hinton et al.

JMLR, 15(1), 1929–1958

提出 Dropout 正则化技术,训练时随机丢弃神经元以防止过拟合,简单有效,成为深度学习中最基础的正则化手段之一。

正则化 训练技巧
2015 引用 67,000+

Batch Normalization: Accelerating Deep Network Training

Sergey Ioffe, Christian Szegedy

ICML 2015

提出批量归一化(BatchNorm),通过对每层输入进行标准化来缓解内部协变量偏移,大幅加速训练收敛并提升模型性能。

归一化 训练加速
2014 引用 239,000+

Adam: A Method for Stochastic Optimization

Diederik P. Kingma, Jimmy Ba

ICLR 2015

提出 Adam 优化器,结合动量法和自适应学习率(RMSProp),实现高效稳定的随机梯度优化,成为深度学习默认优化算法。

优化器 自适应学习率
💬

自然语言处理

Natural Language Processing — 从词向量到大语言模型

2017 引用 170,000+

Attention Is All You Need

Ashish Vaswani et al.

NeurIPS 2017

提出 Transformer 架构,完全基于自注意力机制取代 RNN/CNN,成为 BERT、GPT 等所有现代大语言模型的基础架构,重新定义了 NLP 领域。

Transformer 里程碑
2018 引用 120,000+

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Jacob Devlin, Ming-Wei Chang et al.

NAACL 2019

提出 BERT 预训练模型,通过掩码语言模型和下一句预测任务进行双向预训练,在 11 项 NLP 任务上刷新记录,开启了"预训练+微调"范式。

预训练 NLU
2013 引用 45,000+

Efficient Estimation of Word Representations in Vector Space

Tomas Mikolov et al.

ICLR 2013 Workshop

提出 Word2Vec(CBOW 和 Skip-gram),将词语映射为稠密向量使语义相似的词在向量空间中邻近,催生了分布式表示学习的研究浪潮。

词向量 表示学习
2020 引用 30,000+

Language Models are Few-Shot Learners

Tom B. Brown et al. (OpenAI)

NeurIPS 2020

提出 GPT-3(175B 参数),展示了超大规模语言模型的少样本学习能力,无需微调即可通过提示完成多种 NLP 任务,开启了大模型时代。

GPT-3 大模型
2014 引用 38,000+

GloVe: Global Vectors for Word Representation

Jeffrey Pennington, Richard Socher, Christopher Manning

EMNLP 2014

提出 GloVe 词向量方法,结合全局矩阵分解和局部上下文窗口方法的优点,在词类比和命名实体识别等任务上表现出色。

词向量 共现矩阵
2014 引用 28,000+

Sequence to Sequence Learning with Neural Networks

Ilya Sutskever, Oriol Vinyals, Quoc V. Le

NeurIPS 2014

提出 Seq2Seq 编码器-解码器架构,使用 LSTM 实现端到端的序列到序列映射,奠定了机器翻译、文本摘要等生成式 NLP 的基础。

Seq2Seq 编码器-解码器
👁️

计算机视觉

Computer Vision — 从 CNN 到 Vision Transformer

2012 引用 160,000+

ImageNet Classification with Deep Convolutional Neural Networks

Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton

NeurIPS 2012

提出 AlexNet,在 ImageNet 竞赛中大幅超越传统方法,标志着深度学习在计算机视觉领域的突破性胜利,引发了 CNN 革命。

AlexNet 里程碑
2014 引用 115,000+

Very Deep Convolutional Networks for Large-Scale Image Recognition

Karen Simonyan, Andrew Zisserman

ICLR 2015

提出 VGGNet,证明了通过增加网络深度(16–19 层)使用小卷积核(3×3)可以有效提升图像识别性能,架构简洁且特征迁移性强。

VGGNet 深度网络
2015 引用 75,000+

U-Net: Convolutional Networks for Biomedical Image Segmentation

Olaf Ronneberger, Philipp Fischer, Thomas Brox

MICCAI 2015

提出 U-Net 编码器-解码器架构,通过跳跃连接融合低层和高层特征,在小样本医学图像分割中表现卓越,成为分割任务的标准架构。

U-Net 图像分割
2015 引用 68,000+

Faster R-CNN: Towards Real-Time Object Detection

Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun

NeurIPS 2015

提出区域建议网络(RPN),与检测网络共享卷积特征,实现近实时的端到端目标检测,成为两阶段检测方法的经典范式。

目标检测 RPN
2020 引用 35,000+

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Alexey Dosovitskiy et al. (Google Brain)

ICLR 2021

提出 Vision Transformer(ViT),将图像分割为 Patch 序列后直接应用 Transformer,证明了纯注意力机制在视觉任务中可超越 CNN。

ViT Transformer
2014 引用 65,000+

Going Deeper with Convolutions

Christian Szegedy et al. (Google)

CVPR 2015

提出 GoogLeNet/Inception 架构,引入 Inception 模块实现多尺度特征提取,在增加网络深度和宽度的同时控制计算量。

Inception 多尺度
🎮

强化学习

Reinforcement Learning — 从 Q-Learning 到 AlphaGo

🔗

因果推断

Causal Inference — 从相关性到因果性

🧪

AB 实验

A/B Testing & Online Experimentation — 数据驱动决策的基石

2017 引用 800+

Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing

Ron Kohavi, Diane Tang, Ya Xu

Cambridge University Press / KDD 2017

微软/谷歌资深实验专家的权威指南,系统阐述了在线对照实验的设计、运行、分析全流程,涵盖样本量计算、护栏指标、常见陷阱等,是工业界 AB 实验的"圣经"。

实验设计 里程碑
2010 引用 3,000+

CUPED: Controlled-experiment Using Pre-Experiment Data

Alex Deng, Ya Xu, Ron Kohavi, Toby Walker

WWW 2013 / Microsoft

提出 CUPED 方差缩减方法,利用实验前的协变量数据对实验指标进行回归调整,可在不增加样本量的情况下显著提升实验灵敏度,已成为业界标配技术。

CUPED 方差缩减
2018 引用 600+

Improving the Sensitivity of Online Controlled Experiments by Utilizing Pre-Experiment Data

Yongyi Chen et al. (LinkedIn)

WSDM 2018

对 CUPED 方法的重要扩展,提出使用机器学习模型预测实验前指标来进一步降低方差,同时探讨了多种协变量选择策略对灵敏度提升的影响。

方差缩减 ML 辅助
2019 引用 400+

Diagnosing Sample Ratio Mismatch in Online Controlled Experiments

Alex Deng, Ulf Knoblich, Jiannan Lu (Microsoft)

KDD 2019

系统研究了样本比例不匹配(SRM)问题的诊断方法,提出了多层级检测框架来定位实验中的数据质量问题,SRM 检查已成为实验平台的核心护栏机制。

SRM 数据质量
2022 引用 200+

Switchback Experiments for Marketplace and Network Interference

Iavor Bojinov et al. (Uber/Lyft)

KDD 2022

针对双边市场中用户间干扰(interference)问题,提出 Switchback 实验设计,在时间维度上交替切换处理组,有效减少网络效应带来的估计偏差,被 Uber、Lyft 等广泛采用。

Switchback 网络干扰
2018 引用 500+

Applying the Delta Method in Metric Analytics: A Practical Guide with Novel Ideas

Alex Deng, Ulf Knoblich, Jiannan Lu (Microsoft)

KDD 2018

系统阐述了 Delta 方法在实验指标分析中的应用,包括比率指标的方差估计、分位数指标的置信区间构造等,为实验平台的统计引擎提供了实用的数学框架。

Delta 方法 指标分析
📉

降维与聚类

Dimensionality Reduction & Clustering — 发现数据的隐含结构

🎲

贝叶斯方法

Bayesian Methods — 不确定性建模与概率推理

📈

时间序列

Time Series Analysis — 从经典统计到深度预测

🕸️

图神经网络

Graph Neural Networks — 对图结构数据的深度学习