DataHenry
🛠️ 工具榜单 · 数据科学全流程

工具榜单

精选数据科学工具与 AI 产品,覆盖全流程

🐼

数据处理

数据清洗、转换、存储与管道构建

🐼
Pandas 数据处理

高性能 DataFrame 数据结构,支持数据清洗、转换、聚合、合并,是数据分析的核心工具。

🔢
NumPy 数据处理

Python 科学计算基础库,提供高效的多维数组对象和丰富的数学函数,是几乎所有数据科学库的底层依赖。

Polars 数据处理

基于 Rust 的超高速 DataFrame 库,支持惰性计算和多线程,处理大数据集比 Pandas 快 10-100 倍。

🧮
SciPy 数据处理

科学计算工具箱,包含优化、线性代数、积分、插值、统计等模块,是工程与科研的必备库。

🗄️
Dask 数据处理

并行计算框架,兼容 Pandas/NumPy API,支持分布式处理超大数据集,无需更改代码即可扩展。

🔀
Apache Spark (PySpark) 数据处理

分布式大数据处理引擎,支持 SQL、流式计算、机器学习,适合 TB/PB 级数据管道构建。

🏗️
Apache Airflow 数据处理

工作流编排平台,用 Python 定义 DAG 数据管道,支持定时调度、依赖管理和监控。

📈

机器学习

经典算法、模型训练与评估

📈
Scikit-learn 机器学习

最流行的 Python 机器学习库,提供分类、回归、聚类、降维等算法,API 简洁统一。

🚀
XGBoost 机器学习

极致优化的梯度提升框架,Kaggle 竞赛中最受欢迎的算法之一,支持并行训练和正则化。

💡
LightGBM 机器学习

微软出品的轻量级梯度提升框架,基于直方图的算法,训练速度更快,内存消耗更低。

🐱
CatBoost 机器学习

Yandex 开发的梯度提升库,原生支持类别特征处理,无需手动编码,开箱即用效果出色。

📐
Statsmodels 机器学习

统计建模与计量经济学库,提供回归分析、时间序列分析、假设检验等经典统计方法。

🎯
Optuna 机器学习

自动化超参数调优框架,支持贝叶斯优化、剪枝策略,可与任何机器学习框架集成。

🧠

深度学习

神经网络框架与模型训练

🧠
TensorFlow 深度学习

Google 开源的深度学习框架,支持 GPU/TPU 加速,生态完善,适合从研究到生产部署全流程。

🔥
PyTorch 深度学习

Meta 开源的深度学习框架,动态计算图设计,调试友好,学术界首选,工业界快速增长。

🤗
Hugging Face Transformers 深度学习

预训练模型中心,提供 BERT、GPT、T5 等数万个模型,几行代码即可加载使用。

PyTorch Lightning 深度学习

PyTorch 的高级封装框架,自动处理训练循环、分布式训练、混合精度等,让研究者聚焦模型本身。

🎹
Keras 深度学习

高层神经网络 API,设计简洁优雅,适合快速原型设计,已集成到 TensorFlow 中。

🧊
JAX 深度学习

Google 的高性能数值计算库,支持自动微分和 XLA 编译加速,是 NumPy 的 GPU 版升级。

🏎️
ONNX Runtime 深度学习

跨平台模型推理引擎,支持多种框架导出的 ONNX 模型,优化推理速度和内存占用。

📊

数据可视化

图表绑定、交互式仪表板

📊
Matplotlib 可视化

Python 可视化基石,支持折线图、柱状图、散点图、热力图等各种图表,高度可定制。

🎨
Seaborn 可视化

基于 Matplotlib 的统计可视化库,默认样式精美,特别适合统计图表和探索性数据分析。

📈
Plotly 可视化

交互式可视化库,支持缩放、悬停、动画等交互功能,图表可嵌入网页和 Jupyter Notebook。

🖼️
Bokeh 可视化

交互式 Web 可视化库,生成的图表可嵌入 Web 应用,支持流式数据和大规模数据集。

🚀
Streamlit 可视化

极简数据应用开发框架,纯 Python 代码快速构建交互式数据仪表板和 ML 演示应用。

📋
Dash 可视化

Plotly 团队出品的 Web 分析应用框架,适合构建企业级数据仪表板,支持回调交互。

💬

自然语言处理

文本分析、语言模型与对话系统

📝
NLTK NLP

经典自然语言处理工具包,提供分词、词性标注、命名实体识别等功能,NLP 入门首选。

🚀
spaCy NLP

工业级 NLP 库,处理速度极快,内置预训练模型,支持命名实体、依存句法分析等。

📚
Gensim NLP

主题建模与文档相似度计算库,实现了 Word2Vec、Doc2Vec、LDA 等经典算法。

🔗
LangChain NLP

LLM 应用开发框架,支持链式调用、RAG、Agent 等模式,快速构建 AI 应用。

🦙
LlamaIndex NLP

LLM 数据连接框架,擅长构建 RAG 系统,将私有数据与大语言模型结合。

🗣️
Sentence-Transformers NLP

语义嵌入模型库,一行代码生成文本向量,广泛用于语义搜索、文本聚类和相似度计算。

👁️

计算机视觉

图像处理、目标检测与图像生成

👁️
OpenCV 计算机视觉

最流行的计算机视觉库,提供图像处理、视频分析、特征检测等 2500+ 优化算法。

🖼️
Pillow (PIL) 计算机视觉

Python 图像处理库,支持打开、操作和保存多种图像格式,API 简洁易用。

🔍
YOLOv8 (Ultralytics) 计算机视觉

最先进的实时目标检测模型,支持检测、分割、分类、姿态估计,部署简单效果好。

👤
MediaPipe 计算机视觉

Google 的跨平台 ML 解决方案,支持人脸检测、手势识别、姿态估计,端侧实时运行。

🎨
Diffusers 计算机视觉

Hugging Face 扩散模型库,支持 Stable Diffusion 等图像生成模型,文本生成图像的利器。

🚀

部署与工程

模型部署、实验追踪与 MLOps

📦
MLflow MLOps

开源 MLOps 平台,管理 ML 全生命周期:实验追踪、模型注册、部署和监控。

📊
Weights & Biases MLOps

ML 实验追踪平台,自动记录超参数、指标和模型版本,可视化对比不同实验。

🐳
Docker MLOps

容器化平台,将 ML 模型及其依赖打包为可移植容器,确保环境一致性和部署可靠性。

🌐
FastAPI MLOps

高性能 Python Web 框架,自动生成 API 文档,是部署 ML 模型为 REST API 的首选。

🎯
BentoML MLOps

ML 模型服务化框架,将训练好的模型打包为标准化服务,一键部署到云端。

🗂️
DVC MLOps

数据版本控制工具,像 Git 管理代码一样管理数据集和模型文件,支持远程存储。

⚙️

AutoML 与实验工具

自动化建模、Notebook 与开发环境

📓
Jupyter Notebook 开发环境

交互式计算笔记本,支持代码、公式、可视化和文档混排,数据科学家的标准工具。

🧪
JupyterLab 开发环境

Jupyter 的下一代界面,支持多标签、文件管理、终端和扩展插件,完整的数据科学 IDE。

🤖
Auto-sklearn AutoML

基于 Scikit-learn 的自动机器学习系统,自动选择算法和超参数,一行代码完成建模。

TPOT AutoML

基于遗传算法的自动 ML 管道优化工具,自动探索特征工程、模型选择和超参数调优。

📊
PyCaret AutoML

低代码机器学习库,几行代码完成从数据预处理到模型部署的全流程,适合快速实验。

🔬
Gradio 开发环境

快速构建 ML 模型交互式演示界面,几行代码创建 Web UI,支持图像、音频、文本输入。

🐍
Anaconda 开发环境

数据科学发行版,集成了 Python、conda 包管理器和 1500+ 科学计算包,一键搭建环境。

🦞

AI Agent / 龙虾产品

各大厂 AI 智能体框架与平台,让 AI "能动手做事"

🦞
OpenClaw AI Agent

开源 AI 智能体框架鼻祖,本地部署,通过飞书/微信等聊天工具下达指令,自主执行文件管理、邮件处理、自动化任务。GitHub 260k+ Stars。

🌙
Kimi Claw AI Agent

Moonshot AI 推出的云托管龙虾方案,一键部署 OpenClaw 到云端,内置 Kimi K2.5 模型,40GB 云存储 + 5000 技能,7×24 在线服务。

MaxClaw AI Agent

MiniMax 出品的云端龙虾方案,10 秒极速部署,成本仅为 Claude 3.5 的 1/10,集成 MiniMax 语音和音乐模型技能。

🤖
Manus AI AI Agent

通用型 AI Agent 先驱,多代理系统架构,自动拆解任务 + 规划 + 执行 + 验证,端到端交付市场调研、旅行规划等复杂任务。

🧩
扣子空间 (Coze Space) AI Agent

字节跳动推出的通用型 AI Agent 平台,搭载 Doubao-1.5 模型,支持任务自动化、专家 Agent 生态和 MCP 扩展集成。

🔧
Dify AI Agent

开源 LLM 应用开发平台,支持工作流编排、知识库管理、多模型接入,适合需要深度定制和私有化部署的 Agent 场景。

🖥️
DeskClaw AI Agent

杭州 NoDesk AI 开发的"中国版小龙虾",基于 OpenClaw 生态,面向个人和电商团队优化,获近亿元融资。

🪶
NullClaw AI Agent

极致轻量级 AI Agent 方案,仅 678KB,专为资源受限场景设计,无需 Docker,启动秒级,是 OpenClaw "太重了" 的最佳替代。

🐧
QClaw(腾讯) AI Agent

腾讯基于 OpenClaw 极简封装的 AI Agent,首个实现微信互联的龙虾产品。微信小程序入口一键操控电脑,内置"灵感广场"预置常用任务,下载即用零门槛。

🙊
悟空(阿里/钉钉) AI Agent

阿里发布的全球首个企业级 AI 原生工作平台,内置于 2000 万+企业组织的钉钉中。支持 CLI 化原生操作,Agent 自动继承企业权限,打造 24h 工作的"龙虾军团"。

🔮
AutoGLM 沉思(智谱) AI Agent

智谱 AI 推出的集深度研究与操作执行于一体的自主 Agent。搭载 GLM-Z1 系列模型,支持多轮搜索推理 + 浏览器自动操作,是全球首个"边想边干"的智能体。

🦐
小度龙虾(百度) AI Agent

百度发布的全球首款家用 AI 智能体,将 OpenClaw 深度融入家庭场景。本地优先、隐私安全,语音唤醒即可自主执行跨设备跨应用的复杂任务,全家可用。