MindStudio Probe
✨ 最新消息
🔹 [2026.03.28]:msprobe 仓库 ADump 模块日落下线通知
🔹 [2026.03.20]:上线大模型训练精度定位指南、大模型推理精度定位指南及常用框架工具使能指南
🔹 [2025.12.31]:MindStudio Probe 精度调试工具全面开源
ℹ️ 简介
MindStudio Probe(MindStudio 精度调试工具,msProbe)是针对昇腾 AI 处理器打造的全场景精度调试工具链,专为模型开发的精度调试环节设计,支持 PyTorch、MindSpore 等主流框架,可显著提升用户定位模型精度问题的效率。
⚙️ 功能介绍
使用场景 |
子模式/细分场景 |
功能项 |
功能说明 |
参考文档 |
|---|---|---|---|---|
vLLM推理 |
Eager/图模式 |
数据采集 |
完成msProbe精度数据采集操作 |
|
数据比对 |
将msProbe工具dump的精度数据进行精度比对,进而定位精度问题 |
|||
torchair |
数据采集 |
通过set_ge_dump_config接口完成精度数据采集操作 |
||
精度比对 |
将msProbe工具dump的精度数据进行精度比对,进而定位精度问题 |
|||
通用场景 |
推理异常检测 |
获取vLLM推理输出,感知异常问题 |
||
SGLang推理 |
eager模式 |
数据采集 |
完成msProbe精度数据采集操作 |
|
数据比对 |
将msProbe工具dump的精度数据进行精度比对,进而定位精度问题 |
|||
ATB推理 |
- |
数据采集 |
通过在ATB模型运行前,加载ATB dump模块的方式,实现对ATB模型运行过程中的精度数据的采集 |
|
精度比对 |
将ATB dump的精度数据进行精度比对,进而定位精度问题 |
|||
数据转换 |
将ATB dump的精度数据转换为numpy(.npy)或PyTorch tensor(.pt)格式文件 |
|||
离线模型推理 |
- |
数据采集 |
完成msProbe精度数据采集操作 |
|
精度比对 |
提供一键式离线模型比对功能,仅需输入模型即可完成比对,无需提前采集数据,快速输出结果 |
|||
离线模型数据精度比对 |
提供离线模型数据比对功能,输入离线模型的dump数据进行精度比对 |
|||
数据转换 |
将离线模型的dump数据转换为numpy(.npy)或PyTorch tensor(.pt)格式文件 |
|||
PyTorch训练 |
- |
训练前配置检查 |
训练前或精度比对前,对比两个环境下可能影响训练精度的配置差异 |
|
verl超参比对与关键超参校验 |
verl训练过程中或结束后,比对两台不同服务器上训练日志中采集到的真实超参配置,或者校验配置是否与关键超参取值相同,辅助用户高效比对真实超参值配置,加速定位因配置差异所引发的训练精度问题 |
|||
数据采集 |
通过config.json配置,完成msProbe精度数据采集操作 |
|||
精度预检 |
在昇腾NPU上扫描训练模型中的所有API,给出精度情况的诊断和分析 |
|||
分级可视化构图比对 |
将msProbe工具dump的精度数据进行解析,还原模型图结构,实现模型各个层级的精度数据比对 |
|||
精度比对 |
将msProbe工具dump的精度数据进行精度比对,进而定位精度问题 |
|||
训练状态监测 |
收集和聚合模型训练过程中的网络层,优化器,通信算子的中间值,帮助诊断模型训练过程中计算,通信,优化器各部分出现的异常情况 |
|||
checkpoint比对 |
训练过程中或结束后,比较两个不同的checkpoint,评估模型相似度 |
|||
整网首个溢出节点分析 |
多rank场景下通过dump数据找到首个出现Nan或Inf的节点 |
|||
趋势可视化 |
将msProbe工具数据采集或训练状态监测的统计量数据从迭代步数、节点rank和张量目标三个维度进行趋势可视化 |
|||
MindSpore训练 |
- |
训练前配置检查 |
训练前或精度比对前,对比两个环境下可能影响训练精度的配置差异 |
|
数据采集 |
通过config.json配置,完成msProbe精度数据采集操作 |
|||
精度预检 |
在昇腾NPU上扫描训练模型中的所有API,给出精度情况的诊断和分析 |
|||
分级可视化构图比对 |
将msProbe工具dump的精度数据进行解析,还原模型图结构,实现模型各个层级的精度数据比对 |
|||
精度比对 |
将msProbe工具dump的精度数据进行精度比对,进而定位精度问题 |
|||
训练状态监测 |
收集和聚合模型训练过程中的网络层,优化器,通信算子的中间值,帮助诊断模型训练过程中计算,通信,优化器各部分出现的异常情况 |
|||
溢出检测与解析 |
溢出检测用于采集溢出API或模块的精度数据,而溢出解析则是通过对溢出数据的分析,进一步判断是否为正常溢出 |
|||
checkpoint比对 |
训练过程中或结束后,比较两个不同的checkpoint,评估模型相似度 |
|||
趋势可视化 |
将msProbe工具数据采集或训练状态监测的统计量数据从迭代步数、节点rank和张量目标三个维度进行趋势可视化 |
|||
MSAdapter场景 |
- |
数据采集 |
通过config.json配置,完成msProbe精度数据采集操作 |
|
checkpoint比对 |
训练过程中或结束后,比较两个不同的checkpoint,评估模型相似度 |
🚀 快速入门
通过一个可执行样例,快速上手精度数据采集和精度比对功能,请参见《PyTorch 场景精度调试工具快速入门》或《MindSpore 场景精度调试工具快速入门》。
📦 安装指南
支持 PyPI 安装、WHL 安装、源码编译三种方式,具体请参见《msProbe 安装指南》。
📘 使用指南
msProbe 的功能覆盖训练和推理等多种场景。请根据您的实际使用场景,在上方功能介绍中选择对应的功能项,并参考相应文档进行配置和使用。
💡 典型案例
🔹 大模型训练精度定位指南
🔹 大模型推理精度定位指南
🔹 常用框架工具使能指南
📚 补充材料
🔹 PyTorch 场景的精度数据采集基线报告
🔹 MindSpore 场景的精度预检基线报告
🔹 MindSpore 场景的精度数据采集基线报告
🔹 训练状态监测工具标准性能基线报告
❓ FAQ
常见问题及解决方案汇总,请参见《FAQ》。
🌌 智能检索
为提升文档查阅效率,我们提供多种高效检索方式:
🔹 精确搜索(ReadTheDocs):关键词全文检索,直达接口、参数与报错等信息。
🔹 AI 问答(DeepWiki):自然语言问答,快速把握项目架构与模块关系。
🔹 AI 问答(ZRead):中文问答体验更优,精准定位功能用法与细节。
🛠️ 贡献指南
欢迎参与项目贡献,请参见《贡献指南》。
⚖️ 相关说明
🤝 建议与交流
欢迎大家为社区做贡献。如果有任何疑问或建议,请提交 Issues,我们会尽快回复。感谢您的支持。
即时互动(微信群) |
官方资讯(公众号) |
深度支持(助手/论坛) |
|---|---|---|
欢迎扫码关注技术交流群和官方公众号,直达 MindStudio 用户与开发者最快捷的交流平台: |
🙏 致谢
本工具由华为公司的下列部门联合贡献:
🔹 昇腾计算 MindStudio 开发部
🔹 分布式并行计算实验室
感谢来自社区的每一个 PR,欢迎贡献 msProbe!

