# 导入相关问题汇总

## MindStudio Insight打开profiling数据文件，信息显示不全

### 问题描述

用MindStudio insight打开profiling文件夹./localhost.localdomain_355720_20251204222740460_ascend_pt，只显示CANN层以上的profiling信息

![a2-collection-data.png](figures/Import_Issues/profiling-info-incomplete-1.png)

如果打开文件夹内部的文件夹./localhost.localdomain_355720_20251204222740460_ascend_pt/PROF_000001_20251204222740461_RKFAKPJFMEEOIMMB，只显示CANN层及以下的profiling信息

![a2-collection-data.png](figures/Import_Issues/profiling-info-incomplete-2.png)

MindStudio版本信息：8.2

硬件使用 A5。

### 解决方法

A5当前导出db存在已知问题，手动拦截了db导出。

建议将 ASCEND_PROFILER_OUTPUT 文件夹下的 db 文件均删除，使用 TEXT 格式数据读取。

---

## 无法导入项目

### 问题描述

![a2-collection-data.png](figures/Import_Issues/cannot-import-project.png)

用MindStudio Insight打开profiling，显示无法打开。已排查2和3，profiling中的steptrace也能用google perfetto正常打开。

工具版本：Insight 8.1

### 解决方法

Insight 版本更新到 8.2 版本及以上

---

## cluster_analyze集群分析结果MindStudio Insight无法识别

### 问题描述

客户的内网采集了 128 机的 profiling 之后，使用 `msprof-analyze cluster all -d {profiling\_path}` 命令执行出来的结果，MindStudio Insight 工具识别不了

命令执行的过程中有很多warning：
`Rank 58 does not have valid communication data and communication\_matrix data.`

`The dst local 993 of the operator allgather -bottom3@xxx cannot be mapped to the global rank.`

### 解决方法

【问题原因】

概览界面有显示，通信界面无显示，原因是cluster_communication_matrix.json缺少具体step，这会导致落盘数据库step记为`0`，但是cluster_step_trace_time.csv里step是`114`，对不上导致通信界面无显示。

【解决方案】

对单卡进行离线解析。

---

## MindStudio Insight多卡采集结果导入后无Summary Communication

### 问题描述

采集背景：llamafactory lora微调qwen模型，两卡单机。使用 `msprof --output=` 采集

能看到算子和时间线

![a2-collection-data.png](figures/Import_Issues/multi-card-no-summary-1.png)

![a2-collection-data.png](figures/Import_Issues/multi-card-no-summary-2.png)

![a2-collection-data.png](figures/Import_Issues/multi-card-no-summary-3.png)

![a2-collection-data.png](figures/Import_Issues/multi-card-no-summary-4.png)

### 解决方法

【问题分析】
msprof 是采集 NPU 卡内的数据。而 Summary 和 Communication 显示的是卡间的数据。因此解析 msprof 采集的数据不会得到卡间的数据，Summary 和 Communication 也就没有数据。

【解决方案】

1. 使用 Ascend PyTorch Profiler，可以采集卡内和卡间的数据。https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/850alpha001/devaids/Profiling/atlasprofiling_16_0033.html
2. mstt 可能支持对 msprof 数据的集群分析。

---

## L1采集集群信息没有集合通信和集群概览信息

### 问题描述

采集配置如下：

![image](figures/Import_Issues/l1-cluster-config.png)

数据导入 Insight 后页面显示：

![image](figures/Import_Issues/l1-cluster-no-data.png)

### 解决方法

分析数据没有问题，但 Insight 版本太老，更新 Insight 到 8.2 版本解决

---

## MindStudio Insight多卡采集结果导入后无NPU算子信息

### 问题描述

环境：镜像版本为：mindie:dev-2.1.RC1.B152-800I-A3-py311-ubuntu22.04-aarch64，

这是msprof采集后解析的结果：

![a2-collection-data.png](figures/Import_Issues/multi-card-msprof-result.png)

多卡的采集结果op_summary中存在NPU的算子信息，但是导入output文件后：

NPU无算子信息展示：

![a2-collection-data.png](figures/Import_Issues/multi-card-no-npu-operator.png)

只更改卡数，单卡采集后的结果就存在NPU算子信息：

![a2-collection-data.png](figures/Import_Issues/single-card-has-npu-operator.png)

### 解决方法

【问题分析】
多卡数据在个人电脑中导入可以看到 Ascend Hardware 泳道。
猜测是因为之前解析过，但未解析完成就关闭 Insight，因此没有显示 Ascend Hardware 的泳道。
![a2-collection-data.png](figures/Import_Issues/cache-db-issue.png)

【解决方法】
删除导入目录下的 mindstudio_insight_data.db 缓存数据库，重新导入解析

---

## MindStudio Insight 如何查看GPU采集的profile的内存信息

### 问题描述

希望查看GPU采集的内存数据

### 解决方法

2025年 Insight 8 的版本，内存页签需要的数据文件是 memory_record.csv, npu_module_mem.csv, static_op_mem.csv 和 operator_memory.csv 文件。

GPU 应该没有这些数据生成，因此不能查看 GPU 采集的内存数据。

---

## 导入项目后Communication无数据呈现

### 问题描述

导入项目后Communication无数据呈现

![image](figures/Import_Issues/communication-no-data.png)

**工具版本：** Insight 8.2.RC1

**问题来源：** 昇腾计算训练开发部部门MinSpeed-MM团队

**模型使用场景：** qwen3vl-30B, 8卡

**性能问题描述：** 训练场景，开箱性能未达预期

#### 解决方法

【问题分析】
查看analysis.db，发现CommAnalyzerBandwidth表无数据

【解决方法】
怀疑profiling在线解析过程出错，建议离线解析试试看

---

## 【cluster】MindStudio Insight导入profiling数据后无结果

### 问题描述

使用MindStudio Insight导入使用msprof-analyze cluster all -d ./profile命令收集的集群性能数据，无响应

![a2-collection-data.png](figures/Import_Issues/cluster-import-no-response.png)

### 解决方法

mstt集群分析时未开启--data_simplification导致，insight不支持未精简模式数据。msprof-analyze cluster -m all -d {数据位置} --data_simplification 再执行一遍即可。和mstt同事确认了一下，后续会默认开启精简，干掉未精简模式。

---

## 【导入问题】MindStudio Insight 打开profile文件报错“No parsable db files found”

### 解决方法

【问题原因】

导入的文件夹中，PROF_***文件夹下有msprof.db，而ASCEND_PROFILER_OUTPUT中是text格式数据，MindStudio Insight会优先识别msprof.db，导致无法展示ASCEND_PROFILER_OUTPUT文件夹中的数据。

【解决方案】

导入时，只导入ASCEND_PROFILER_OUTPUT文件夹即可。

从采集上来说，出现ASCEND_PROFILER_OUTPUT中是text格式而PROF_***有msprof.db的原因是CANN用的是默认导出db的而框架侧profiling是旧的。

---

## 【导入问题】文件均存在，但无法导入No parsable db files found

### 问题描述

文件均存在，但无法导入

![a2-collection-data.png](figures/Import_Issues/no-parsable-db-1.png)

![a2-collection-data.png](figures/Import_Issues/no-parsable-db-2.png)

### 解决方法

【问题原因】

导入的文件夹中，PROF_***文件夹下有msprof.db，而ASCEND_PROFILER_OUTPUT中是text格式数据，MindStudio Insight会优先识别msprof.db，导致无法展示ASCEND_PROFILER_OUTPUT文件夹中的数据。

【解决方案】

导入时，只导入ASCEND_PROFILER_OUTPUT文件夹即可。

从采集上来说，出现ASCEND_PROFILER_OUTPUT中是text格式而PROF_***有msprof.db的原因是CANN用的是默认导出db的而PTA是旧的。建议更新PTA。

---

## MindStudio Insight 导入profiling数据时，看不到目录

### 问题描述

版本：8.1.RC1

重启Insight还是看不到

![a2-collection-data.png](figures/Import_Issues/import-cannot-see-directory.png)

### 解决方法

【问题原因】

导入路径安全检验防护，主要字符为以下这些

![a2-collection-data.png](figures/Import_Issues/path-security-check.png)

【后续措施】

可进行简单提示

---

## MindStudio Insight 解析数据nodata

### 问题描述

数据有，单解析nodata

![](figures/Import_Issues/nodata-1.png)

![](figures/Import_Issues/nodata-2.png)

### 解决方法

重新导入后问题解决，可能的原因是数据文件过大，导致磁盘空间耗尽

---

## MindStudio Insight 打开profile没数据显示

### 问题描述

版本号 8.1.RC1

### 解决方法

是因为profiling数据中缺失了trace_view.json文件导致，下载该文件后显示正常

---

## 打开JSON文件没有trace图显示

### 问题描述

版本号 8.2.RC1

### 解决方法

【错误原因】

采集侧问题，和MindStudio Insight无关，采集侧的时间跨度过大，而timeline界面初始显示的时间跨度就是采集侧的时间跨度。

【解决方案】

可以先任意搜索一个事件，界面会自动放大到对应大小，然后使用wasd查看。

---

## MindStudio Insight打开性能仿真图trace.json报错

### 问题描述

通过msprof op simulator生成算子仿真图

通过MindStudio Insight打开trace.json文件失败，报错如下:

![a2-collection-data.png](figures/Import_Issues/nodata-3.png)

### 解决方法

【问题原因】

客户从vscode上下载原始数据后，JSON数据格式变成了bin文件格式，导致解释识别失败

【解决方案】

将原始数据改回JSON数据后即可成功导入

【进一步提升】

客户使用老版本Insight报错提示不够准确，新版本Insight在错误提示上更加友好，可持续优化

---

## 无法加载profiling，一直转圈

### 问题描述

jupyter 版本
一开始能加载，突然弹窗

![a2-collection-data.png](figures/Import_Issues/nodata-4.png)

然后就一直转圈

![a2-collection-data.png](figures/Import_Issues/nodata-5.png)

### 解决方法

【解决方案】

将数据下载到本地后，使用Windows版本打开，能够正常展示。

【遗留问题】

1.定位Jupyter无法加载和断连的原因。

2.ACC PMU无法展示，原因是单个泳道数据过多，导致前端通信量承载不了，致使断连，Counter泳道在迭代四已通过采样减小数据量。用户数据单卡导入是不会出现无法加载和断连现象的

---

## 使用msprof采集集群profiling，没有集群通信信息

### 问题描述

* 打开集群profiling后，没有集群通信信息

### 解决方法

检查下是不是采集时profiler等级为Level0，改成Level1；

如果Level1仍然没有，且采集方式为msprof通用命令(而非AI框架接口命令),检查下是不是没做通信性能数据解析，参考命令：

```bash
msprof --export=on --output=<dir>
msprof --analyze=on --output=<dir>
```

[解析并导出性能数据-MindStudio8.1.RC1-昇腾社区](https://www.hiascend.com/document/detail/zh/mindstudio/81RC1/T&ITools/Profiling/atlasprofiling_16_0018.html)

---

## 采集vllm服务的profiling数据，MindStudio Insight 打不开

### 问题描述

采用/start_profile接口采集vllm服务的profiling数据，通过 MindStudio Insight 打开报错The nesting depth of the imported sub-file exceeds 5 or the sub-file path length exceeds，目录超深或路径超长，但实际未超深或超长。

![](figures/Import_Issues/nodata-6.png)

采集的profiling数据中没有mindstudio_profiler_output目录。

### 解决方法

若不存在超长、超深目录，可怀疑是交付件有损坏或不完整。最新版本insight里已经加上了此提示。

常见导致profiler交付件不完整的原因，一种是profiler数据​**仅采集，未解析**​，​**缺少解析相关交付件**​。

可按照profiler官方文档，根据采集方式，确认交付件是否完整。

vllm-ascend应该封装了Ascend PyTorch Profiler接口，按照该命令离线解析即可

![a2-collection-data.png](figures/Import_Issues/nodata-7.png)

[离线解析-MindStudio8.1.RC1-昇腾社区](https://www.hiascend.com/document/detail/zh/mindstudio/81RC1/T&ITools/Profiling/atlasprofiling_16_0091.html)

①(PROF_XXX、FRAMEWORK)经过解析，得到交付件②(ASCEND_PROFILER_OUTPUT)

![a2-collection-data.png](figures/Import_Issues/profiling-parsing-flow.png)

用户回复：确认是没有解析，建议优化错误提示。

通过如下脚本解析后可以正常加载。

```python
from torch_npu.profiler.profiler import analyse

if __name__ == "__main__":
    analyse(profiler_path="path/to/profiling")
​
```

---

## 打开两个文件，数据消失

### 问题描述

打开两个JSON文件，存在数据丢失情况

### 解决方法

你的两个 JSON 文件在同一个目录下，解析数据保存的 .db 文件相同，因此同时打开两个JSON 文件，解析数据会覆盖。要同时打开两个 JSON 文件，可以通过工程内导入解决这个问题，930主线版本会优化这个问题。

---

## Profiling数据导入不显示

### 问题描述

Profiling数据导入MindStudio Insight后不显示通信分析，重启及删除原有旧文件重启后仍未解决。第二天重新导入Profiling数据成功显示。

### 解决方法

【错误原因】

这份数据有通信耗时数据，但是没有通信矩阵数据

目前insight中对集群数据的解析逻辑是先解析矩阵数据，再异步解析通信耗时数据

解析完矩阵数据后，前端页面会提前渲染，然而由于矩阵数据内容为空，导致下拉框内容都无数据。后续在通信耗时数据解析完后，下拉框内容没有刷新，导致始终无内容展示。

【规避方法】

重启insight，打开已经解析完整的数据

【修改方案】

通信耗时数据解析完成时，刷新上侧下拉框内容

---

## msprof工具采集db数据后，MindStudio Insight 无法导入

### 问题描述

msprof工具采集db数据后，MindStudio Insight 无法导入：

![a2-collection-data.png](figures/Import_Issues/msprof-db-import-1.png)

![a2-collection-data.png](figures/Import_Issues/msprof-db-import-2.png)

### 解决方法

【错误原因】

该场景是一张卡上跑多个进程，无法用msprof进行采集，后改为用动态profiling进行采集，timeline能够正常展示，memory页面缺少相关数据所以不展示，operator页面无法显示数据，原因是单个文件夹下只有一个msprof_*.db的导入方式缺少deviceId。

【规避方法】

1. 使用Q1商用版本进行规避。

【修改方案】

新特性的引入导致当前对离线推理msprof场景的导入约束较为严格，后续会进行分析，适当放宽msprof场景的导入约束。

---

## MindStudio打开cluster结果后communication group丢失

### 问题描述

#### 使用背景

组织：四野 诺亚

4096p训练多模态7Bv5 cluster分析

#### 工具版本

MindStudio-Insight\_8.1.RC1\_win.exe

#### 问题详细描述

MindStudio打开cluster结果后仅剩communication group 0，原本是4096p卡的cluster结果

![a2-collection-data.png](figures/Import_Issues/cluster-communication-group-lost.png)

查看communication_group.json，原始确实包含大量的communication group

![a2-collection-data.png](figures/Import_Issues/communication-group-json.png)

### 解决方法

【错误原因】

集群导入时，未识别到cluster_communication_matrix.json文件(导入逻辑未考虑只存在cluster_communication.json不存在cluster_communication_matrix.json的情况，即未适配过mstt集群分析的time模式)，对所导入的0卡重新调用了mstt集群分析功能，​**用0卡集群分析将结果错误地覆盖了全量卡集群分析结果**​，导致Communication只看到0卡。

【规避方法】

1. 直接导入cluster analysis output子目录，则不会走到以上覆盖逻辑。
2. 对全量卡手动调用集群分析的communication matrix模式，把cluster_communication_matrix.json文件补充到cluster analysis output中。

【修改方案】

集群导入解析时存在错误逻辑，流程如下：

![a2-collection-data.png](figures/Import_Issues/cluster-import-wrong-flow.png)

修改为以下正确流程即可：

![a2-collection-data.png](figures/Import_Issues/cluster-import-correct-flow.png)

---

## 80G左右的profiling文件，导入MindStudio Insight后，无法加载

### 问题描述

通过verl框架后训练Qwen3-32B模型，采集了一个步骤的性能数据(level1)，数据解析后整个文件大概80G左右，导入MindStudio Insight后，没有加载出可视化的性能解析数据，也没有相关报错 @x30025753 (肖遥)

![a2-collection-data.png](figures/Import_Issues/large-file-import-1.png)

![a2-collection-data.png](figures/Import_Issues/large-file-import-2.png)

![a2-collection-data.png](figures/Import_Issues/large-file-import-3.png)

### 解决方法

verl rollout阶段采集的性能数据过大，调小batch size和prompt+response长度或者将profiling加到vllm里， 只采集少量decode步骤，可以减小采集的数据量大小