# PyTorch 场景的精度数据采集基线
## "statistics"模式采集时间膨胀参考基线
该基线为PyTorch框架下,使用"statistics"模式采集数据性能膨胀的参考基线。本基线测试了单层 DeepSeek 大模型在不同采集模式8卡下的时间膨胀。
| 采集模式 | 无工具 (耗时) | 加工具但未使能 Dump (耗时) | 加工具并使能 Dump (耗时) | 加工具并使能 Md5 Dump (耗时) |
|:--------:|:--------:|:-------------------:|:--------------------:|:--------------------:|
| L0 | ≈95.1 ms | ≈95.5 ms (无膨胀) | ≈420.0 ms (膨胀4.5倍) | ≈1011.3 s (膨胀10倍) |
| L1 | ≈95.1 ms | ≈115.8 ms (膨胀1.2倍) | ≈2469.0 ms (膨胀26倍) | ≈8636.0 s (膨胀90倍) |
| mix | ≈95.1 ms | ≈117.8 ms (膨胀1.2倍) | ≈3635.4 ms (膨胀38倍) | ≈10698.3 s (膨胀112倍) |
## "tensor"模式采集数据量参考基线
该基线为PyTorch框架下,使用"tensor"模式采集数据量参考基线。本基线测试了两个模型,分别为LLAMA2-7B和LLAMA2-13B,测试了不同采集模式下,不同global_batch_size下,单卡和8卡下,数据量的变化。
### LLAMA2-7B
| 采集模式 |
global_batch_size |
单卡 |
8卡 |
| L0 |
1 |
7.8GB |
63GB |
| 2 |
16GB |
125GB |
| 3 |
24GB |
187GB |
| L1 |
1 |
300.8GB |
2.3TB |
| 2 |
480GB |
3.6TB |
| 3 |
640GB |
4.9TB |
| mix |
1 |
313.6GB |
2.4TB |
| 2 |
512GB |
3.8TB |
| 3 |
672GB |
5.1TB |
### LLAMA2-13B
| 采集模式 |
global_batch_size |
单卡 |
8卡 |
| L0 |
1 |
13GB |
97GB |
| 2 |
25GB |
194GB |
| 3 |
37GB |
291GB |
| L1 |
1 |
440GB |
3.4TB |
| 2 |
720GB |
5.4TB |
| 3 |
960GB |
7.3TB |
| mix |
1 |
480GB |
3.6TB |
| 2 |
720GB |
5.6TB |
| 3 |
1000GB |
7.7TB |