# PyTorch 场景的精度数据采集基线
## "statistics"模式采集时间膨胀参考基线
该基线为PyTorch框架下,使用"statistics"模式且risk_level为ALL采集数据性能膨胀的参考基线。本基线测试了16层Llama 2大模型在不同采集模式4卡下的时间膨胀。
使用Mindspeed-llm框架运行,核心配置为seq-length为8192,mbs为2,gbs为32。
| 采集模式 | 无工具 (耗时) | 加工具并使能 Dump (耗时) | 加工具并使能 Md5 Dump (耗时) |
|:----:|:--------:|:---------------------:|:---------------------:|
| L0 | ≈6406 ms | ≈10356 ms (膨胀1.6倍) | ≈36492 ms (膨胀5.7倍) |
| L1 | ≈6406 ms | ≈30890 ms (膨胀4.8倍) | ≈122285 ms (膨胀19倍) |
| mix | ≈6406 ms | ≈35986 ms (膨胀5.6倍) | ≈155236 ms (膨胀24倍) |
## "tensor"模式采集数据量参考基线
该基线为PyTorch框架下,使用"tensor"模式采集数据量参考基线。本基线测试了两个模型,分别为LLAMA2-7B和LLAMA2-13B,测试了不同采集模式下,不同global_batch_size下,单卡和8卡下,数据量的变化。
### LLAMA2-7B
| 采集模式 |
global_batch_size |
单卡 |
8卡 |
| L0 |
1 |
7.8GB |
63GB |
| 2 |
16GB |
125GB |
| 3 |
24GB |
187GB |
| L1 |
1 |
300.8GB |
2.3TB |
| 2 |
480GB |
3.6TB |
| 3 |
640GB |
4.9TB |
| mix |
1 |
313.6GB |
2.4TB |
| 2 |
512GB |
3.8TB |
| 3 |
672GB |
5.1TB |
### LLAMA2-13B
| 采集模式 |
global_batch_size |
单卡 |
8卡 |
| L0 |
1 |
13GB |
97GB |
| 2 |
25GB |
194GB |
| 3 |
37GB |
291GB |
| L1 |
1 |
440GB |
3.4TB |
| 2 |
720GB |
5.4TB |
| 3 |
960GB |
7.3TB |
| mix |
1 |
480GB |
3.6TB |
| 2 |
720GB |
5.6TB |
| 3 |
1000GB |
7.7TB |