# PyTorch 场景的精度数据采集基线 ## "statistics"模式采集时间膨胀参考基线 该基线为PyTorch框架下,使用"statistics"模式且risk_level为ALL采集数据性能膨胀的参考基线。本基线测试了16层Llama 2大模型在不同采集模式4卡下的时间膨胀。 使用Mindspeed-llm框架运行,核心配置为seq-length为8192,mbs为2,gbs为32。 | 采集模式 | 无工具 (耗时) | 加工具并使能 Dump (耗时) | 加工具并使能 Md5 Dump (耗时) | |:----:|:--------:|:---------------------:|:---------------------:| | L0 | ≈6406 ms | ≈10356 ms (膨胀1.6倍) | ≈36492 ms (膨胀5.7倍) | | L1 | ≈6406 ms | ≈30890 ms (膨胀4.8倍) | ≈122285 ms (膨胀19倍) | | mix | ≈6406 ms | ≈35986 ms (膨胀5.6倍) | ≈155236 ms (膨胀24倍) | ## "tensor"模式采集数据量参考基线 该基线为PyTorch框架下,使用"tensor"模式采集数据量参考基线。本基线测试了两个模型,分别为LLAMA2-7B和LLAMA2-13B,测试了不同采集模式下,不同global_batch_size下,单卡和8卡下,数据量的变化。 ### LLAMA2-7B
采集模式 global_batch_size 单卡 8卡
L0 1 7.8GB 63GB
2 16GB 125GB
3 24GB 187GB
L1 1 300.8GB 2.3TB
2 480GB 3.6TB
3 640GB 4.9TB
mix 1 313.6GB 2.4TB
2 512GB 3.8TB
3 672GB 5.1TB
### LLAMA2-13B
采集模式 global_batch_size 单卡 8卡
L0 1 13GB 97GB
2 25GB 194GB
3 37GB 291GB
L1 1 440GB 3.4TB
2 720GB 5.4TB
3 960GB 7.3TB
mix 1 480GB 3.6TB
2 720GB 5.6TB
3 1000GB 7.7TB