PyTorch 场景的精度数据采集基线

"statistics"模式采集时间膨胀参考基线

该基线为PyTorch框架下,使用"statistics"模式采集数据性能膨胀的参考基线。本基线测试了单层 DeepSeek 大模型在不同采集模式8卡下的时间膨胀。

采集模式

无工具 (耗时)

加工具但未使能 Dump (耗时)

加工具并使能 Dump (耗时)

加工具并使能 Md5 Dump (耗时)

L0

≈95.1 ms

≈95.5 ms (无膨胀)

≈420.0 ms (膨胀4.5倍)

≈1011.3 s (膨胀10倍)

L1

≈95.1 ms

≈115.8 ms (膨胀1.2倍)

≈2469.0 ms (膨胀26倍)

≈8636.0 s (膨胀90倍)

mix

≈95.1 ms

≈117.8 ms (膨胀1.2倍)

≈3635.4 ms (膨胀38倍)

≈10698.3 s (膨胀112倍)

"tensor"模式采集数据量参考基线

该基线为PyTorch框架下,使用"tensor"模式采集数据量参考基线。本基线测试了两个模型,分别为LLAMA2-7B和LLAMA2-13B,测试了不同采集模式下,不同global_batch_size下,单卡和8卡下,数据量的变化。

LLAMA2-7B

采集模式 global_batch_size 单卡 8卡
L0 1 7.8GB 63GB
2 16GB 125GB
3 24GB 187GB
L1 1 300.8GB 2.3TB
2 480GB 3.6TB
3 640GB 4.9TB
mix 1 313.6GB 2.4TB
2 512GB 3.8TB
3 672GB 5.1TB

LLAMA2-13B

采集模式 global_batch_size 单卡 8卡
L0 1 13GB 97GB
2 25GB 194GB
3 37GB 291GB
L1 1 440GB 3.4TB
2 720GB 5.4TB
3 960GB 7.3TB
mix 1 480GB 3.6TB
2 720GB 5.6TB
3 1000GB 7.7TB