bf16踩坑
机器学习吧
全部回复
仅看楼主
level 3
KyvYang 楼主
尝试直接对模型进行model.bfloat16()后训练,速度确实加快且显存占用减少了。进行一百多个step的训练发现和fp32没什么不同,就以为没有精度损失。直到最近发现模型不收敛,这才想起做一个长点的实验,结果如图(上面的是bf16,下面的是fp32)
后续是保持模型本体fp32,使用autocast和gradscaler,这下精度没有损失了
2025年06月22日 00点06分 1
1