bf16踩坑 - 机器学习吧

level 3

KyvYang 楼主

尝试直接对模型进行model.bfloat16()后训练，速度确实加快且显存占用减少了。进行一百多个step的训练发现和fp32没什么不同，就以为没有精度损失。直到最近发现模型不收敛，这才想起做一个长点的实验，结果如图（上面的是bf16，下面的是fp32）
后续是保持模型本体fp32，使用autocast和gradscaler，这下精度没有损失了

2025年06月22日 00点06分 1