为何模型训练时,每个epoch都会增加0.4GB的显存占用,最终爆显存
pytorch吧
全部回复
仅看楼主
level 3
如图所示,请求大佬解惑[泪]
2023年03月17日 12点03分 1
level 11
应该是你代码里保存了一些无用的信息比如梯度,或者没有使用loss.item保存loss
2023年03月17日 12点03分 2
debug发现确实是无法清空多余的梯度,用del+empty函数还是清空不了[不高兴]
2023年03月17日 15点03分
@绚烂却使人迷惑 正常训练情况下参数梯度会自动清空,应该是你代码里漏了点什么,多检查几次
2023年03月17日 15点03分
@绚烂却使人迷惑 [你懂的]不会是忘了zero grad吧
2023年03月17日 15点03分
@sealed_ss 明天俺再去看一下,应该不会,就是有的数据集会出现这种情况,有的不会,就很神奇
2023年03月17日 15点03分
1