为何模型训练时,每个epoch都会增加0.4GB的显存占用,最终爆显存
pytorch吧
全部回复
仅看楼主
level 3
绚烂却使人迷惑
楼主
如图所示,请求大佬解惑
2023年03月17日 12点03分
1
level 11
sealed_ss
应该是你代码里保存了一些无用的信息比如梯度,或者没有使用loss.item保存loss
2023年03月17日 12点03分
2
绚烂却使人迷惑
debug发现确实是无法清空多余的梯度,用del+empty函数还是清空不了
2023年03月17日 15点03分
sealed_ss
@绚烂却使人迷惑
正常训练情况下参数梯度会自动清空,应该是你代码里漏了点什么,多检查几次
2023年03月17日 15点03分
sealed_ss
@绚烂却使人迷惑
不会是忘了zero grad吧
2023年03月17日 15点03分
绚烂却使人迷惑
@sealed_ss
明天俺再去看一下,应该不会,就是有的数据集会出现这种情况,有的不会,就很神奇
2023年03月17日 15点03分
1