level 1
我想在本机跑别人的训练代码,然后我的显卡是1650,而代码开源的那个大佬的显卡是v100 32g显存的。我在训练的时候跑一遍train.py只花了15分钟左右,跑出来的模型结果也比不上原作者的结果,而原作者训练这个模型花了大概一天,训练出的模型效果也很不错。代码我是完全照搬原作者的。所以我想问一下造成这种现象的原因是因为我的显卡不行吗?
2023年05月20日 04点05分
1
level 8
和你的batchsize,epoch有关。作者的显存够大,他的batchsize就可以设的很高。
我记得1650显存只有6G,可能你的batchsize就设的小。
为什么batchsize会有影响?神经网络的定义层里有batchnormlayer,就会有影响。
2023年05月22日 07点05分
5
level 1
解决了,直接换了个模型训练。但是很怪,按作者来说他v100训练了10个小时,我的1650显存4g,batchsize设置为8应该会报错显存不足的,但是并没有,甚至可以用很快的速度完成训练。最后换了一个模型很快就报错显存不足了。租了一块显卡完成了训练。
2023年05月30日 15点05分
7