level 5
好久不见。最近在玩强化学习,自己写的不管是tabluar的还是NN参数化的Q-learning效果都好差,不管怎么调参数,在OpenAI gym里的'MountainCar-v0'这么简单的任务中都要好久才能取得较好的表现。难道是因为'MountainCar-v0'这个任务低谷吸引子太厉害?一般探索很难通关?
2016年11月28日 14点11分

图5,就这个没看懂,根据ARTSCAN,motivation的不是从ita那里开始吗,很明显那是what线路,where只是reset作用。但这里为什么会是what与where decision,不是应该只有what decision吗,这个与ARTSCAN不符合啊