游戏百科

总觉得把 RL 翻译成「强化学习」,追求了准确,但理解门槛要比「模仿学习」这种的

总觉得把 RL 翻译成「强化学习」,追求了准确,但理解门槛要比「模仿学习」这种的要高。

如果把 RL 翻译成「反馈学习」——无论是奖励还是惩罚,都是与环境的互动中得到反馈,来进一步调整行为,会不会更好理解一点?