DeepMind发布新奖励机制:让智能体不再“碰瓷”

近日,DeepMind设计了一个新的智能体奖励机制,避免了不必要的副作用(side effect),对优化智能体所在环境有着重要的意义。