归档: 2019/3


  1. 论文题目:observe and look further:achieving consistent performance on Atari


  2. 论文阅读:Value Propagation Networks

    introduction

    VPN规范了VIN的使用,有三大优点:(1)引入 VProp——这是一个网络规划模块,通过强化学习能成功学习解决路径搜寻任务(2)展现了只在小图训练的基础上也具有的在大型未见过的地图中泛化的能力,(3)无论是在转换函数还是观察复杂度方面,可以学习在更复杂的动态环境中进行规划