论文阅读:Value Propagation Networks

introduction

VPN规范了VIN的使用,有三大优点:(1)引入 VProp——这是一个网络规划模块,通过强化学习能成功学习解决路径搜寻任务(2)展现了只在小图训练的基础上也具有的在大型未见过的地图中泛化的能力,(3)无论是在转换函数还是观察复杂度方面,可以学习在更复杂的动态环境中进行规划

model

VIN可以看成有三部分组成:(a)当前观察的嵌入函数Φ,(b)在嵌入输出上运行K次迭代的规划算法,以及(c) 控制策略π,它通过训练期间的采样或在测试时取最大值来输出最终动作。 特别是,原始的VIN方法可以通过以下三种选择来总结:

VIN

VIN将转移概率编码为卷积的权重,卷积的平移不变性意味着在一种状态下的转移概率,不依赖于它的内容或周围的内容。这个限制会影响模型学习复杂的动态性,(同时也人为地约束网络的设计和其他参数)

作者首先引入了VProp

他观察到,转移概率和我们所在的state有关,所以作者用$\bar{r}^{in}{i’,j’}$ 和 $\bar{r}^{out}{i,j}$ 分别表示进入一个state 和离开一个state的价值,用$r^{in}{i’,j’} - r^{out}{i,j}$表示从$(i,j)$ 转移到$(i’,j’)$ 得到的reward.用$p_{i,j}$表示value进入$(i,j)$的传播,作者设定​$p(i,j|i’,j’)=p(i,j)$,只关注agent当前state,而不关心他从哪儿来,这限制了参数强调了state的可达性,提供了低成本灵活的方式来model复杂的reward function

VIN

VProp 模型对应一个确定的reward从相邻state到当前state的模型,捕捉先前state的可达性不仅依赖于agent所在位置相邻的单元,还有潜在的观察到的转移的动态。表示一个状态不可达,设置他的p为0,$r^{in}$为负值,目标状态的p近于0,并且有个正的$r^{in}$ ,而其他类型的状态有着收折扣因子限制的高p值,而他们的cost来自于正$\bar{r}^{out}$ 或者 $\bar{r}_{in}$

Vprop也有限制,当goal的$\bar{r}^{in}$为1,其他类型的为0,goal的$\bar{r}^{out}$为-1,然后其他的为-0.02,$p$都为1,若是在50X50的大地图上,最短路径很有可能超过50,那么,$max(p{i,j}v{i,j}+r^{in}{i’j’}-r^{out}{i,j})$ 就会比0小,那么价值就停止传播了。于是作者提出了第二个方法——
MVProp

MVprop

这种传播方式保证了值在低值单元方向上的传递。路径长度是累乘传播,而reward map用于区分是goal 还是其他类型。基于此,最佳策略能够在本地遵循最大值的方向

experiments

作者将VIN,VProp,和MVProp 用于RL(而非VIN论文中的IL)进行实验对比效果,MVProp不但在寻找路径上效果惊人的好,可以达到100%,并且可以在训练时加入动态环境(1种是遵循A*算法的敌人,另一种小方块掉落)