标签: reinforcement learning


  1. 论文题目:observe and look further:achieving consistent performance on Atari


  2. 论文阅读:Value Propagation Networks

    introduction

    VPN规范了VIN的使用,有三大优点:(1)引入 VProp——这是一个网络规划模块,通过强化学习能成功学习解决路径搜寻任务(2)展现了只在小图训练的基础上也具有的在大型未见过的地图中泛化的能力,(3)无论是在转换函数还是观察复杂度方面,可以学习在更复杂的动态环境中进行规划


  3. 论文阅读——learning to navigate in complex environments

    introduction

    challenge

    在部分可观察环境中使⽤RL来学会导航,存在以下困难:
    1.奖励稀疏
    2.对于环境中各种不同的动态元素,需要agent⽤不同⻓短的时间来记忆不同的东⻄:
    a. 对于⽬标, one-shot
    b.速度信号和视野中的障碍,短时记忆
    c.环境中的不变的部分(边界,线索),⻓时记忆


  4. 论文阅读——DQN系列

    DQN

    作为DRL的开山之作,DeepMind的DQN可以说是每一个入坑深度增强学习的同学必了解的第一个算法了吧。先前,将RL和DL结合存在以下挑战:1.deep learning算法需要大量的labeled data,RL学到的reward 大都是稀疏、带噪声并且有延迟的(延迟是指action 和导致的reward之间);2.DL假设样本独立;而RL前后state状态相关;3.DL假设分布固定,而RL在学习新的行为时,数据分布会变化。DQN通过Q-Learning使用reward来构造标签、使用经验池等方法解决了这些问题。