一只番茄

论文题目：observe and look further:achieving consistent performance on Atari

2019-03-13
论文阅读：Value Propagation Networks

2019-03-07

introduction
VPN规范了VIN的使用，有三大优点：（1）引入 VProp——这是一个网络规划模块，通过强化学习能成功学习解决路径搜寻任务（2）展现了只在小图训练的基础上也具有的在大型未见过的地图中泛化的能力，（3）无论是在转换函数还是观察复杂度方面，可以学习在更复杂的动态环境中进行规划
论文阅读——Experience-driven Networking: A Deep Reinforcement Learning based Approach

2019-02-25

这篇文章将DRL用在了traffic engineering 上，作者不但实现了DDPG算法，而且针对traffic engineering 提出了两方面改进，并最后在随机和代表性的拓扑上进行实验
论文阅读——learning to navigate in complex environments

2019-02-17

introduction
challenge
在部分可观察环境中使⽤RL来学会导航，存在以下困难：
1.奖励稀疏
2.对于环境中各种不同的动态元素，需要agent⽤不同⻓短的时间来记忆不同的东⻄：
a. 对于⽬标， one-shot
b.速度信号和视野中的障碍，短时记忆
c.环境中的不变的部分（边界，线索），⻓时记忆
论文阅读——DQN系列

2019-01-27

DQN
作为DRL的开山之作，DeepMind的DQN可以说是每一个入坑深度增强学习的同学必了解的第一个算法了吧。先前，将RL和DL结合存在以下挑战：1.deep learning算法需要大量的labeled data，RL学到的reward 大都是稀疏、带噪声并且有延迟的（延迟是指action 和导致的reward之间）；2.DL假设样本独立；而RL前后state状态相关；3.DL假设分布固定，而RL在学习新的行为时，数据分布会变化。DQN通过Q-Learning使用reward来构造标签、使用经验池等方法解决了这些问题。
论文阅读——FloodDefender-Protecting Data and Control Plane Resources under SDN-aimed DoS Attacks

2018-03-14

论文题目:FloodDefender: Protecting Data and Control Plane Resources under SDN-aimed DoS Attacks

来源:2017 INFOCOM

作者:GAO Shang, PENG Zhe, XIAO Bin, HU Aiqun, REN Kui

tag:DoS;SDN;post-detection procedure;

主要面向的问题为缓解在OpenFlow中SDN中特有的DoS攻击：

(即为检测到了DoS的攻击之后的操作)

1.如何在保持短时延、低缺失率正常包转发操作的同时有效处理table-miss的包更为合适

2.如何在流量开始阶段精确区分攻击流量，而不会消耗计算资源
论文阅读——Semi-Supervised Learning Enabled by Multiscale Deep Neural Network Inversion

2018-03-05

题目 Semi-Supervised Learning Enabled by Multiscale Deep Neural Network Inversion

作者 Randall Balestriero

日期 2018年

来源 arxiv

tag:semi-supervised learning;loss function

亮点：作者提出一个通用的loss function 使得任何拓扑结构的DNNs都可以进行半监督学习，同时不需要多余的超参数。

introduction

introduction

challenge

DQN