🗒️王树森强化学习笔记——2深度强化学习(DQN)

type
status
date
slug
summary
tags
category
icon
password
😀
DQN以及各种细节&补充知识

价值学习(Value-Based Reinforcement Learning)

用神经网络近似Q*函数
定义Optimal action-value function
是最优情况下的,不管我们在当前或后面采取怎样的策略π,最终的结果都不可能超过
 
在价值学习中我们要训练的函数就是action-value function,训练的目标是,采用的最佳动作就是

Deep Q-Network(DQN)

DQN是使用一个神经网络来估计action-value function,我们基于TD算法来训练这个神经网络,从而得到Optimal action-value function
下图是agent的动作过程:
notion image
下图是的公式:
notion image
notion image
我们做一下蒙特卡洛近似,把替换为具体动作和观测到的状态,把替换为具体观测到的奖励。
notion image
所以就得出了loss函数,然后对做梯度下降即可,这样就完成了一次学习
notion image
总结一下,一次DQN的TD-learning迭代是这样的:
notion image

TD算法

TD-learning思想很简单,有局部基于真实观测的数据,它的可信度大于完全基于预测的数据。
比如现在有三个地点A、B、C,C是A和B路径上的一个点。我们预测从A到B需要Q(A, B) = 100 mins,从C到B需要Q(C, B) = 50 mins。
经过我们的实验,发现从A到C实际需要30mins,那么30+ Q(C, B) = 80相比于Q(A, B) = 100来说是一个更准确的估计,我们可以得到一个 ,我们称80为TD target,我们称100-80=20这个结果为TD error
notion image
 

Q-Learning

Q-learning学习的是最优动作价值函数,上面的DQN就属于q-learning的一种,这里简要地总结一下Q-learning:
notion image

Double DQN

我们定义一个target network,它与DQN结构相同,但参数不同
notion image
Double dqn是指用target network做评估,用DQN做选择,可以有效防止过高的拟合
notion image

Experience Replay经验回放

经验回放,就是我们把过去的经验存起来去多次利用.如下图所示,一次经验就是一次transition.
notion image
TD error越大的经验,对我们来说是越重要的,我们应该更多地重复学习这些经验。所以在从经验池buffer里选择经验的时候,按照下面的策略:
notion image

📎 参考文章

 
图匹配学习笔记王树森强化学习笔记——1基础概念
Loading...