往期整理

🗒️ Mermaid

🗒️ SSRR安卓端配置教程

科研学习

🗒️ 论文代码配环境—Deep Graph Matching via Blackbox Differentiation of Combinatorial Solvers .

🗒️ 图匹配学习笔记

🗒️ 王树森强化学习笔记——2深度强化学习(DQN)

🗒️ 王树森强化学习笔记——1基础概念

毕业设计

🗒️ 图谱查询功能探索-0206

技术分享

🗒️ 在Linux命令行中使用shadowsocksR代理

🗒️王树森强化学习笔记——1基础概念

type

status

date

slug

summary

tags

category

icon

password

😀

强化学习的笔记

📝 笔记内容

全部基本概念

1. 基本概念：

智能体(agent):

可以感知外界环境的状态(state)和反馈的奖励(reward)，并进行学习和决策。智能体的决策功能是指根据外界环境的状态来做出不同的动作(action)，而学习功能是指根据外界环境的奖励来调整策略。一个强化学习系统里可以有一个或多个智能体。我们并不需要对智能体本身进行建模，只需要了解它在不同环境下可以做出的动作，并接受奖励信号。

环境(environment):

是智能体外部的所有事物，智能体在环境中执行动作后都会使得自己处于不同的状态，并接受环境反馈的奖励。环境本身可以是确定性的，也可以是不确定性的。环境可能是已知的，也可能是未知的。

状态s(state):

来自于状态空间S，为智能体所处的状态，一个不断变化的量，可以是离散的或连续的。

notion image

动作a(action):

来自动作空间A，是对智能体行为的描述，可以是离散的或连续的。

notion image

策略(policy):

policy π 一个概率密度函数

根据观测到的状态state，做决策，来控制agent的运动

notion image

奖励(reward):

R(s,a,s′)是一个标量函数，即智能体根据当前状态s做出动作a 之后，环境会反馈给智能体一个奖励，这个奖励也经常和下一个时刻的状态s′有关。强化学习的目标就是获得的奖励尽可能要高。

notion image

状态转移概率(state transition):

p(s′|s,a)是在智能体根据当前状态s做出一个动作a之后，环境在下一个时刻转变为状态s′的概率；

通常我们认为状态转移是随机性的

notion image

agent和state的交互：

notion image

强化学习中随机性(Random)的两个来源：

notion image

轨迹(trajectory):

最下面一行

notion image

2.Rewards and Returns

Return回报

notion image

但 Rt 和 Rt+1 不一样重要，所以要用折扣回报

Discounted Return折扣回报

notion image

回报中的随机性

notion image

3.两个value function

动作价值函数Action-Value Function Q(s,a) for policy π

就是对return的期望

notion image

怎样去掉π的影响呢？求最大化

notion image

状态价值函数state-value function V(s)

分析s来获得期望

notion image

value function总结：

notion image

4.Gym

openai的强化学习库

📎 参考文章

【王树森】深度强化学习(DRL)_哔哩哔哩_bilibili

王树森强化学习笔记——2深度强化学习(DQN)在Linux命令行中使用shadowsocksR代理

Loading...

Catalog

Catalog

Last update: 2024-02-01

Catalog

Article List

🗒️ Mermaid

🗒️ SSRR安卓端配置教程

科研学习

🗒️ 论文代码配环境—Deep Graph Matching via Blackbox Differentiation of Combinatorial Solvers .

🗒️ 图匹配学习笔记

🗒️ 王树森强化学习笔记——2深度强化学习(DQN)

🗒️ 王树森强化学习笔记——1基础概念

毕业设计

🗒️ 图谱查询功能探索-0206

技术分享

🗒️ 在Linux命令行中使用shadowsocksR代理