🗒️王树森强化学习笔记——1基础概念

type
status
date
slug
summary
tags
category
icon
password
😀
强化学习的笔记

📝 笔记内容

全部基本概念

1. 基本概念:

智能体(agent):
可以感知外界环境的状态(state)和反馈的奖励(reward),并进行学习和决策。智能体的决策功能是指根据外界环境的状态来做出不同的动作(action),而学习功能是指根据外界环境的奖励来调整策略。一个强化学习系统里可以有一个或多个智能体。我们并不需要对智能体本身进行建模,只需要了解它在不同环境下可以做出的动作,并接受奖励信号。
环境(environment):
是智能体外部的所有事物,智能体在环境中执行动作后都会使得自己处于不同的状态,并接受环境反馈的奖励。环境本身可以是确定性的,也可以是不确定性的。环境可能是已知的,也可能是未知的。
状态s(state):
来自于状态空间S,为智能体所处的状态,一个不断变化的量,可以是离散的或连续的。
notion image
动作a(action):
来自动作空间A,是对智能体行为的描述,可以是离散的或连续的。
notion image
 
策略(policy):
policy π 一个概率密度函数
根据观测到的状态state,做决策,来控制agent的运动
notion image
奖励(reward):
R(s,a,s′)是一个标量函数,即智能体根据当前状态s做出动作a 之后,环境会反馈给智能体一个奖励,这个奖励也经常和下一个时刻的状态s′有关。强化学习的目标就是获得的奖励尽可能要高。
notion image
 
状态转移概率(state transition):
p(s′|s,a)是在智能体根据当前状态s做出一个动作a之后, 环境在下一个时刻转变为状态s′的概率;
通常我们认为状态转移是随机性的
notion image
agent和state的交互:
notion image
强化学习中随机性(Random)的两个来源:
notion image
轨迹(trajectory):
最下面一行
notion image
 

2.Rewards and Returns

Return回报

notion image
但 Rt 和 Rt+1 不一样重要,所以要用折扣回报

Discounted Return折扣回报

notion image

回报中的随机性

notion image
 

3.两个value function

动作价值函数Action-Value Function Q(s,a) for policy π

就是对return的期望
notion image
怎样去掉π的影响呢?求最大化
notion image

状态价值函数state-value function V(s)

分析s来获得期望
notion image

value function总结:

notion image
 
 

4.Gym

openai的强化学习库
 
 

📎 参考文章

 
王树森强化学习笔记——2深度强化学习(DQN)在Linux命令行中使用shadowsocksR代理
Loading...