🗒️王树森强化学习笔记——1基础概念
type
status
date
slug
summary
tags
category
icon
password
强化学习的笔记
📝 笔记内容
全部基本概念
1. 基本概念:
智能体(agent):
可以感知外界环境的状态(state)和反馈的奖励(reward),并进行学习和决策。智能体的决策功能是指根据外界环境的状态来做出不同的动作(action),而学习功能是指根据外界环境的奖励来调整策略。一个强化学习系统里可以有一个或多个智能体。我们并不需要对智能体本身进行建模,只需要了解它在不同环境下可以做出的动作,并接受奖励信号。
环境(environment):
是智能体外部的所有事物,智能体在环境中执行动作后都会使得自己处于不同的状态,并接受环境反馈的奖励。环境本身可以是确定性的,也可以是不确定性的。环境可能是已知的,也可能是未知的。
状态s(state):
来自于状态空间S,为智能体所处的状态,一个不断变化的量,可以是离散的或连续的。
动作a(action):
来自动作空间A,是对智能体行为的描述,可以是离散的或连续的。
策略(policy):
policy π 一个概率密度函数
根据观测到的状态state,做决策,来控制agent的运动
奖励(reward):
R(s,a,s′)是一个标量函数,即智能体根据当前状态s做出动作a 之后,环境会反馈给智能体一个奖励,这个奖励也经常和下一个时刻的状态s′有关。强化学习的目标就是获得的奖励尽可能要高。
状态转移概率(state transition):
p(s′|s,a)是在智能体根据当前状态s做出一个动作a之后, 环境在下一个时刻转变为状态s′的概率;
通常我们认为状态转移是随机性的
agent和state的交互:
强化学习中随机性(Random)的两个来源:
轨迹(trajectory):
最下面一行
2.Rewards and Returns
Return回报
但 Rt 和 Rt+1 不一样重要,所以要用折扣回报
Discounted Return折扣回报
回报中的随机性
3.两个value function
动作价值函数Action-Value Function Q(s,a) for policy π
就是对return的期望
怎样去掉π的影响呢?求最大化
状态价值函数state-value function V(s)
分析s来获得期望
value function总结:
4.Gym
openai的强化学习库
📎 参考文章
Loading...
Last update: 2024-02-01