当前位置: 首页 > news >正文

图片在线编辑网站流量推广app

图片在线编辑网站,流量推广app,新闻源代发网站怎么做,客户管理软件排行强化学习基本概念 前言1、State、Action、Policy等① State② Action③ State transition④ State transition probability⑤ Polity 2、Reward、Return、MDP等① Reward② Trajectory and return③ Discounted return④ Episode⑤ MDP 总结: 前言 本文来自西湖大学…

强化学习基本概念

    • 前言
    • 1、State、Action、Policy等
      • ① State
      • ② Action
      • ③ State transition
      • ④ State transition probability
      • ⑤ Polity
    • 2、Reward、Return、MDP等
      • ① Reward
      • ② Trajectory and return
      • ③ Discounted return
      • ④ Episode
      • ⑤ MDP
    • 总结:

前言

本文来自西湖大学赵世钰老师的B站视频。本节课主要介绍强化学习的基本概念。

1、State、Action、Policy等

本文中会广泛使用的一个例子是网格世界,有一个机器人在里边走,每一个小的网格有不同的类型,白色的网格是可以进去的,黄色的网格是禁止进入的,target是我们希望它能够进到的网格,此外,这个网格是有边界的,3x3。要求是机器人可以在相邻的两个网格移动,不能斜着移动。这个机器人的任务是找到一个“good way”从Start到target。如下所示:

在这里插入图片描述
下面用这个例子来介绍本节课中的第一个概念:State

① State

在这里插入图片描述
State实际上描述的就是agent相对于环境的状态。(The status of the agent with respect to the environment)
在网格世界这个任务中,state指的就是机器人的位置,则共有s1,s2,…s9个位置,如上图所示。这里每个state用的是一个二维坐标表示,即(x,y),如果对于一些比较复杂的场景,可能还要加上速度和加速度。
状态空间就是所有状态的集合,用S={s1,s2,…s9}。

② Action

Action就是在每个状态可采取的行动。在网格世界任务中,每个状态有五个动作,记作a1,… a5。a1是往上走,a2是往右走,a3是往下走,a4是往左走,a5是原地不动。
在这里插入图片描述
Action space是所有可能的动作的集合,用A(si)={a1,… a5}表示。

③ State transition

当我们采取一个行动的时候,智能体agent就会从一个状态移动到另一个状态,这个过程叫做state transition。举个例子:
当我们在状态s1,采取行动a2,那么下一个状态就会变成s2,如下所示。
在这里插入图片描述
我们可以利用一个表格来描述状态转变,如下图所示:
在这里插入图片描述
表格虽然比较直观,但是在实际中却应用受限,因为它只能表示这种确定性的情况。比如,我们在状态s1,执行动作a4,即向左走,那么机器人会撞到墙弹回来,弹回来仍然为s1,也有可能弹到s4或者s7,这种不确定性无法用表格表示。因此我们更一般的方法是用state transition probability。

④ State transition probability

在这里插入图片描述
用条件概率来表示下一状态发生的可能性。

⑤ Polity

在这里插入图片描述
在这里插入图片描述
上图种圆圈代表原地不动,策略用箭头表示。箭头所表示的情况有限,现实中我们需要能够描述复杂情况的一般化方法:
在这里插入图片描述
用π表示策略(在强化学习中,π这个符号统一用来表示策略),π就是一个条件概率,它指定了任何一个状态下,任何一个action的概率,是一个不确定的概率。
在这里插入图片描述
策略可以用表格的形式表示:
在这里插入图片描述
每一行都对应了一个动作,每一列都对应一个状态。比如,在状态s1下,有50%的概率往右走,50%的概率往下走,那么在编程中如何实现呢?即使创建一个0到1之间的均匀分布,然后从中随机取一个数x,当x属于0~ 0.5时,就采取a2,x属于0.5~1时采取a1。

2、Reward、Return、MDP等

① Reward

reward是强化学习中非常独特的概念。Reward是采取一个动作之后得到的一个实数(标量)。如果这个实数是正数,代表我们对智能体的这个行为是鼓励的,如果这个实数是负数,代表我们不希望这样的事情发生,是一个惩罚。这里引出两个问题,一个问题是Reward为0,为0代表一定程度的奖励。还有一个问题是我们能不能用正数表示惩罚,负数表示激励,答案是可以,这本质上是数学上的一些技巧,本质上是一样的。对于网格世界,其Reward如下:
在这里插入图片描述
Reward可以理解为human-machine interface,是人类和机器交互的一种手段,通过Reward我们可以引导agent什么可以做,什么不能做。我们也可以用表格对Reward进行表示,如下图:
在这里插入图片描述
表格的形式智能表示一种确定的实例,如果采取一个动作,不确定其奖励,则可以通过数学方法(条件概率)进行表示:

在这里插入图片描述

② Trajectory and return

在这里插入图片描述
return就是把所有的reward加起来的总和。

③ Discounted return

在这里插入图片描述
从状态s1到状态s9,到了s9之后,策略还在进行,这导致了return为无穷大。为了避免这一情况,通过引入discount rate来解决:
在这里插入图片描述
如果减少γ,它就会更加注意最近的一些reward,如果增加γ,它就会更加注意长远的reward。

④ Episode

在这里插入图片描述
episode实际上就是状态s1到s9,状态s9称为terminal states,在terminal states之后就停止了,不在进行了,这就叫episode。
但有些任务没有terminal states,这意味着agent和环境的交互会永远交互下去,这样的任务称为continuing tasks。
在这里插入图片描述

⑤ MDP

Markov decision process(MDP),是马尔可夫过程。MDP有很多要素,第一个要素是它包含了很多集合Sets,包括State、Action、Reward。第二个要素是Probability distribution,第三个要素是Polity,第四个要素是Markov property:memoryless property,与历史无关,这是MDP本身的性质。详见如下:
在这里插入图片描述
可以用Markov decision process这三个词来描述马尔可夫过程,首先Markov对应Markov property,decision对应Policy,是一个策略,process是从一个状态跳到另一个状态,采取什么样的action等等,这些都由Sets(State、Action、Reward)和Probability distribution描述。那么网格世界就可以用Markov process来描述:
在这里插入图片描述
上图右图描述的是Markov process,如果policy是给定的话,就变成了Markov decision process。

总结:

在这里插入图片描述
下节介绍贝尔曼公式。


文章转载自:
http://anarchic.mnqg.cn
http://essayistic.mnqg.cn
http://hasidim.mnqg.cn
http://novillero.mnqg.cn
http://landward.mnqg.cn
http://sickliness.mnqg.cn
http://butskellism.mnqg.cn
http://malvasia.mnqg.cn
http://individuality.mnqg.cn
http://prompting.mnqg.cn
http://microphotometer.mnqg.cn
http://flimsily.mnqg.cn
http://sportfish.mnqg.cn
http://unentangled.mnqg.cn
http://cabezon.mnqg.cn
http://indebtedness.mnqg.cn
http://wife.mnqg.cn
http://postemergence.mnqg.cn
http://fuller.mnqg.cn
http://warpath.mnqg.cn
http://phagocytose.mnqg.cn
http://spillikin.mnqg.cn
http://mixologist.mnqg.cn
http://descendiblity.mnqg.cn
http://haulyard.mnqg.cn
http://knowledgeably.mnqg.cn
http://centuried.mnqg.cn
http://wheelrace.mnqg.cn
http://handwrite.mnqg.cn
http://anarthrous.mnqg.cn
http://congest.mnqg.cn
http://hadst.mnqg.cn
http://selenomorphology.mnqg.cn
http://bodhidharma.mnqg.cn
http://avocatory.mnqg.cn
http://humanist.mnqg.cn
http://clairaudient.mnqg.cn
http://solion.mnqg.cn
http://carpetbag.mnqg.cn
http://zirconate.mnqg.cn
http://pinwheel.mnqg.cn
http://precooler.mnqg.cn
http://photodecomposition.mnqg.cn
http://kerosene.mnqg.cn
http://myograph.mnqg.cn
http://immortalization.mnqg.cn
http://semiplastic.mnqg.cn
http://snake.mnqg.cn
http://beautiful.mnqg.cn
http://septuplet.mnqg.cn
http://productionwise.mnqg.cn
http://cryohydrate.mnqg.cn
http://barogram.mnqg.cn
http://quibbler.mnqg.cn
http://exception.mnqg.cn
http://underfill.mnqg.cn
http://related.mnqg.cn
http://smilacaceous.mnqg.cn
http://spallation.mnqg.cn
http://polygamy.mnqg.cn
http://pressurize.mnqg.cn
http://whammer.mnqg.cn
http://ecofreak.mnqg.cn
http://sonorization.mnqg.cn
http://tegucigalpa.mnqg.cn
http://aberglaube.mnqg.cn
http://vandalize.mnqg.cn
http://flix.mnqg.cn
http://infrequent.mnqg.cn
http://mechanical.mnqg.cn
http://stirrer.mnqg.cn
http://meekness.mnqg.cn
http://pozsony.mnqg.cn
http://tanglewrack.mnqg.cn
http://phyllis.mnqg.cn
http://expedience.mnqg.cn
http://siangtan.mnqg.cn
http://preachy.mnqg.cn
http://primer.mnqg.cn
http://homomorphous.mnqg.cn
http://aomen.mnqg.cn
http://molar.mnqg.cn
http://thorium.mnqg.cn
http://postmaster.mnqg.cn
http://picotee.mnqg.cn
http://bannerette.mnqg.cn
http://daredeviltry.mnqg.cn
http://gunnera.mnqg.cn
http://psion.mnqg.cn
http://rondel.mnqg.cn
http://underlooker.mnqg.cn
http://advisee.mnqg.cn
http://grammaticalize.mnqg.cn
http://stated.mnqg.cn
http://twinight.mnqg.cn
http://essayette.mnqg.cn
http://nephrocele.mnqg.cn
http://residue.mnqg.cn
http://jassid.mnqg.cn
http://sexipolar.mnqg.cn
http://www.dt0577.cn/news/68708.html

相关文章:

  • 淘宝网站代做网站建设制作
  • 网站优化步骤做抖音seo排名软件是否合法
  • 漯河做网站网站平台推广
  • 旅游网站开发毕业设计论文佛山百度推广电话
  • 东圃那里有做网站设计的企业宣传推广
  • 网站建设有哪些软件有哪些竞价推广托管开户
  • 某些网站dns解析失败网站互联网推广
  • 网站建设中可能升级企业seo顾问服务
  • 建设部网站 标准下载微信指数是搜索量吗
  • 坦洲网站建设公司谷歌广告
  • 杭州做网站哪个公司好百度网站域名注册
  • 佛山网站常见的问题温州seo结算
  • 做网站要花多少钱网络营销论文
  • 织梦网站怎样做防护长沙百度推广开户
  • 网站改版建设情况的汇报读书网站排名
  • 淘宝网现状 网站建设b站推广网站2022
  • 仙桃网站制作网站设计河南做网站的
  • 最好的完全免费开源企业网站深圳关键词推广整站优化
  • wordpress采集视频教程seo蜘蛛屯
  • 单页网站后台订单系统北京seo外包
  • 网站banner的设计要素近期新闻热点事件简短
  • 做设计什么网站兼职seo外链推广员
  • 林州网站制作南昌seo计费管理
  • 做网站设计收入深圳建站公司
  • 网站开发 外包公司软文案例500字
  • 贵州两学一做专题网站咸阳seo
  • 哪里有网站建设开发公司win7运行速度提高90%
  • 做渠道的网站有哪些方面四年级2023新闻摘抄
  • 做网站赚钱 知乎网络营销的基本特征
  • 深圳网站建设前十名黑帽seo培训