当前位置: 首页 > news >正文

适合网站开发的浏览器哈尔滨优化调整人员流动管理

适合网站开发的浏览器,哈尔滨优化调整人员流动管理,做公司网站价格,郑州上海做网站的公司有哪些文章目录 1. 什么是在线MC强化学习2. 什么是离线MC强化学习3. 在线MC强化学习有何缺点 1. 什么是在线MC强化学习 在线强化学习(on-policy MC RL),是指:智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ …

文章目录

  • 1. 什么是在线MC强化学习
  • 2. 什么是离线MC强化学习
  • 3. 在线MC强化学习有何缺点

1. 什么是在线MC强化学习

在线强化学习(on-policy MC RL),是指:智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ s ) \pi_{sample}(a|s) πsample(as),与策略控制时要改进的策略 π ( a ∣ s ) \pi(a|s) π(as)都是同一个策略,即: π = π s a m p l e \pi=\pi_{sample} π=πsample

简而言之:所谓在线,就是在对一个初始策略评估的同时,利用 ϵ − \epsilon- ϵ贪心算法对它进行及时改进。

2. 什么是离线MC强化学习

所在离线强化学习(off-policy MC RL),是指:智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ s ) \pi_{sample}(a|s) πsample(as),与策略控制时要改进的策略 π ( a ∣ s ) \pi(a|s) π(as)不是同一个策略,即: π ≠ π s a m p l e \pi\ne\pi_{sample} π=πsample

3. 在线MC强化学习有何缺点

  • 所学到的策略可能不适合作为最终的策略使用。
    • 为什么?
      • 因为它引入的 ϵ − \epsilon- ϵ贪心算法虽然确保了完整轨迹覆盖状态的多样性,但却以牺牲较快找到最优策略为代价,它总是小心翼翼,认为最优行为有可能存在于依赖经验确定的最优行为之外;
      • 它没有考虑这一常识:随着轨迹覆盖了更多的状态和行为,随着这些状态行为对出现次数的增多,依赖完全贪心算法所确定的最优行为应该越来越具有获得更高累积回报期望的把握
      • 如果智能体已经有关于如何更快更好地获得完整轨迹采样的先验策略,而这样的策略能够帮助自己更快地优化最终所要采取的策略,就没有必要在策略评估和策略控制中采用同一策略了。

由于以上缺点,人们已经发展出了离线强化学习算法,它可以进一步细分为

  • 重要性采样MC强化学习算法
  • 加权重要性采样MC强化学习算法
http://www.dt0577.cn/news/31406.html

相关文章:

  • 湛江宇锋网站建设辽源seo
  • 百度云搜索引擎入口盘多多淄博seo网络公司
  • web开发网页设计牡丹江网站seo
  • 网站日志分析有什么用济南seo公司
  • 男女做那个什么的视频网站百度下载并安装
  • 网站建设实训个人总结3000谷歌google 官网下载
  • 如何在线实现手机版网站建设原画培训班一般学费多少
  • 做网站具体收费实事新闻热点
  • 网站SEO基础代做策划公司排行榜
  • 销售运营主要做什么汨罗网站seo
  • ui网站界面每日一则新闻摘抄
  • 安徽住房和城乡建设厅网站网站seo查询工具
  • 政府网站 建设app短视频营销推广
  • 最大郑州网站建设公司百度关键词优化曝光行者seo
  • 临沂哪里有做网站百度搜索app免费下载
  • 高古楼网站 做窗子seo优化网站教程百度
  • 网站建设日程表范文google搜索引擎入口
  • 网站开发时怎么隐藏文字国内最新的新闻
  • 网站建设运营的成本seo网站培训优化怎么做
  • 做网站一般图片的比例典型十大优秀网络营销案例
  • 陕西省建设网三类人员报名重庆seo小z博客
  • wordpress评论通知代码aso优化什么意思是
  • 苏州 网站 建设 公司引擎搜索网站
  • 鲜花网站开发郑州网站开发顾问
  • 做网站报价出名的东营seo
  • 凡科网站建设怎么样网站首页seo关键词布局
  • 网站建设只有20%的利润谷歌搜索关键词排名
  • 餐饮品牌网站建设内容营销的4个主要方式
  • 网站建设企业的市场分析深圳seo优化公司搜索引擎优化方案
  • 微网站方案报价青岛seo关键词排名