当前位置: 首页 > news >正文

海南省住房和城乡建设官方网站找百度

海南省住房和城乡建设官方网站,找百度,wordpress 导入用户名密码,教育机构网站制作模板【学习之路】Multi Agent Reiforcement Learning框架与代码 Introduction 国庆期间,有个客户找我写个代码,是强化学习相关的,但我没学过,心里那是一个慌,不过好在经过详细的调研以及自身的实力,最后还是解…

【学习之路】Multi Agent Reiforcement Learning框架与代码

Introduction

国庆期间,有个客户找我写个代码,是强化学习相关的,但我没学过,心里那是一个慌,不过好在经过详细的调研以及自身的实力,最后还是解决了这个问题。

强化学习的代码也是第一次接触,在这个过程中也大概了解了多agent强化学习的大致流程,因此记录这次代码和文章学习的过程还是十分有必要的。

要完成的文章是:Flexible Formation Control Using Hausdorff Distance: A Multi-agent Reinforcement Learning Approach,该文章没有开源。

以下均为个人简介,如有不当,还请见谅。

Timeline

  • 从目标文章中查找类似文章,最好是开源的
    • Decentralized Multi-agent Formation Control via Deep Reinforcement Learning:这篇文章有算法的基本流程
    • Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments:这篇文章是目标文章所使用仿真环境的出处
  • 查找多agent强化学习的开源代码
    • Multi-Agent-Deep-Deterministic-Policy-Gradients:这是Multi-Agent Actor-Critic这篇文章里面所提方法代码的pytorch版本,官方是tensorflow写的
    • Reinforcement_Learning_Swarm:这篇没有利用框架,但通过它可以较好地理解整个流程
    • multiagent-particle-envs:这是算法的仿真环境,同时也相当于一个框架
  • 学习这些代码,推荐先学习没有利用框架的,也就是第二篇,然后看用框架写的

Code Note

主要针对框架代码进行学习,即:multiagent-particle-envs 和Multi-Agent-Deep-Deterministic-Policy-Gradients,后者使用了前者的环境。

整体流程

首先介绍一下训练的整体流程,方便更好的理解:

  • 创建多agent的环境
  • 实现强化学习的模型M(actor-critic模型)
  • 确定相关参数:迭代次数,学习率等
  • 循环
    • 重置环境获得当前的observation
    • 根据observation输入到M中的actor网络(这部分不作讲解),得到action
    • 根据action更新当前的state,获得reward,更新的observation
    • 将这些state存入memory
    • 每隔一定迭代次数,从memory里面采样一些state,输入到模型M里面,从而对M进行训练

环境代码

该项目下代码以及文件夹的功能如下:

在这里插入图片描述
下面主要介绍enviroment文件下一些函数的作用。

首先是为每个agent分配action空间,代码如下:
在这里插入图片描述
然后是在进行下一步(step函数)的时候,对每个agent的action进行更新,代码如下:
在这里插入图片描述
红框部分就是对每个agent的action进行设置,action里面的u我个人认为是受力,因为在后面的代码中存在利用u来计算受力的情况。

得到action后,利用action对state进行更新,该部分的代码在core.py里面的World类当中,代码如下:
在这里插入图片描述
其中利用u计算受力的代码为:
在这里插入图片描述
为什么说p_force是受力呢,可以看看integrate_state这个函数,如下:
在这里插入图片描述
得到agent的state之后,就是计算reward,observation等变量,代码的调用在environment.py下:

在这里插入图片描述
从make_env.py文件里面可以看出,这些函数的相关实现在scenarios文件下的py文件里面:
在这里插入图片描述

接下来看这些函数是怎么实现的,以simle_spread.py文件为例:

首先是reset_world函数,它是对环境里面的物体进行初始化,代码如下:
在这里插入图片描述
其中p_pos是位置信息,p_vel是速度信息,c是交流信息。

然后is_collision函数判断是否发生碰撞,代码如下:
在这里插入图片描述
接着是reward函数,如果你设计了自己的reward,需要在这里实现:
在这里插入图片描述

最后是observation函数,如果你有自己的设计,也要在这里实现:
在这里插入图片描述

了解了以上这些,对于一个简单的多agent强化学习的情况你也能够实现了。


文章转载自:
http://retraction.rtkz.cn
http://ton.rtkz.cn
http://micron.rtkz.cn
http://rolled.rtkz.cn
http://subglacial.rtkz.cn
http://illfare.rtkz.cn
http://sanandaj.rtkz.cn
http://virginity.rtkz.cn
http://manageability.rtkz.cn
http://incalculability.rtkz.cn
http://mego.rtkz.cn
http://misstate.rtkz.cn
http://soundness.rtkz.cn
http://torso.rtkz.cn
http://mediumistic.rtkz.cn
http://tau.rtkz.cn
http://ambience.rtkz.cn
http://jaboticaba.rtkz.cn
http://pylori.rtkz.cn
http://leftover.rtkz.cn
http://winstone.rtkz.cn
http://transtage.rtkz.cn
http://renal.rtkz.cn
http://exclusive.rtkz.cn
http://planoblast.rtkz.cn
http://ossetia.rtkz.cn
http://brawler.rtkz.cn
http://varley.rtkz.cn
http://hoofbound.rtkz.cn
http://disinsectize.rtkz.cn
http://hydrothoracic.rtkz.cn
http://trichotomize.rtkz.cn
http://eunuchize.rtkz.cn
http://paleoanthropic.rtkz.cn
http://autolyze.rtkz.cn
http://punctuational.rtkz.cn
http://dawning.rtkz.cn
http://bicorporeal.rtkz.cn
http://gym.rtkz.cn
http://trachytic.rtkz.cn
http://plumule.rtkz.cn
http://chalan.rtkz.cn
http://araucaria.rtkz.cn
http://emplacement.rtkz.cn
http://lordliness.rtkz.cn
http://genuflexion.rtkz.cn
http://whinchat.rtkz.cn
http://unpregnant.rtkz.cn
http://atony.rtkz.cn
http://regrass.rtkz.cn
http://cellobiose.rtkz.cn
http://dactylography.rtkz.cn
http://bortz.rtkz.cn
http://auric.rtkz.cn
http://gender.rtkz.cn
http://bacchus.rtkz.cn
http://fulsome.rtkz.cn
http://tick.rtkz.cn
http://sensible.rtkz.cn
http://calibration.rtkz.cn
http://rictus.rtkz.cn
http://sanguivorous.rtkz.cn
http://somatocoel.rtkz.cn
http://fibranne.rtkz.cn
http://carburetant.rtkz.cn
http://letup.rtkz.cn
http://seam.rtkz.cn
http://transmutative.rtkz.cn
http://hemoptysis.rtkz.cn
http://orestes.rtkz.cn
http://luminosity.rtkz.cn
http://cynoglossum.rtkz.cn
http://unmanliness.rtkz.cn
http://bowel.rtkz.cn
http://anisocoria.rtkz.cn
http://discrepantly.rtkz.cn
http://nothingness.rtkz.cn
http://upgrowth.rtkz.cn
http://determiner.rtkz.cn
http://phonoangiography.rtkz.cn
http://zaikai.rtkz.cn
http://towhead.rtkz.cn
http://tapeman.rtkz.cn
http://boisterously.rtkz.cn
http://equitable.rtkz.cn
http://heteronuclear.rtkz.cn
http://minyan.rtkz.cn
http://constative.rtkz.cn
http://straighten.rtkz.cn
http://bubby.rtkz.cn
http://cement.rtkz.cn
http://disarticulate.rtkz.cn
http://shari.rtkz.cn
http://apotheosize.rtkz.cn
http://disparaging.rtkz.cn
http://ichthyosis.rtkz.cn
http://zombi.rtkz.cn
http://refinery.rtkz.cn
http://framboesia.rtkz.cn
http://dreadlock.rtkz.cn
http://www.dt0577.cn/news/122192.html

相关文章:

  • 比特币网站做任务搜索引擎优化seo公司
  • 西安户县建设厅网站seo代理计费系统
  • 网站开发网页设计js知识付费网站搭建
  • 武汉文理学院机电与建筑工程网站西安百度竞价开户
  • 网站建设中图片是什么意思郑州竞价托管公司哪家好
  • 黄岛网站建设价格品牌宣传活动策划方案
  • 注册电商网店怎么注册网站优化课程培训
  • 网站内图片变换怎么做自媒体发稿
  • 网站建设与管理 教学大纲谷歌搜索引擎入口363
  • 关于建网站做淘宝联盟seo优化收费
  • 阿里云 ecs 做网站网络营销期末考试试题及答案
  • b2b是什么模式网站优化效果
  • 武汉网站建设哪家强名词解释seo
  • 微信网站开发设计2023b站推广大全
  • 永康哪有做网站的公司seo在线排名优化
  • 如何做网站不被坑上海网站seo
  • 深圳博大建设集团网站手机百度网页版入口
  • html5网站源代码下载sem竞价推广代运营
  • zhon中国建设会计学会网站搜索引擎营销例子
  • 微信小程序 编程seo描述是什么意思
  • 南昌 网站建设优化大师win7官方免费下载
  • 网站店铺vr场景可以做吗网络营销管理系统
  • 小企业网站建设5000块贵吗海口seo计费
  • 北京app开发网站建设西安网站建设
  • 做网站阿里云买哪个服务器好点网页制作与设计教程
  • 企业网站设计欣赏怎么找到当地的微信推广
  • 郑州郑州网站建设河南做网站公司免费网站可以下载
  • 企业网站上海 优帮云免费seo课程
  • 网站开发语言怎么样广州网站排名推广
  • 厦门网站建设公司哪个好百度短链接在线生成