当前位置: 首页 > news >正文

洛阳网站推广怎么做seo网站怎么搭建

洛阳网站推广怎么做,seo网站怎么搭建,网络营销是什么时候兴起的,微信公众号怎么开店ICML2024 paper code Intro 基于状态表征的model-based强化学习方法一般需要学习状态转移模型以及奖励模型。现有方法都是将二者联合训练但普遍缺乏对如何平衡二者之间的比重进行研究。本文提出的HarmonyDream便是通过自动调整损失系数来维持任务间的和谐,即在世界…

ICML2024
paper
code

Intro

基于状态表征的model-based强化学习方法一般需要学习状态转移模型以及奖励模型。现有方法都是将二者联合训练但普遍缺乏对如何平衡二者之间的比重进行研究。本文提出的HarmonyDream便是通过自动调整损失系数来维持任务间的和谐,即在世界模型学习过程中保持观测状态建模和奖励建模之间的动态平衡。

Method

算法基于DreamV2的世界模型架构:

  1. Representation model: z t ∼ q θ ( z t ∣ z t − 1 , a t − 1 , o t ) z_{t}\sim q_{\theta }( z_{t}\mid z_{t- 1}, a_{t- 1}, o_{t}) ztqθ(ztzt1,at1,ot)
  2. Observation model: o ^ t ∼ p θ ( o ^ t ∣ z t ) \hat{o}_t\sim p_\theta(\hat{o}_t\mid z_t) o^tpθ(o^tzt)
  3. Transition model: z ^ t ∼ p θ ( z ^ t ∣ z t − 1 , a t − 1 ) \hat{z} _t\sim p_\theta ( \hat{z} _t\mid z_{t- 1}, a_{t- 1}) z^tpθ(z^tzt1,at1)
  4. Reward model: r ^ t ∼ p θ ( r ^ t ∣ z t ) . \hat{r}_t\sim p_\theta\left(\hat{r}_t\mid z_t\right). r^tpθ(r^tzt).

所有参数通过联合训练以下三个损失函数

  1. Observation loss: L o ( θ ) = − log ⁡ p θ ( o t ∣ z t ) \mathcal{L}_o(\theta)=-\log p_\theta(o_t\mid z_t) Lo(θ)=logpθ(otzt)
  2. Reward loss: L r ( θ ) = − log ⁡ p θ ( r t ∣ z t ) \mathcal{L}_{r}(\theta)=-\log p_{\theta}(r_{t}\mid z_{t}) Lr(θ)=logpθ(rtzt)
  3. Dynamics loss: L d ( θ ) = K L [ q θ ( z t ∣ z t − 1 , a t − 1 , o t ) ∥ p θ ( z ^ t ∣ z t − 1 , a t − 1 ) ] \mathcal{L}_{d}(\theta)=KL[q_{\theta}(z_{t}\mid z_{t-1},a_{t-1},o_{t})\parallel p_{\theta}(\hat{z}_{t}\mid z_{t-1},a_{t-1})] Ld(θ)=KL[qθ(ztzt1,at1,ot)pθ(z^tzt1,at1)],

对三种目标加权后便是最终优化目标
L ( θ ) = w o L o ( θ ) + w r L r ( θ ) + w d L d ( θ ) . \mathcal{L}(\theta)=w_o\mathcal{L}_o(\theta)+w_r\mathcal{L}_r(\theta)+w_d\mathcal{L}_d(\theta). L(θ)=woLo(θ)+wrLr(θ)+wdLd(θ).

HarmonyDream提出动态加权方法,
L ( θ , σ o , σ r , σ d ) = ∑ i ∈ { o , r , d } H ^ ( L i ( θ ) , σ i ) (5) = ∑ i ∈ { o , r , d } 1 σ i L i ( θ ) + log ⁡ ( 1 + σ i ) . \begin{aligned} \mathcal{L}(\theta,\sigma_{o},\sigma_{r},\sigma_{d})& =\sum_{i\in\{o,r,d\}}\hat{\mathcal{H}}(\mathcal{L}_{i}(\theta),\sigma_{i}) \\ &&\text{(5)} \\ &=\sum_{i\in\{o,r,d\}}\frac{1}{\sigma_{i}}\mathcal{L}_{i}(\theta)+\log{(1+\sigma_{i})}. \end{aligned} L(θ,σo,σr,σd)=i{o,r,d}H^(Li(θ),σi)=i{o,r,d}σi1Li(θ)+log(1+σi).(5)
其中 σ i \sigma_i σi σ i = exp ⁡ ( s i ) > 0 \sigma_i=\exp(s_i)>0 σi=exp(si)>0表示,源码中 s s s为一个可梯度回传的参数且初始化为0。

self.harmony_s1 = torch.nn.Parameter(-torch.log(torch.tensor(1.0)))  #reward
self.harmony_s2 = torch.nn.Parameter(-torch.log(torch.tensor(1.0)))  # image
self.harmony_s3 = torch.nn.Parameter(-torch.log(torch.tensor(1.0)))  # kl

结果

在这里插入图片描述
相较于DreamerV2提升明显。结合DreamerV3的效果也很好。

http://www.dt0577.cn/news/29622.html

相关文章:

  • php动态网站开发环境seo蜘蛛屯
  • 家教网站如何做谷歌浏览器官网下载安装
  • 免费做电子章网站seo一般包括哪些内容
  • 稳定的网站建设刷外链
  • 玉林住房和城乡建设部网站百度权重怎么提高
  • 佛山网站建设公司有哪些?青海seo关键词排名优化工具
  • 做一元夺宝网站需要什么条件产品推广计划怎么写
  • 外贸网站 球衣百度云资源搜索平台
  • 企业邮箱号品牌seo推广
  • 商城网站建设正规公司seo优化排名公司
  • 海南网站建设推广公司哪家好唐山seo排名外包
  • 网站空间是啥大数据营销名词解释
  • 动态asp.net网站开发教程搜狗网站收录提交入口
  • 外贸网站建设经验百度seo关键词怎么做
  • 南阳疫情最新情况实时动态重庆seo排名外包
  • 中国石家庄网站网站系统开发
  • 张家港外贸型网站制作汽车推广软文
  • 手机网站注意哪些问题百度推广如何计费
  • 自己开发小程序多少钱咸阳seo
  • ppt在线制作网页德州seo优化
  • 网站单页支付宝支付怎么做的产品怎么在网上推广
  • 什么公司网站建设做的好企业网站的推广方法有哪些
  • 条件查询 php网站源码搜盘 资源网
  • 网站建设商务的术语谷歌的推广是怎么样的推广
  • l网站建设如何在百度上推广业务
  • 做网站挣钱快吗seo排名优化工具
  • 网站项目怎么做的编程培训机构加盟哪家好
  • 医院网站建设水平自动点击器怎么用
  • 延吉建设局网站汕头seo网站推广
  • 完备的网站建设推广专业竞价托管