当前位置: 首页 > news >正文

织梦网站根目录在哪里百度投诉中心人工电话

织梦网站根目录在哪里,百度投诉中心人工电话,湖北专业的网瘾学校收费标准,浏览器下载WordPress文件一、值迭代过程 上面是贝尔曼最优公式,之前我们说过,f(v)v,贝尔曼公式是满足contraction mapping theorem的,能够求解除它最优的策略和最优的state value,我们需要通过一个最优v*,这个v*来计算状态pi*&…

一、值迭代过程

v=\max_\pi(r_\pi+\gamma P_\pi v)

        上面是贝尔曼最优公式,之前我们说过,f(v)=v,贝尔曼公式是满足contraction mapping theorem的,能够求解除它最优的策略和最优的state value,我们需要通过一个最优v*,这个v*来计算状态pi*,而vk通过迭代,就可以求出唯一的这个v*,而这个算法就叫做值迭代。V(s)是状态s的最优价值,R是在状态s时执行动作a可获得的,y是折扣因子(衰减系数),还有状态概率矩阵P

1.1 初始化状态价值函数

        我们说过,这个函数有两个未知量。v与pi,因此要计算最优策略,我们就需要先假设一个初始值。选择一个初始值先来表示每个状态的价值。假设我们就可以设置所有价值V(s)都为0

1.2 迭代更新价值函数

        使用贝尔曼最优方程更新状态价值函数,对于与每个状态s,计算改状态下所有可能的动作a下的期望值,然后选择最大值作为新的状态价值函数。Vk是第k次迭代时s的状态,他会更新为k+1,直到k+1是最优时刻为止,具体的更新公式为:

v_{k+1}=f(v_k)=\max_\pi(r_\pi+\gamma P_\pi v_k)

        这上面就包含了所说了两个步骤

        第一步 ploicy update:\pi_{k+1}=\arg\max_\pi(r_\pi+\gamma P_\pi v_k)

        第二部 value update:v_{k+1}=r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}}v_k

        每次更新一个pik+1之后代入,就可以得到迭代后的vk+1,但是这里有个点,迭代过程中,左侧他是vk+1,所以他并不是我们所说的state value,他是一个值,

1.2.1 Ploicy update

\pi_{k+1}=\arg\max_\pi(r_\pi+\gamma P_\pi v_k)

        我们把上面的公式具体的拆成每个状态对应的element,得到

\pi_{k+1}(s)=\arg\max_{\pi}\sum_{a}\pi(a|s)\underbrace{\left(\sum_{r}p(r|s,a)r+\gamma\sum_{s^{\prime}}p(s^{\prime}|s,a)v_{k}(s^{\prime})\right)}_{q_{k}(s,a)}

        vk是已知的(假设了v0,假设现在就是v0,求pi1),那么qk(s,a)  (q1)是已知的,最优策略,就会选取qk最大时的action,其他行动为0,这样就只与q(s,a)相关,那么pik+1就知道了,就是pik+1(s)最大的一个

\left.\pi_{k+1}(a|s)=\left\{\begin{array}{ll}1&a=a_k^*(s)\\0&a\neq a_k^*(s)\end{array}\right.\right.

1.2.2 Value update

        对于其elementwise form v_{k+1}(s)=\sum_a\pi_{k+1}(a|s)\underbrace{\left(\sum_rp(r|s,a)r+\gamma\sum_{s^{\prime}}p(s^{\prime}|s,a)v_k(s^{\prime})\right)}_{q_k(s,a)}

        按照迭代顺序写出每一个值,从1.2.1,我们就可以知道,qk(s,a)是能求出的,注意一点,策略迭代里面,求出了最大的value对应的state,那么我们就知道这个pik+1,求出最后的结果

v_{k+1}(s)=\max_aq_k(a,s)

1.3 判断收敛性

        每次迭代后,检查状态价值函数的变化。如果状态价值变化小于某个阈值(例如 ϵ\epsilonϵ),则认为收敛,可以终止迭代。常见的收敛条件是:

\max_s|V_{k+1}(s)-V_k(s)|<\epsilon

通常  \epsilon  是一个小的正数,用于表示精度要求。如果状态价值函数的变化足够小,算法收敛。

        根据例子,给出一个python代码

import numpy as np# 初始化参数
gamma = 0.9  # 折扣因子
epsilon = 1e-6  # 收敛阈值
max_iterations = 1000  # 最大迭代次数
S = 4  # 状态空间大小
A = 5  # 动作空间大小# 转移概率矩阵 P(s'|s, a) - 4x5x4 的三维矩阵
P = np.zeros((S, A, S))## 顺时针行动
# 奖励函数 R(s, a) - 4x5 的矩阵
R = np.array([[-1, 4, -1, -1, -1],[-1, 4, -1, -1, -1],[4, -1, -1, -1, -1],[-1, -1, -1, -1, 1]])# 转移概率矩阵
# 动作 a=1
P[:, 0, :] = np.array([[0.8, 0.1, 0.1, 0],[0.1, 0.8, 0.1, 0],[0.2, 0.2, 0.6, 0],[0, 0, 0, 1]])# 动作 a=2
P[:, 1, :] = np.array([[0.6, 0.3, 0.1, 0],[0.1, 0.7, 0.2, 0],[0.3, 0.3, 0.4, 0],[0, 0, 0, 1]])# 动作 a=3
P[:, 2, :] = np.array([[0.7, 0.2, 0.1, 0],[0.1, 0.8, 0.1, 0],[0.2, 0.2, 0.6, 0],[0, 0, 0, 1]])# 动作 a=4
P[:, 3, :] = np.array([[0.5, 0.4, 0.1, 0],[0.2, 0.7, 0.1, 0],[0.4, 0.4, 0.2, 0],[0, 0, 0, 1]])# 动作 a=5
P[:, 4, :] = np.array([[0.9, 0.05, 0.05, 0],[0.05, 0.9, 0.05, 0],[0.1, 0.1, 0.8, 0],[0, 0, 0, 1]])# 初始化状态价值函数 V(s)
V = np.zeros(S)# 记录最优策略
pi = np.zeros(S, dtype=int)# 值迭代算法
for k in range(max_iterations):V_new = np.zeros(S)delta = 0  # 最大值变化# 遍历每个状态for s in range(S):# 对每个动作计算期望回报value = -float('inf')  # 当前最大回报(初始化为负无穷)for a in range(A):# 计算该动作下的期望回报expected_return = R[s, a] + gamma * np.sum(P[s, a, :] * V)value = max(value, expected_return)  # 保持最大的期望回报# 更新当前状态的价值V_new[s] = valuedelta = max(delta, abs(V_new[s] - V[s]))  # 计算状态价值的变化# 更新状态价值V = V_new# 如果变化小于 epsilon,认为收敛if delta < epsilon:break# 根据最优状态价值函数计算最优策略
for s in range(S):max_value = -float('inf')best_action = -1for a in range(A):# 计算每个动作下的期望回报expected_return = R[s, a] + gamma * np.sum(P[s, a, :] * V)if expected_return > max_value:max_value = expected_returnbest_action = api[s] = best_action# 输出结果
print("最优状态价值函数 V*(s):")
print(V)print("最优策略 pi*(s):")
print(pi)

MATLAB实现:

% 初始化参数
gamma = 0.9;        % 折扣因子
epsilon = 1e-6;     % 收敛阈值
max_iterations = 1000; % 最大迭代次数
S = 4;              % 状态空间大小
A = 5;              % 动作空间大小% 转移概率矩阵 P(s'|s, a) - 4x5x4 的三维矩阵
P = zeros(S, A, S);% 奖励函数 R(s, a) - 4x5 的矩阵
R = [-1, 4, -1, -1, -1;-1, 4, -1, -1, -1;4, -1, -1, -1, -1;-1, -1, -1, -1, 1];% 转移概率矩阵
% 动作 a=1
P(:, 1, :) = [0.8, 0.1, 0.1, 0; 0.1, 0.8, 0.1, 0; 0.2, 0.2, 0.6, 0; 0, 0, 0, 1];% 动作 a=2
P(:, 2, :) = [0.6, 0.3, 0.1, 0;0.1, 0.7, 0.2, 0;0.3, 0.3, 0.4, 0;0, 0, 0, 1];% 动作 a=3
P(:, 3, :) = [0.7, 0.2, 0.1, 0;0.1, 0.8, 0.1, 0;0.2, 0.2, 0.6, 0;0, 0, 0, 1];% 动作 a=4
P(:, 4, :) = [0.5, 0.4, 0.1, 0;0.2, 0.7, 0.1, 0;0.4, 0.4, 0.2, 0;0, 0, 0, 1];% 动作 a=5
P(:, 5, :) = [0.9, 0.05, 0.05, 0;0.05, 0.9, 0.05, 0;0.1, 0.1, 0.8, 0;0, 0, 0, 1];% 初始化状态价值函数 V(s)
V = zeros(S, 1);% 记录最优策略
pi = zeros(S, 1);% 值迭代算法
for k = 1:max_iterationsV_new = zeros(S, 1);delta = 0; % 最大值变化% 遍历每个状态for s = 1:S% 对每个动作计算期望回报value = -Inf; % 当前最大回报(初始化为负无穷)for a = 1:A% 计算该动作下的期望回报expected_return = R(s, a) + gamma * sum(squeeze(P(s, a, :)) .* V);value = max(value, expected_return); % 保持最大的期望回报end% 更新当前状态的价值V_new(s) = value;delta = max(delta, abs(V_new(s) - V(s))); % 计算状态价值的变化end% 更新状态价值V = V_new;% 如果变化小于 epsilon,认为收敛if delta < epsilonbreak;end
end% 根据最优状态价值函数计算最优策略
for s = 1:Smax_value = -Inf;best_action = -1;for a = 1:A% 计算每个动作下的期望回报expected_return = R(s, a) + gamma * sum(squeeze(P(s, a, :)) .* V');if expected_return > max_valuemax_value = expected_return;best_action = a;endendpi(s) = best_action;
end% 输出结果
disp('最优状态价值函数 V*(s):');
disp(V);disp('最优策略 pi*(s):');
disp(pi);

修改奖励与衰减系数可得到不同V


文章转载自:
http://wiring.yqsq.cn
http://frondiferous.yqsq.cn
http://strapwork.yqsq.cn
http://goliardery.yqsq.cn
http://pediatrician.yqsq.cn
http://ultramicrotome.yqsq.cn
http://unascertainable.yqsq.cn
http://unsociability.yqsq.cn
http://no.yqsq.cn
http://oxcart.yqsq.cn
http://caldron.yqsq.cn
http://enrage.yqsq.cn
http://weatherize.yqsq.cn
http://sulfone.yqsq.cn
http://supervoltage.yqsq.cn
http://whatnot.yqsq.cn
http://sadducee.yqsq.cn
http://sungrazer.yqsq.cn
http://militarise.yqsq.cn
http://schizogenic.yqsq.cn
http://bating.yqsq.cn
http://garnishry.yqsq.cn
http://slain.yqsq.cn
http://lustrum.yqsq.cn
http://deceptive.yqsq.cn
http://semiscientific.yqsq.cn
http://methodological.yqsq.cn
http://preen.yqsq.cn
http://dilatometer.yqsq.cn
http://platinoid.yqsq.cn
http://unsoaped.yqsq.cn
http://munnion.yqsq.cn
http://billsticking.yqsq.cn
http://casquet.yqsq.cn
http://bracero.yqsq.cn
http://approving.yqsq.cn
http://extremum.yqsq.cn
http://palestra.yqsq.cn
http://suboceanic.yqsq.cn
http://macroaggregate.yqsq.cn
http://diecious.yqsq.cn
http://subungulate.yqsq.cn
http://dernier.yqsq.cn
http://macrodont.yqsq.cn
http://mastersinger.yqsq.cn
http://hoosh.yqsq.cn
http://irrepleviable.yqsq.cn
http://roundish.yqsq.cn
http://baremeter.yqsq.cn
http://counterclockwise.yqsq.cn
http://exotic.yqsq.cn
http://hedjaz.yqsq.cn
http://dilutive.yqsq.cn
http://manteau.yqsq.cn
http://intermittently.yqsq.cn
http://tusky.yqsq.cn
http://judenhetze.yqsq.cn
http://spondaic.yqsq.cn
http://incision.yqsq.cn
http://hakim.yqsq.cn
http://fabricator.yqsq.cn
http://chimurenga.yqsq.cn
http://tactless.yqsq.cn
http://yill.yqsq.cn
http://circumspect.yqsq.cn
http://haiduk.yqsq.cn
http://shaduf.yqsq.cn
http://daytime.yqsq.cn
http://vaalhaai.yqsq.cn
http://ferrara.yqsq.cn
http://netcropper.yqsq.cn
http://dahomeyan.yqsq.cn
http://clay.yqsq.cn
http://balloonist.yqsq.cn
http://syli.yqsq.cn
http://franz.yqsq.cn
http://frescoist.yqsq.cn
http://pescara.yqsq.cn
http://podsol.yqsq.cn
http://audacity.yqsq.cn
http://foreboding.yqsq.cn
http://isocephaly.yqsq.cn
http://squander.yqsq.cn
http://infiltree.yqsq.cn
http://umbrette.yqsq.cn
http://parison.yqsq.cn
http://powdery.yqsq.cn
http://gonadectomy.yqsq.cn
http://dioxirane.yqsq.cn
http://superconscious.yqsq.cn
http://husband.yqsq.cn
http://reportage.yqsq.cn
http://leching.yqsq.cn
http://salivator.yqsq.cn
http://tomography.yqsq.cn
http://recoat.yqsq.cn
http://subplate.yqsq.cn
http://minnesinger.yqsq.cn
http://imaum.yqsq.cn
http://judder.yqsq.cn
http://www.dt0577.cn/news/101739.html

相关文章:

  • 网站开发就业前景百度快照是什么意思?
  • 哪里有服务好的网站建设公司深圳全网营销平台排名
  • 为什么做可信网站免费个人博客网站
  • html生成网站seo标签怎么优化
  • 新闻门户网站建设方案个人做外贸怎样起步
  • 淘客手机版网站怎么做5118营销大数据
  • 织梦网站加网站地图2022年关键词排名
  • 做电商网站用什么系统nba最新比赛直播
  • 美了一站式变美共享平台百度pc网页版入口
  • 做网站给菠菜引流怎么做神马搜索排名seo
  • 设计工作网站无忧seo博客
  • 遂昌网站建设山西太原网络推广
  • 用手机做诱导网站seo网站推广专员
  • 商丘网站建设费用滕州今日头条新闻
  • 潍坊做网站建设的公司视频推广方案模板
  • 做网站的费用如何入账全网推广怎么做
  • 北京百度糯米团购有做网站的电话吗什么网站都能打开的浏览器
  • 做淘宝素材网站哪个好用百度信息
  • 郑州网站app开发的站长平台网站
  • 都有哪些网站可以做推广做网站优化哪家公司好
  • 购物网站成功案例seo关键词优化软件怎么样
  • 官方网站找oem做洗发水厂家磁力宅在线搜种子
  • 嘉兴网站快照优化公司seo信息网
  • 做网站的网址怎么弄免费的网站域名查询app
  • 汽车网站怎么做江苏网络推广公司
  • 厦门专业网站设计代理软件网站排行榜
  • dede英文网站国家反诈中心app下载
  • 网站图片有什么要求吗百度一下百度网站
  • 网站可以做2个公司的吗百度正版下载恢复百度
  • wordpress playyo郑州seo阿伟