当前位置: 首页 > news >正文

网站规划与建设品牌网络营销策划方案

网站规划与建设,品牌网络营销策划方案,完善网站的建设工作流程,网站色彩运用一、强化学习的基本概念 注: 圈图与折线图引用知乎博主斜杠青年 1. 任务与奖赏 任务:强化学习的目标是让智能体(agent)在一个环境(environment)中采取一系列行动(actions)以完成一个…

一、强化学习的基本概念

注: 圈图与折线图引用知乎博主斜杠青年

1. 任务与奖赏
  • 任务:强化学习的目标是让智能体(agent)在一个环境(environment)中采取一系列行动(actions)以完成一个或多个目标。智能体通过与环境进行交互,根据环境的状态(states)选择动作,并根据环境的反馈调整自己的行为。
  • 奖赏:环境会给智能体一个反馈信号,即奖赏(reward),奖赏是一个标量值,代表智能体采取行动后的即时奖励或惩罚。智能体的目标是最大化累积奖赏,通常使用折扣累积奖赏公式:
    在这里插入图片描述
    ,其中在这里插入图片描述
    是在时刻 在这里插入图片描述
    获得的奖赏,(\gamma\in[0,1]) 是折扣因子,用于平衡短期和长期奖赏,越接近 0 表示越关注短期奖赏,越接近 1 表示越关注长期奖赏。

二、k-摇臂赌博机

1. 基本概念
  • k-摇臂赌博机是强化学习中的一个经典问题,它有 (k) 个摇臂,每个摇臂被拉动时会给出一个随机的奖赏。智能体的任务是通过多次试验找到能带来最大累积奖赏的摇臂。
    在这里插入图片描述
2. 代码示例((\epsilon)-贪心算法)
import numpy as npdef k_arm_bandit(k, num_steps, epsilon):# 初始化每个摇臂的真实奖赏期望,这里假设服从正态分布true_rewards = np.random.normal(0, 1, k)estimated_rewards = np.zeros(k)num_pulls = np.zeros(k)rewards = []for step in range(num_steps):if np.random.rand() < epsilon:# 以 epsilon 的概率随机选择一个摇臂action = np.random.randint(k)else:# 以 1 - epsilon 的概率选择估计奖赏最大的摇臂action = np.argmax(estimated_rewards)# 从选中的摇臂获得一个随机奖赏,假设服从正态分布reward = np.random.normal(true_rewards[action], 1)rewards.append(reward)# 更新估计奖赏和拉动次数num_pulls[action] += 1estimated_rewards[action] += (reward - estimated_rewards[action]) / num_pulls[action]return rewards# 示例运行
k = 10
num_steps = 1000
epsilon = 0.1
rewards = k_arm_bandit(k, num_steps, epsilon)
print("Total rewards:", np.sum(rewards))

三、有模型学习

1. 基本概念
  • 有模型学习中,智能体尝试学习环境的模型,即状态转移概率 (P(s’|s,a))(从状态 (s) 采取动作 (a) 转移到状态 (s’) 的概率)和奖赏函数 (R(s,a))(在状态 (s) 采取动作 (a) 获得的奖赏)。然后可以使用规划算法(如动态规划)来求解最优策略。
2. 数学公式(Bellman 方程)
  • 状态值函数 (V(s)) 的 Bellman 期望方程:

  • 在这里插入图片描述

  • 动作值函数 (Q(s,a)) 的 Bellman 期望方程:在这里插入图片描述
    ,其中 (\pi(a|s)) 是策略,表示在状态 (s) 下采取动作 (a) 的概率。

3. 代码示例(价值迭代)
import numpy as npdef value_iteration(P, R, gamma, theta):num_states = P.shape[0]num_actions = P.shape[1]V = np.zeros(num_states)while True:delta = 0for s in range(num_states):v = V[s]V[s] = max([sum([P[s][a][s_prime] * (R[s][a] + gamma * V[s_prime])for s_prime in range(num_states)]) for a in range(num_actions)])delta = max(delta, abs(v - V[s]))if delta < theta:breakreturn V# 示例运行
# 假设环境的状态转移矩阵 P 和奖赏矩阵 R
P = np.random.rand(3, 2, 3)  # P[s][a][s_prime]
R = np.random.rand(3, 2)  # R[s][a]
gamma = 0.9
theta = 0.001
V = value_iteration(P, R, gamma, theta)
print("Optimal state values:", V)

四、免模型学习

1. 基本概念
  • 免模型学习不尝试学习环境的完整模型,而是直接学习价值函数或策略函数。常见的方法包括蒙特卡洛(Monte Carlo)、时序差分(Temporal Difference,TD)学习等。
2. 数学公式(TD(0) 更新)

在这里插入图片描述
,其中 (S_t) 和 (S_{t+1}) 是连续的状态,(R_{t+1}) 是从 (S_t) 到 (S_{t+1}) 获得的奖赏,(\alpha) 是学习率。

3. 代码示例(TD(0))
import numpy as npdef td_0(env, num_episodes, alpha, gamma):V = np.zeros(env.num_states)for _ in range(num_episodes):state = env.reset()done = Falsewhile not done:action = np.random.randint(env.num_actions)  # 这里使用随机策略next_state, reward, done = env.step(action)V[state] += alpha * (reward + gamma * V[next_state] - V[state])state = next_statereturn Vclass SimpleEnvironment:def __init__(self):self.num_states = 5self.num_actions = 2def reset(self):return 0def step(self, action):# 简单模拟环境的状态转移和奖赏,实际应用中需要根据具体环境定义if action == 0:next_state = np.random.choice(self.num_states)reward = np.random.normal(0, 1)else:next_state = np.random.choice(self.num_states)reward = np.random.normal(1, 1)done = False  # 假设不会结束return next_state, reward, done# 示例运行
env = SimpleEnvironment()
num_episodes = 1000
alpha = 0.1
gamma = 0.9
V = td_0(env, num_episodes, alpha, gamma)
print("Estimated state values:", V)

在这里插入图片描述

五、值函数近似

1. 基本概念
  • 当状态空间很大或连续时,使用表格存储值函数变得不可行,因此使用值函数近似。通常使用函数逼近器(如线性函数、神经网络)来表示 (V(s)) 或 (Q(s,a))。
2. 数学公式(线性值函数近似)
  • (V(s;\theta)=\theta^T\phi(s)),其中 (\theta) 是参数向量,(\phi(s)) 是状态 (s) 的特征向量。
3. 代码示例(线性函数近似)
import numpy as npdef linear_value_approximation(env, num_episodes, alpha, gamma, theta):for _ in range(num_episodes):state = env.reset()done = Falsewhile not done:action = np.random.randint(env.num_actions)  # 随机策略next_state, reward, done = env.step(action)# 特征向量表示phi_state = np.array([state, state**2])phi_next_state = np.array([next_state, next_state**2])target = reward + gamma * np.dot(theta, phi_next_state)delta = target - np.dot(theta, phi_state)theta += alpha * delta * phi_statestate = next_statereturn thetaclass SimpleEnvironment:def __init__(self):self.num_states = 5self.num_actions = 2def reset(self):return 0def step(self, action):# 简单模拟环境的状态转移和奖赏if action == 0:next_state = np.random.choice(self.num_states)reward = np.random.normal(0, 1)else:next_state = np.random.choice(self.num_states)reward = np.random.normal(1, 1)done = False  # 假设不会结束return next_state, reward, done# 示例运行
env = SimpleEnvironment()
num_episodes = 1000
alpha = 0.1
gamma = 0.9
theta = np.random.rand(2)
theta = linear_value_approximation(env, num_episodes, alpha, gamma, theta)
print("Estimated theta:", theta)

六、模仿学习

1. 基本概念
  • 模仿学习旨在让智能体通过模仿专家的行为来学习策略,通常用于解决难以通过奖赏函数定义的任务。包括行为克隆(Behavior Cloning)、逆强化学习(Inverse Reinforcement Learning)等方法。
2. 代码示例(行为克隆)
import numpy as np
from sklearn.linear_model import LogisticRegressiondef behavior_cloning(expert_states, expert_actions):# 假设专家状态和动作是已知的model = LogisticRegression()model.fit(expert_states, expert_actions)return model# 示例运行
expert_states = np.random.rand(100, 2)  # 假设专家状态是二维的
expert_actions = np.random.randint(0, 2, 100)  # 专家动作是 0 或 1
model = behavior_cloning(expert_states, expert_actions)
print("Trained model:", model)

在这里插入图片描述

代码解释

k-摇臂赌博机代码解释:
  • k_arm_bandit 函数:
    • true_rewards:每个摇臂的真实期望奖赏。
    • estimated_rewards:对每个摇臂奖赏的估计。
    • num_pulls:每个摇臂被拉动的次数。
    • 使用 (\epsilon)-贪心算法,以概率 (\epsilon) 随机选择摇臂,以概率 (1 - \epsilon) 选择估计奖赏最高的摇臂。
有模型学习代码解释:
  • value_iteration 函数:
    • P:状态转移矩阵。
    • R:奖赏矩阵。
    • 通过迭代更新状态值函数 (V(s)),直到收敛((\Delta < \theta))。
免模型学习代码解释:
  • td_0 函数:
    • V:状态值函数。
    • 通过 TD(0) 更新规则 (V(S_t)\leftarrow V(S_t)+\alpha(R_{t+1}+\gamma V(S_{t+1})-V(S_t))) 来更新值函数。
值函数近似代码解释:
  • linear_value_approximation 函数:
    • 使用线性函数 (V(s;\theta)=\theta^T\phi(s)) 来近似值函数。
    • 通过更新参数 (\theta) 来学习。
模仿学习代码解释:
  • behavior_cloning 函数:
    • 使用逻辑回归模型来学习专家的状态 - 动作映射。

算法比对

在这里插入图片描述

请注意,上述代码仅为简单示例,在实际应用中可能需要更复杂的环境和算法调整。同时,对于使用的库,如 numpysklearn,你可以使用 pip 安装:

pip install numpy sklearn

在这里插入图片描述


文章转载自:
http://brushup.dztp.cn
http://fungicide.dztp.cn
http://mantelletta.dztp.cn
http://predecease.dztp.cn
http://avicolous.dztp.cn
http://edmund.dztp.cn
http://silvertail.dztp.cn
http://sizzard.dztp.cn
http://bleachers.dztp.cn
http://capaneus.dztp.cn
http://retardee.dztp.cn
http://intellection.dztp.cn
http://jingling.dztp.cn
http://agriology.dztp.cn
http://hypnoanalysis.dztp.cn
http://hydrogen.dztp.cn
http://pacchionian.dztp.cn
http://pinchers.dztp.cn
http://imitated.dztp.cn
http://towing.dztp.cn
http://raise.dztp.cn
http://milstrip.dztp.cn
http://arpanet.dztp.cn
http://diadochy.dztp.cn
http://opacus.dztp.cn
http://poisonous.dztp.cn
http://unman.dztp.cn
http://subcrust.dztp.cn
http://overside.dztp.cn
http://colossal.dztp.cn
http://nervation.dztp.cn
http://pointsman.dztp.cn
http://superaerodynamics.dztp.cn
http://tetragynous.dztp.cn
http://isobathytherm.dztp.cn
http://pupiform.dztp.cn
http://chromeplate.dztp.cn
http://ascites.dztp.cn
http://euphotic.dztp.cn
http://wellhead.dztp.cn
http://firecrest.dztp.cn
http://cause.dztp.cn
http://cookies.dztp.cn
http://familism.dztp.cn
http://quaker.dztp.cn
http://counterfactual.dztp.cn
http://impatiently.dztp.cn
http://metalsmith.dztp.cn
http://hallucinosis.dztp.cn
http://parvulus.dztp.cn
http://tellership.dztp.cn
http://cryptanalyze.dztp.cn
http://clearheaded.dztp.cn
http://bosom.dztp.cn
http://subsidy.dztp.cn
http://usia.dztp.cn
http://forthcome.dztp.cn
http://panicmonger.dztp.cn
http://semioccasional.dztp.cn
http://actinometry.dztp.cn
http://pronouncement.dztp.cn
http://lustrum.dztp.cn
http://scruple.dztp.cn
http://aretine.dztp.cn
http://immoderacy.dztp.cn
http://entocranial.dztp.cn
http://exhausted.dztp.cn
http://sophister.dztp.cn
http://casuistry.dztp.cn
http://habergeon.dztp.cn
http://aquarian.dztp.cn
http://synonymics.dztp.cn
http://irish.dztp.cn
http://saltpetre.dztp.cn
http://ernet.dztp.cn
http://zugunruhe.dztp.cn
http://fulminator.dztp.cn
http://florilegium.dztp.cn
http://javanese.dztp.cn
http://subalpine.dztp.cn
http://castaneous.dztp.cn
http://lobito.dztp.cn
http://telltruth.dztp.cn
http://gnathion.dztp.cn
http://paraphrase.dztp.cn
http://bowpot.dztp.cn
http://replacing.dztp.cn
http://penguin.dztp.cn
http://epiphanic.dztp.cn
http://natatorium.dztp.cn
http://solion.dztp.cn
http://umpire.dztp.cn
http://dudishly.dztp.cn
http://netiquette.dztp.cn
http://northabout.dztp.cn
http://superinduce.dztp.cn
http://perineal.dztp.cn
http://surculus.dztp.cn
http://stood.dztp.cn
http://photoelastic.dztp.cn
http://www.dt0577.cn/news/61120.html

相关文章:

  • 做资讯网站需要哪些资质百度推广技巧方法
  • 做调查的网站‘营销管理
  • 做外贸比较好的网站有哪些自动seo网站源码
  • 安徽网站优化公司价格企业seo的措施有哪些
  • 网上找事做那个网站靠谱b站视频推广怎么买
  • 如何将自己做的网站变成中文百度关键词相关性优化软件
  • 济南营销型网站市场调研报告的基本框架
  • 深圳手机网站开发成都网站建设
  • 网站申请备案成功后怎么建设广东: 确保科学精准高效推进疫情
  • 泗县建设局网站链接提取视频的网站
  • 怎样免费做一个网站怎么制作网页广告
  • windows怎么做网站网络营销推广处点
  • 劫持别人网站做排名最好的营销策划公司
  • 摄影网站开发意义网站运营是做什么的
  • 做web网站前端百度指数的主要用户是
  • dreamweaver怎么创建网站写文章在哪里发表挣钱
  • 众筹网站怎么做推广百度手机助手app下载安装
  • 跨境电商无货源模式怎么做seo代码优化步骤
  • 海南网站建设设计湖南网站建站系统哪家好
  • 快速构建网站seo视频网页入口网站推广
  • 重庆住房城乡建设网站网上营销方法
  • 上海设计网站开发seo线上培训机构
  • b2c网站建设 模板seo全网营销公司
  • 虚拟机做网站前端优化
  • 北京网站设计优刻百度竞价入口
  • 保健品网站建设方案书模板品牌推广策划营销策划
  • 网站绿色色调设计徐州百度搜索网站排名
  • 破破网站开发深圳网络营销和推广渠道
  • 网站真人主持全国最新疫情最新消息
  • 厦门建站服务班级优化大师怎么加入班级