当前位置：首页 > news >正文

网站因未取得备案号而被关闭网络营销优化推广

news 2025/7/5 16:35:19

网站因未取得备案号而被关闭,网络营销优化推广,太原网站建设网格未来,展馆网站建设最近在看大模型训练相关的论文，预计会追溯经典的和最新的训练策略以及微调原理等本次解读经典论文learning to summarize with human feedback 一、简介部分生成任务需要对齐人类偏好，但是根据最大化可能性（对数似然）进行微调…

最近在看大模型训练相关的论文，预计会追溯经典的和最新的训练策略以及微调原理等

本次解读经典论文learning to summarize with human feedback

一、简介

部分生成任务需要对齐人类偏好，但是根据最大化可能性（对数似然）进行微调的模型跟真正使用模型的人的喜好并不能直接匹配，即不对齐。

这种不对齐的原因有：（1）最大化可能性目标对于重要和不重要的错误判别的差距不大。（2）模型会对人类的训练数据放置更大的可能性，其中包括低质量的训练数据。（3）采样时的分布偏移可能会降低表现。尽管第三点能够通过不均匀采样策略改善，比如束搜索，但是可能造成重复和不想要的捏造。

本论文的团队基于GPT3和人类反馈强化学习进行了完整的偏好对齐的流程。

主要的贡献如下：

（1）使用人类反馈训练后在英文摘要生成的任务上表现显著。

（2）比有监督模型对于新领域的泛化性更好

（3）对policy和奖励模型进行了严谨的分析

（4）开源人类反馈数据集

创新：模型更大；收集人类反馈的批次设定；保证标注人员和研究人员的评价一致；一些算法改进，比如将policy和奖励模型分开

二、方法和实验细节

在已经有一个训练过的模型（在强化学习中，这个训练好的模型叫policy）的基础上，对于RLHF，通用的三步如下：

1.使用policy模型对同一个prompt进行推理后给标注员进行对比

2.从以上的对比结果中训练一个奖励模型

3.使用奖励模型和PPO算法进行policy模型的优化

对于同一个摘要生成的数据，结果对比：

三、模型结构

所有模型的结构是GPT3风格的Transformer解码器

先在大规模的文本库中使用预测下一个token的形式进行预训练

奖励模型

人类反馈policy模型

前者最大化奖励模型的偏好，后者有两个作用：（1）鼓励模型去探索好的模式，防止单模式崩溃

（2）让模型减少学习和训练时见过的输出相差较大的偏好。

http://www.dt0577.cn/news/8605.html

相关文章：

涟源市住房与城乡建设局网站武汉seo推广优化公司

长春市长春网站建设市场调研报告范文2000

网站如何做软文推广深圳百度推广电话

局域网内做网站营销软文写作

专门做生鲜的网站哪里有学市场营销培训班

张艺兴粉丝做的网站网络营销的六大特征

专门做超市dm网站湖南网站制作哪家好

学校网站建设材料市场营销最有效的手段

小公司要不要建设网站什么是优化师

桥梁毕业设计代做网站木卢seo教程

学网页设计有什么网站游戏推广文案

做网站开发学什么内容石家庄疫情

网站建设方案概述怎样利用互联网进行网络推广

sns网站开发营销推广的形式包括

沈阳网站建设与开发如何建立网址

wordpress 输出sql福建键seo排名

网站大屏轮播图效果怎么做什么是网络软文营销

新手如何学会做网络销售领硕网站seo优化

创建百度网站全球网站流量排名100

给网站做选题windows优化大师下载

延庆b2c网站制作价格网站关键词优化排名软件

软件开发有前途吗搜索优化推广公司

怎样做吧网站排名做上去站长统计软件

成都网站建设报价宁波seo网络推广

饮食类网站网络营销推广方案范文

wordpress音乐页面下载文件aso优化服务站

网站建设食品搜索引擎营销特点

c#网站开发案例源码搜狐综合小时报2022113011

专做婚纱店设计网站营销策划思路及方案

网站建设外包排名南宁百度首页优化