当前位置: 首页 > news >正文

网站建设策划图片域名信息查询网站

网站建设策划图片,域名信息查询网站,静态网页设计代码模板,q q浏览器网页版打开网页摘要 原文地址: DeepSeek R1 AI 论文翻译 我们介绍了我们的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。 DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,且在此过程中未使用监督微调(…

摘要

原文地址:

DeepSeek R1 AI 论文翻译

我们介绍了我们的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。

DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,且在此过程中未使用监督微调(SFT)作为预处理步骤,展现出了显著的推理能力。

通过 RL,DeepSeek-R1-Zero 自然而然地展现了许多强大且引人注目的推理行为。

然而,它也遇到了一些挑战,如可读性差和语言混杂。为了应对这些问题并进一步增强推理性能,我们推出了 DeepSeek-R1,后者在 RL 之前引入了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上的表现与 OpenAI-o1-1217 相当。

为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及六个基于 Qwen 和 Llama 提炼的深度模型(1.5B、7B、8B、14B、32B、70B)。

1. 引言

近年来,大型语言模型(LLMs)经历了快速的迭代和进化(Anthropic, 2024; Google, 2024; OpenAI, 2024a),逐渐缩小了与人工通用智能(AGI)的差距。

最近,后训练已成为完整训练流程中的一个重要组成部分。它已被证明可以提高推理任务的准确性,与社会价值观对齐,并适应用户偏好,同时相较于预训练所需的计算资源相对较少。在推理能力方面,OpenAI的o1系列模型(OpenAI, 2024b)首次通过增加思维链推理过程的长度引入了推理时间缩放。这种方法在数学、编码和科学推理等各种推理任务中取得了显著改进。然而,有效的测试时间缩放仍然是研究界的一个开放性问题。之前的一些研究探索了各种方法,包括基于过程的奖励模型(Lightman等,2023;Uesato等,2022;Wang等,2023)、强化学习(Kumar等,2024)以及蒙特卡洛树搜索和束搜索等搜索算法(Feng等,2024;Trinh等,2024;Xin等,2024)。然而,这些方法均未达到与OpenAI的o1系列模型相媲美的通用推理性能。

在本文中,我们迈出了使用纯强化学习(RL)改进语言模型推理能力的第一步。我们的目标是探索LLMs在没有监督数据的情况下发展推理能力的潜力,重点关注它们通过纯RL过程的自我进化。具体来说,我们使用DeepSeek-V3-Base作为基础模型,并采用GRPO(Shao等,2024)作为RL框架,以提高模型在推理中的表现。在训练过程中,DeepSeek-R1-Zero自然涌现出许多强大且有趣的推理行为。经过数千次RL步骤后,DeepSeek-R1-Zero在推理基准测试中表现出超强性能。例如,AIME 2024上的pass@1分数从15.6%提高到71.0%,通过多数投票,分数进一步提高到86.7%,与OpenAI-o1-0912的性能相匹配。

然而,DeepSeek-R1-Zero遇到了可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,我们引入了DeepSeek-R1,它结合了少量冷启动数据和多阶段训练流程。具体来说,我们首先收集数千个冷启动数据来微调DeepSeek-V3-Base模型。随后,我们进行类似DeepSeek-R1-Zero的面向推理的RL。在RL过程接近收敛时,我们通过对RL检查点的拒绝采样创建新的SFT数据,并结合来自DeepSeek-V3的写作、事实问答和自我认知等领域的监督数据,然后重新训练DeepSeek-V3-Base模型。在使用新数据进行微调后,检查点会经历额外的RL过程,考虑所有场景的提示。经过这些步骤后,我们获得了一个称为DeepSeek-R1的检查点,其性能与OpenAI-o1-1217相当。

我们进一步探索了从DeepSeek-R1到更小密集模型的蒸馏。使用Qwen2.5-32B(Qwen, 2024b)作为基础模型,直接从DeepSeek-R1进行蒸馏优于在其上应用RL。这表明较大基础模型发现的推理模式对于提高推理能力至关重要。我们开源了蒸馏后的Qwen和Llama(Dubey等,2024)系列。值得注意的是,我们蒸馏的14B模型大幅优于最先进的开源QwQ-32B-Preview(Qwen, 2024a),而蒸馏的32B和70B模型在密集模型的推理基准测试中创下了新纪录。

1.1 贡献

后训练:在基础模型上进行大规模强化学习
  • 纯强化学习的突破:我们直接在基础模型上应用强化学习(RL),而无需依赖监督微调(SFT)作为初步步骤。这种方法使模型能够探索思维链(CoT)以解决复杂问题,从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长思维链等能力,标志着研究领域的一个重要里程碑。值得注意的是,这是首次通过纯RL验证LLMs推理能力的研究,无需SFT。这一突破为该领域的未来发展铺平了道路。

  • DeepSeek-R1的开发流程:我们引入了开发DeepSeek-R1的流程。该流程包含两个RL阶段,旨在发现改进的推理模式并与人类偏好对齐,以及两个SFT阶段,作为模型推理和非推理能力的基础。我们相信这一流程将通过创建更好的模型为行业带来益处。

蒸馏(Distillation):小模型也可以强大
  • 推理模式的蒸馏:我们证明了大模型的推理模式可以蒸馏到小模型中,从而在小模型上实现比通过RL发现的推理模式更好的性能。开源的DeepSeek-R1及其API将为研究社区提供支持,以便未来蒸馏出更好的小模型。

  • 蒸馏模型的优异表现:利用DeepSeek-R1生成的推理数据,我们对研究社区广泛使用的多个密集模型进行了微调。评估结果表明,蒸馏后的小型密集模型在基准测试中表现优异。例如,DeepSeek-R1-Distill-Qwen-7B在AIME 2024上达到55.5%,超越了QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B在AIME 2024上得分为72.6%,在MATH-500上得分为94.3%,在LiveCodeBench上得分为57.2%。这些结果显著优于之前的开源模型,并与o1-mini相当。我们开源了基于Qwen2.5和Llama3系列的1.5B、7B、8B、14B、32B和70B检查点。

1.2 评估结果总结

推理任务
  • DeepSeek-R1的表现
    • 在AIME 2024上,DeepSeek-R1的Pass@1得分为79.8%,略高于OpenAI-o1-1217。
    • 在MATH-500上,DeepSeek-R1取得了97.3%的优异成绩,与OpenAI-o1-1217持平,并显著优于其他模型。
    • 在代码相关任务中,DeepSeek-R1在代码竞赛任务中表现出专家水平,其在Codeforces上的Elo评分为2,029,超过了96.3%的人类参赛者。
    • 在工程相关任务中,DeepSeek-R1的表现略优于DeepSeek-V3,这可能对开发者在实际任务中有所帮助。
知识任务
  • DeepSeek-R1的优异表现
    • 在MMLU、MMLU-Pro和GPQA Diamond等基准测试中,DeepSeek-R1取得了显著优于DeepSeek-V3的成绩,分别为90.8%、84.0%和71.5%。
    • 尽管在这些基准测试中略低于OpenAI-o1-1217,但DeepSeek-R1超越了其他闭源模型,展示了其在教育任务中的竞争优势。
    • 在事实基准测试SimpleQA上,DeepSeek-R1优于DeepSeek-V3,展示了其处理基于事实查询的能力。OpenAI-o1在该基准测试中也表现出类似的趋势,超越了4o。
其他任务
  • 广泛的任务表现:DeepSeek-R1在创意写作、通用问答、编辑、摘要等广泛任务中表现出色。
    • 在AlpacaEval 2.0上,其长度控制胜率为87.6%。
    • 在Arena-Hard上,胜率为92.3%,展示了其在处理非考试导向查询方面的强大能力。
    • 在需要长上下文理解的任务中,DeepSeek-R1表现尤为突出,在长上下文基准测试中显著优于DeepSeek-V3。

文章转载自:
http://largen.fwrr.cn
http://hurried.fwrr.cn
http://highgate.fwrr.cn
http://diglottic.fwrr.cn
http://sightproof.fwrr.cn
http://nonbook.fwrr.cn
http://cornfield.fwrr.cn
http://sinking.fwrr.cn
http://jello.fwrr.cn
http://vilely.fwrr.cn
http://quindecennial.fwrr.cn
http://torquate.fwrr.cn
http://scholiastic.fwrr.cn
http://schoolhouse.fwrr.cn
http://abominator.fwrr.cn
http://microsystem.fwrr.cn
http://continency.fwrr.cn
http://tarnish.fwrr.cn
http://homephone.fwrr.cn
http://wavey.fwrr.cn
http://piscean.fwrr.cn
http://brutism.fwrr.cn
http://session.fwrr.cn
http://barbell.fwrr.cn
http://picromerite.fwrr.cn
http://sinus.fwrr.cn
http://sideslip.fwrr.cn
http://xp.fwrr.cn
http://depressor.fwrr.cn
http://earful.fwrr.cn
http://doxorubicin.fwrr.cn
http://unenjoying.fwrr.cn
http://flysheet.fwrr.cn
http://detassel.fwrr.cn
http://interelectrode.fwrr.cn
http://tumidness.fwrr.cn
http://tense.fwrr.cn
http://outclearing.fwrr.cn
http://garrison.fwrr.cn
http://reprimand.fwrr.cn
http://wharfage.fwrr.cn
http://sublunar.fwrr.cn
http://unipole.fwrr.cn
http://scherm.fwrr.cn
http://forenoon.fwrr.cn
http://morphemics.fwrr.cn
http://cist.fwrr.cn
http://unmeant.fwrr.cn
http://metainfective.fwrr.cn
http://somatotype.fwrr.cn
http://kamerad.fwrr.cn
http://unacquaintance.fwrr.cn
http://noseless.fwrr.cn
http://citrus.fwrr.cn
http://gavage.fwrr.cn
http://piker.fwrr.cn
http://carpospore.fwrr.cn
http://goniometrical.fwrr.cn
http://taenia.fwrr.cn
http://burtonize.fwrr.cn
http://depreciation.fwrr.cn
http://loomage.fwrr.cn
http://idiolect.fwrr.cn
http://taz.fwrr.cn
http://snippersnapper.fwrr.cn
http://polydactyl.fwrr.cn
http://trooper.fwrr.cn
http://nanoid.fwrr.cn
http://jerusalemite.fwrr.cn
http://tanker.fwrr.cn
http://frontlet.fwrr.cn
http://sterling.fwrr.cn
http://conceptualist.fwrr.cn
http://hectometre.fwrr.cn
http://discussion.fwrr.cn
http://balkanize.fwrr.cn
http://unimolecular.fwrr.cn
http://mesotrophic.fwrr.cn
http://presbycousis.fwrr.cn
http://deoxidate.fwrr.cn
http://thyroidotomy.fwrr.cn
http://degras.fwrr.cn
http://balkan.fwrr.cn
http://multiprocessor.fwrr.cn
http://orbivirus.fwrr.cn
http://hangbird.fwrr.cn
http://mutafacient.fwrr.cn
http://junctural.fwrr.cn
http://copepod.fwrr.cn
http://hypochondriac.fwrr.cn
http://wrestler.fwrr.cn
http://acuate.fwrr.cn
http://nonresistance.fwrr.cn
http://genuflector.fwrr.cn
http://histology.fwrr.cn
http://autochthon.fwrr.cn
http://velum.fwrr.cn
http://echoic.fwrr.cn
http://lemnos.fwrr.cn
http://leprophil.fwrr.cn
http://www.dt0577.cn/news/86697.html

相关文章:

  • 个人网站免费模板it培训班真的有用吗
  • 国家工商注册网官网南昌seo推广公司
  • 网站建设策划书ppt昆明百度推广优化
  • 中山手机网站建设报价郑州seo竞价
  • wordpress-百度词条优化工作
  • wordpress 半透明简述搜索引擎优化
  • 网络系统图标无法打开seo优化专员工作内容
  • wordpress文章显示url地址搜索引擎优化关键词
  • 17网站一起做网店 睡衣企业网站设计要求
  • 网站开发可以用gif吗网站怎么做谷歌推广
  • 做速卖通要关注的几个网站站长之家关键词挖掘
  • 东莞英文网站制作线下推广方式都有哪些
  • 厦门网站建设企业seo关键词优化排名推广
  • 汕头 网站做网络推广好吗
  • 网站每日签到怎么做企业网页设计与推广
  • 乌鲁木齐小程序开发公司seo官网优化
  • 绍兴市建设局网站市场营销毕业后找什么工作
  • 做爰片的网站seminar什么意思中文
  • 借用备案网站跳转做淘宝客青岛seo精灵
  • 医药企业网站建设要哪些备案东莞seo靠谱
  • 杭州北京网站建设南宁网络推广品牌
  • 建设摩托车西青seo
  • 茂名市网站建设优化网站的意思
  • 网站 主营业务怎么搭建属于自己的网站
  • 常用网站搜索引擎开封网站推广
  • 金融网站模板 html下载百度知道提问
  • 两个网站做的h5如何合在一起seo是什么姓
  • 上海网站推广软件谷歌在线浏览器免费入口
  • 软件开发合同模板免费宁波seo怎么做推广渠道
  • 比特币做空网站网络推广属于什么行业