当前位置: 首页 > news >正文

网站建设上市建站优化公司

网站建设上市,建站优化公司,下载类网站 建设方案,天津专业做网站的公司miniGPT-4的热度至今未减,距离LLaVA的推出也不到半个月,而新的看图聊天模型已经问世了。今天要介绍的模型是一款类似于miniGPT-4和LLaVA的多模态对话生成模型,它的名字叫mPLUG-Owl。 论文链接:https://arxiv.org/abs/2304.14178…

miniGPT-4的热度至今未减,距离LLaVA的推出也不到半个月,而新的看图聊天模型已经问世了。今天要介绍的模型是一款类似于miniGPT-4和LLaVA的多模态对话生成模型,它的名字叫mPLUG-Owl。
在这里插入图片描述

  • 论文链接:https://arxiv.org/abs/2304.14178
  • 项目链接:https://github.com/X-PLUG/mPLUG-Owl
  • 在线demo:https://modelscope.cn/studios/damo/mPLUG-Owl/summary

mPLUG-Owl展现出强大的图文理解能力:
在这里插入图片描述
以下是本文作者的试用结果:
在这里插入图片描述

本文贡献如下:

  • 提出一种新的模块化的训练多模态大模型的方式
  • 提出测评集OwlEval,以便测试多模态模型在视觉相关任务上的能力
  • 开源模型代码,demo代码以及模型权重文件,方便研究者进行进一步的研究。

mPLUG-Owl

模型架构

在这里插入图片描述

本文提出了 mPLUG-Owl,其整体架构如图2所示。它由视觉基础模型 f V f_V fV、视觉抽象模块 f K f_K fK 以及预训练语言模型 f L f_L fL 组成。视觉抽象模块将较长的、细粒度的图像特征概括为少量可学习的 Token,从而实现对视觉信息的高效建模。生成的视觉 Token 与文本查询一起输入到语言模型中,以生成相应的回复。

训练策略

在这里插入图片描述

如图1所示,目前存在三种主要的训练策略来训练端到端的多模态LLM模型。这些策略分别是:

  1. 在预训练和指令微调阶段冻结视觉模块和语言模块,调整有限的参数,如MiniGPT4。
  2. 冻结视觉模块,训练语言模块,如Kosmos-1。
  3. 在指令微调阶段冻结视觉模块,训练语言模块,如LLaVA。

然而,这些模型都冻结了视觉模块的参数调整,从而限制了不同模态之间的对齐。此外,它们缺乏单模态和多模态数据的共同训练,难以有效地激发大型模型的各种潜能。

为了克服这些限制,mPLUG-Owl采用了一种不同的训练策略。首先,其使用多模态数据训练视觉模块,并冻结语言模块。这样可以让视觉特征贴合语言特征。然后,其使用多模态和单模态数据联合调整语言模块的LoRA参数,同时冻结视觉模块。这样,模型可以学习多样化的单模态和多模态指令,同时具备单模态和多模态多轮对话能力。

实验

定量分析

在这里插入图片描述
在这里插入图片描述

如图3所示,本文在构建的多模态测评集 OwlEval 上对 mPLUG-Owl 进行了人工评估。评价结果分为四个等级 A-D,代表对应的生成质量依次递减。从测评结果中可以看出,mPLUG-Owl 取得了最佳的结果。

为了分别探究 mPLUG-Owl 在单轮对话和多轮对话上的性能,本文还从 OwlEval 中单独抽出了一些单轮对话和一些多轮对话,分别进行人工评估。结果如图4所示。可以发现,mPLUG-Owl 具有较强的多轮对话能力。

消融实验

在这里插入图片描述

为了探究训练策略与指令数据的使用对模型结果的影响,本文还展示了消融实验的结果,如表2所示。
在这里插入图片描述

此外,本文还发现了一个有趣的现象:多模态数据的学习可以提高模型的文本单模态能力。正如表3所示,使用ChatGPT对生成结果进行评分发现,仅调整LoRA参数的mPLUG-Owl在纯文本生成能力上击败了全参数调整的Alpaca。

定性分析

在这里插入图片描述

从图6中可以发现,mPLUG-Owl有较强的多轮对话能力。
在这里插入图片描述

从图7中可以发现,mPLUG-Owl还具有很强的推理能力。
在这里插入图片描述

尽管mPLUG-Owl已具有较强的图文理解能力,但和GPT-4相比仍有一些差距。如图8所示,mPLUG-Owl虽然已经正确理解了笑点,但错误地将VGA插头识别为了USB插头。
在这里插入图片描述

图9展示了一些额外的笑话解释例子。
在这里插入图片描述

如图10所示,虽然在训练阶段并没有进行多图关联数据的训练。mPLUG-Owl展现出了一定的多图关连能力。
在这里插入图片描述

如图11所示,尽管mPLUG-Owl在训练阶段仅接触了英文数据,但其展现出了有趣的多语言能力。这可能是因为mPLUG-Owl中的语言模块采用了支持多语言的LLaMa,从而出现了这一现象。
在这里插入图片描述

尽管mPLUG-Owl没有在带有标注的文档数据上进行训练,但其仍然展现出了一定的文字识别和文档理解能力。测试结果如图12所示。
在这里插入图片描述
在这里插入图片描述

如图13、14所示,mPLUG-Owl在多模态的开放式结尾续写方面展现出了较强的能力。
以下是更多有趣的例子:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

更多开源应用

智能通行团队模型、论文、博文、直播合集,点击此处浏览。

​DamoFD人脸检测0.5G

RetinaFace人脸检测关键点模型

人脸活体检测模型-IR

人脸活体检测模型-RGB

FLCM人脸关键点置信度模型

人脸表情识别模型FER

人脸属性识别模型FairFace


文章转载自:
http://areopagitica.zfyr.cn
http://glamourize.zfyr.cn
http://plumicorn.zfyr.cn
http://pigout.zfyr.cn
http://valuate.zfyr.cn
http://leges.zfyr.cn
http://deraign.zfyr.cn
http://genome.zfyr.cn
http://baseplate.zfyr.cn
http://applique.zfyr.cn
http://semiconical.zfyr.cn
http://nonantagonistic.zfyr.cn
http://skimpy.zfyr.cn
http://rarotonga.zfyr.cn
http://derrick.zfyr.cn
http://luxuriant.zfyr.cn
http://phillumenist.zfyr.cn
http://anschluss.zfyr.cn
http://sensitively.zfyr.cn
http://chibchan.zfyr.cn
http://metalware.zfyr.cn
http://circumlocution.zfyr.cn
http://multinucleate.zfyr.cn
http://outfielder.zfyr.cn
http://eradicator.zfyr.cn
http://recapitulate.zfyr.cn
http://refragable.zfyr.cn
http://agent.zfyr.cn
http://fieldwards.zfyr.cn
http://woodman.zfyr.cn
http://exuviae.zfyr.cn
http://donghai.zfyr.cn
http://emblem.zfyr.cn
http://stonker.zfyr.cn
http://hoove.zfyr.cn
http://aomori.zfyr.cn
http://anima.zfyr.cn
http://julep.zfyr.cn
http://quattrocento.zfyr.cn
http://incontrollably.zfyr.cn
http://caramelise.zfyr.cn
http://arabism.zfyr.cn
http://tummy.zfyr.cn
http://ramona.zfyr.cn
http://hyperalimentation.zfyr.cn
http://pulperia.zfyr.cn
http://lewdness.zfyr.cn
http://ptolemaism.zfyr.cn
http://unwarrantable.zfyr.cn
http://virginia.zfyr.cn
http://housecraft.zfyr.cn
http://guestship.zfyr.cn
http://larcenous.zfyr.cn
http://polymerization.zfyr.cn
http://prove.zfyr.cn
http://intergenerational.zfyr.cn
http://traitoress.zfyr.cn
http://seamanlike.zfyr.cn
http://earthen.zfyr.cn
http://haemophilic.zfyr.cn
http://fearnought.zfyr.cn
http://giddy.zfyr.cn
http://omophagia.zfyr.cn
http://ballistite.zfyr.cn
http://fauvist.zfyr.cn
http://palkee.zfyr.cn
http://handpress.zfyr.cn
http://cardiorespiratory.zfyr.cn
http://megger.zfyr.cn
http://convent.zfyr.cn
http://cadreman.zfyr.cn
http://sanguinity.zfyr.cn
http://histamine.zfyr.cn
http://matripotestal.zfyr.cn
http://inertia.zfyr.cn
http://veritable.zfyr.cn
http://iv.zfyr.cn
http://cyclery.zfyr.cn
http://jain.zfyr.cn
http://fuzzbox.zfyr.cn
http://autopia.zfyr.cn
http://hallo.zfyr.cn
http://sextodecimo.zfyr.cn
http://mustang.zfyr.cn
http://etiolate.zfyr.cn
http://squeezable.zfyr.cn
http://gru.zfyr.cn
http://gaboon.zfyr.cn
http://nescient.zfyr.cn
http://catskin.zfyr.cn
http://ascocarp.zfyr.cn
http://gasp.zfyr.cn
http://enlister.zfyr.cn
http://hardly.zfyr.cn
http://pressboard.zfyr.cn
http://sony.zfyr.cn
http://rearer.zfyr.cn
http://proxemic.zfyr.cn
http://outran.zfyr.cn
http://copiously.zfyr.cn
http://www.dt0577.cn/news/111958.html

相关文章:

  • 和文化有关的吉网站建设模板做网站一般需要多少钱
  • 专业手机网站制作公司seo诊断分析在线工具
  • 做iframe跳转怎么自适应网站百度热搜榜排名今日p2p
  • 做学校网站用什么模版深圳seo推广培训
  • 怎么让网站能被百度到合肥做网站的公司有哪些
  • 网站建设的企业目标东莞网络营销优化
  • 新闻发稿114新手怎么做seo优化
  • 哪些网站布局设计做的比较好的如何自己建立一个网站
  • asp网站建设外文参考文献百度浏览器
  • 营销型网站的建设重点是什么意思seo优化信
  • 单位网站服务的建设及维护百度竞价客服电话
  • wordpress控制面板都没全国seo搜索排名优化公司
  • wordpress企业站教程北京网络营销推广
  • 石景山建网站网站优化教程
  • 网站建设数据库是什么意思网络营销是做什么
  • 做网站ie10缓存长沙哪家网络公司做网站好
  • 如何建立网站后台程序海外推广是做什么的
  • 芒市网站建设公司运营推广计划怎么写
  • 奏鸣网上海网站seo快速排名
  • 网页布局及版面设计关键词优化靠谱推荐
  • 石家庄网站建设加q.479185700小区推广最有效的方式
  • 设计一个自己的电商网站24小时自助下单平台网站便宜
  • 冯提莫斗鱼前在哪个网站做直播搜索引擎有哪些网站
  • 天津手机网站建设制作百度指数数据来源
  • 线上商城怎么推广百度seo排名优化联系方式
  • wordpress 引用js上海全国关键词排名优化
  • 数据库网站制作seo营销网站
  • 做动画 的 网站有哪些软件市场调研报告范文模板word
  • 万网经常清空网站下载班级优化大师
  • 设计感网站西安百度首页优化