当前位置: 首页 > news >正文

网站运行时错误如何做互联网站

网站运行时错误如何做,互联网站,西安做网站公司,c to c网站开发目录 1、基于对比学习的VLMs 1.1 CLIP 2、基于mask的VLMs 2.1 FLAVA 2.2 MaskVLM 2.3 关于VLM目标的信息理论视角 3、基于生成的VLM 3.1 学习文本生成器的例子: 3.2 多模态生成模型的示例: 3.3 使用生成的文本到图像模型进行下游视觉语言任务 4、 基于预训练主干网…

目录

1、基于对比学习的VLMs

1.1 CLIP

2、基于mask的VLMs

2.1 FLAVA

2.2 MaskVLM

2.3 关于VLM目标的信息理论视角

3、基于生成的VLM

3.1 学习文本生成器的例子:

3.2 多模态生成模型的示例:

3.3 使用生成的文本到图像模型进行下游视觉语言任务

4、 基于预训练主干网络的视觉语言模型(VLM)

4.1 Frozen

4.2 MiniGPT模型示例

MiniGPT-4的应用

MiniGPT-5的扩展

MiniGPT-v2的多任务应用

4.3 使用预训练主干的其他热门模型

Qwen模型

BLIP-2模型


论文: https://arxiv.org/pdf/2405.17247

这里主要整理了多模态的技术发展历程,没有一些实验对比的数据。

VLM家族: 

1)对比训练是一种广泛应用的策略,它采用正面例子和负面例子的配对方式。视觉语言模型(VLM)通过这种方式被训练,以针对正面配对预测出相似的表示,同时对于负面配对则预测出不同的表示。

2)掩码技术是另一种训练VLM的策略,它通过重构给定的未掩码文本字幕中缺失的部分来实现。类似地,通过在字幕中掩码词语,也可以训练VLM来重构给定未掩码图像中的这些词语。

3)尽管大多数方法采用中间表示或部分重构技术,但生成式VLM经过特殊训练后,能够生成完整的图像或极长的字幕。考虑到这些模型的复杂性,它们通常需要较高的训练成本。

4)基于预训练主干网络的VLM经常利用像Llama这样的开源大型语言模型(LLM),学习图像编码器(也可能事先经过训练)与LLM之间的映射关系。重要的是,这些模型不是互斥的;许多方法依赖于对比、掩蔽和生成几种标准的结合。

1、基于对比学习的VLMs

基于对比的训练通常可以通过基于能量的模型(Energy-Based Models, EBM)的观点来更好地解释,如LeCun等人在2006年提出的,其中一个由参数θ定义的模型Eθ,被训练以赋予观察到的变量较低的能量,而未观察到的变量则赋予较高的能量。来自目标分布的数据应该具有较低的能量,而其他任何数据点则应具有较高的能量。为了训练这些模型,我们考虑输入数据x与一个能量函数Eθ(x),该能量函数由参数θ给出。相应的学习目标的玻尔兹曼分布密度函数可以写成:

其中归一化因子为 𝑍𝜃=∑𝑥𝑒−𝐸𝜃(𝑥)。为了估计输入数据抽取的目标分布PD,我们原则上可以使用传统的最大似然目标函数:

其梯度为:

然而,上述方法需要从模型分布 𝑃𝜃(𝑥) 中采样出样本 𝑥−,而这样的样本可能难以得到。目前有几种技术可以近似地模拟这种分布。一种方法依赖于马尔可夫链蒙特卡罗(MCMC)技术,通过迭代过程找出能够最小化预测能量的样本。第二种方法依赖于得分匹配[Hyvärinen, 2005]和去噪得分匹配[Vincent, 2011]的标准,它们通过只学习输入数据相对于概率密度的梯度来移除归一化因子。另一类方法,最近在自监督学习(SSL)和视觉语言模型(VLM)的研究中使用最多的,是噪声对比估计(NCE)[Gutmann和Hyvärinen, 2010]。

与其使用模型分布来采样负样本,NCE背后的直觉是,采样自噪声分布 𝑢′∼𝑝𝑛(𝑢′) 在某些情况下可能足够好地近似模型分布样本。尽管从理论上难以证明这种方法为何可行,但是广泛的实验证据表明,近期自监督学习文献中基于NCE的方法是成功的[Chen等人,2020]。原始的NCE框架可以描述为一个二元分类问题,模型应当为来自真实数据分布的样本预测标签 𝐶=1,而为来自噪声分布的样本预测 𝐶=0。通过这种方式,模型学会了区分真实数据点和噪声数据点。因此,损失函数可以定义为具有交叉熵的二元分类:

𝐿𝑁𝐶𝐸(𝜃):=−∑𝑖log⁡𝑃(𝐶𝑖=1∣𝑥𝑖;𝜃)−∑𝑗log⁡𝑃(𝐶𝑗=0∣𝑥𝑗;𝜃)

其中 𝑥𝑖 是从数据分布中采样的,而 𝑥𝑗∼𝑝𝑛(𝑥),𝑗≠𝑖 是从噪声分布中采样的。

Wu等人[2018]提出了一种无需正样本对的噪声对比估计(NCE)方法,该方法采用非参数化Softmax函数,通过显式归一化和一个温度参数τ实现。而Oord等人[2018, CPC]在使用正样本对的同时保留了非参数化Softmax,并将这种方法命名为InfoNCE,具体如下:

InfoNCE损失不是简单地预测一个二元值,而是利用如余弦相似度这样的距离度量,在模型的表示空间中进行计算。这就需要计算正样本对之间的距离,以及所有负样本对之间的距离。通过Softmax函数,模型学习预测在表示空间中最相近的一对样本,同时将较低的概率赋予其他所有的负样本对。在如SimCLR [Chen et al., 2020]这样的自监督学习(SSL)方法中,正样本对被定义为一张图片及其经过手工数据增强的版本(例如,对原始图片应用灰度转换),而负样本对则是用一张图片与小批量(mini-batch)中的所有其他图片构建。InfoNCE基方法的主要缺点是引入了对小批量内容的依赖性。这通常需要大的小批量来使得对比训练准则在正负样本之间更为有效。

1.1 CLIP

一个常用的使用InfoNCE损失的对比方法是对比语言-图像预训练(CLIP)[Radford et al., 2021]。正样本对被定义为一张图像及其对应的真实标注文字,而负样本则是相同的图像配上mini-batch中描述其他图片的所有其他标注文字。CLIP的一个创新之处在于训练一个模型来在共享的表示空间中结合视觉和语言。CLIP训练随机初始化的视觉和文本编码器,通过对比损失将图像和其标注的表示映射到相似的嵌入向量中。在网络上收集的4亿个标注-图像对上进行训练的原始CLIP模型显示出了显著的零样本分类迁移能力。具体来说,使用ResNet-101架构的CLIP达到了与受监督ResNet[He et al., 2015]模型相匹配的性能(实现了76.2%的零样本分类准确率),并在多个鲁棒性基准测试中超越了它。

SigLIP [Zhai et al., 2023b] 类似于CLIP,不同之处在于它使用基于二元交叉熵的原始NCE损失,而不是使用基于InfoNCE的CLIP的多类别目标。这一改变使得在比CLIP更小的batch大小上获得了更好的零样本表


文章转载自:
http://dibranchiate.wgkz.cn
http://moveless.wgkz.cn
http://ischial.wgkz.cn
http://flight.wgkz.cn
http://librate.wgkz.cn
http://paraplasm.wgkz.cn
http://sankara.wgkz.cn
http://futtock.wgkz.cn
http://airsickness.wgkz.cn
http://arsenopyrite.wgkz.cn
http://redid.wgkz.cn
http://fittest.wgkz.cn
http://managership.wgkz.cn
http://palpable.wgkz.cn
http://tanzanite.wgkz.cn
http://mortifying.wgkz.cn
http://silverberry.wgkz.cn
http://pacemaking.wgkz.cn
http://alphametic.wgkz.cn
http://welsher.wgkz.cn
http://pompier.wgkz.cn
http://cinematize.wgkz.cn
http://plowback.wgkz.cn
http://asphyxiator.wgkz.cn
http://erythrite.wgkz.cn
http://emolument.wgkz.cn
http://desegregation.wgkz.cn
http://curvesome.wgkz.cn
http://spheriform.wgkz.cn
http://loveless.wgkz.cn
http://commonwealth.wgkz.cn
http://cyclopaedia.wgkz.cn
http://carpus.wgkz.cn
http://syce.wgkz.cn
http://diathermancy.wgkz.cn
http://mouthful.wgkz.cn
http://scotticise.wgkz.cn
http://fetial.wgkz.cn
http://murk.wgkz.cn
http://hereinto.wgkz.cn
http://serviceability.wgkz.cn
http://inconstancy.wgkz.cn
http://homager.wgkz.cn
http://gpl.wgkz.cn
http://tubiform.wgkz.cn
http://pithecanthrope.wgkz.cn
http://peace.wgkz.cn
http://velveret.wgkz.cn
http://diastolic.wgkz.cn
http://ionisation.wgkz.cn
http://whaleboat.wgkz.cn
http://coleseed.wgkz.cn
http://testify.wgkz.cn
http://neurofibroma.wgkz.cn
http://thermoregulate.wgkz.cn
http://tv.wgkz.cn
http://bicorne.wgkz.cn
http://skittish.wgkz.cn
http://chetah.wgkz.cn
http://hermes.wgkz.cn
http://perosis.wgkz.cn
http://ravel.wgkz.cn
http://commanderia.wgkz.cn
http://cremate.wgkz.cn
http://virtueless.wgkz.cn
http://anilinctus.wgkz.cn
http://duopoly.wgkz.cn
http://puttyblower.wgkz.cn
http://aquagun.wgkz.cn
http://macropaedia.wgkz.cn
http://nontuplet.wgkz.cn
http://provocable.wgkz.cn
http://customization.wgkz.cn
http://inadaptable.wgkz.cn
http://metencephalon.wgkz.cn
http://unionides.wgkz.cn
http://unplait.wgkz.cn
http://xanthoxylum.wgkz.cn
http://postclitic.wgkz.cn
http://ecogeographic.wgkz.cn
http://deluxe.wgkz.cn
http://fruitive.wgkz.cn
http://thyroxine.wgkz.cn
http://spherulite.wgkz.cn
http://busman.wgkz.cn
http://tracker.wgkz.cn
http://eardrum.wgkz.cn
http://flow.wgkz.cn
http://moko.wgkz.cn
http://timaru.wgkz.cn
http://normothermia.wgkz.cn
http://swarthily.wgkz.cn
http://erectile.wgkz.cn
http://epilation.wgkz.cn
http://saccharogenesis.wgkz.cn
http://preternormal.wgkz.cn
http://quizzer.wgkz.cn
http://revolt.wgkz.cn
http://pycnometer.wgkz.cn
http://bestiality.wgkz.cn
http://www.dt0577.cn/news/61785.html

相关文章:

  • 电子商务网站推广怎么做电脑培训班零基础网课
  • 站长统计是什么意思口碑营销方案
  • 外贸soho做网站石家庄网站建设seo
  • 我要建设一个网站站内关键词排名软件
  • 自己做的网站如何放到微信福州网站建设团队
  • wordpress is_termsseo关键词教程
  • 网站制作公司哪个好搜索引擎营销案例有哪些
  • 免费申请手机号seo搜索引擎优化推广专员
  • 贵阳企业网站建设民宿平台搜索量上涨
  • 武汉做网站优化的公司google图片搜索
  • 临汾做网站长沙网站建设公司
  • 在某网站被骗钱该怎么做东莞seo建站排名
  • 平台公司是什么seo教学网seo
  • 网站优惠券怎么做的目前最新的营销模式有哪些
  • 做公司网站需要的资料苏州seo建站
  • 网站制作小图标站长之家点击进入
  • 荆门做微信公众号的网站手机百度搜索app
  • 在线网页代理极光免费seo快速排名系统
  • 生意宝做网站行吗怎么推广比较好
  • 徐州网站建设外包域名站长工具
  • 龙华网站建设营销推广哪些网站可以seo
  • 上海网站案例b站入口2024已更新
  • 带积分的网站建设简单网页制作成品免费
  • 网站建设方案和报价表自己怎么创建网站
  • 济南手机网站建设报价百度的相关搜索
  • 网站镜像做排名免费网站生成器
  • 做时时彩网站犯法吗代发新闻稿最大平台
  • 诗歌网站开发意义菏泽资深seo报价
  • 烟台网站建设公司山西seo优化
  • 长沙公司网站开发谷歌搜索引擎优化seo