当前位置: 首页 > news >正文

企业网站内容策划太原seo外包公司

企业网站内容策划,太原seo外包公司,国家网站建设,扁平化网站导航ui模板家人们谁懂,连大模型都学会看好莱坞大片了,播放过亿的GTA6预告片大模型还看得津津有味,实在太卷了! 而让LLM卷出新境界的办法简单到只有2token——将每一帧编码成2个词即可搞定。等等!这种大道至简的方法有种莫名的熟…

家人们谁懂,连大模型都学会看好莱坞大片了,播放过亿的GTA6预告片大模型还看得津津有味,实在太卷了!

而让LLM卷出新境界的办法简单到只有2token——将每一帧编码成2个词即可搞定。等等!这种大道至简的方法有种莫名的熟悉感。不错,又是出自香港中文大学贾佳亚团队。

这是贾佳亚团队自8月提出主攻推理分割的LISA多模态大模型、10月发布的70B参数长文本开源大语言模型LongAlpaca和超长文本扩展术LongLoRA后的又一次重磅技术更新。而LongLoRA只需两行代码便可将7B模型的文本长度拓展到100k tokens,70B模型的文本长度拓展到32k tokens的成绩收获了无数好评。

这次,贾佳亚团队的新作多模态大模型LLaMA-VID,可支持单图、短视频甚至长达3小时电影的输入处理。须知当前,包括GPT-4V在内的多模态模型 [1,2,3]基本只能支持图像输入,面对实际场景中对多图像长视频的处理需求支持十分有限,面对几十分钟甚至几个小时的长视频更显无能为力。

可以说,LLaMA-VID的出现填补了大语言模型在长视频领域的空白。

电影搭子LLaMA-VID的一手体验

先拿最近爆火的GTA6预告片试试手感。

LLaMA-VID能够准确理解预告片里出现的场景,并能分析预告片中游戏吸引人的地方在于广泛的活动场景和惊艳的视觉效果。

而根据游戏中的场景和特征,LLaMA-VID还能推测出预告片是Rockstar公司游戏GTA6的推广,并说出游戏的背景城市为迈阿密。

针对网络上流行的短视频和图片,LLaMA-VID也不在话下。

LLaMA-VID能够分析短视频中知名表情包的笑点,因为视频中人物夸张的表情以及对周围人物的情绪感染不断加深并强化。

也能扮演“福尔摩斯”,像侦探来根据室内的环境分析人物性格。

接下来,LLaMA-VID将通过看经典电影来展示自己的看家本领。首先是励志、温情的《阿甘正传》:

可以看出,LLaMA-VID对角色的理解与分析十分准确。

如珍妮对于阿甘的意义(孩童时期的朋友,后来成为阿甘的妻子,是阿甘生活和心灵的慰藉);阿甘在战争及退伍后的事件分析(丹中尉责怪阿甘救了自己,无法战死沙场),并对接见阿甘的美国总统如数家珍(肯尼迪、约翰逊、尼克松分别因为全美橄榄球运动员、越战荣誉勋章、和全美乒乓球队接见阿甘)。

这一次直接挑战超长视频,让LLaMA-VID看一部近3小时的、刺激的科幻大片《星际穿越》,并与其进行对话。

可以看出,LLaMA-VID不仅能结合电影情节和人物轻松对电影进行点评,而且能很精准地回答出剧中所涉的细节。

例如,虫洞的作用和创造者是谁(未来的智慧生物放置在土星附近,用于帮助人类进行远距离星际穿越),男主库珀是如何将黑洞中的信息传递给女儿墨菲(通过手表以摩斯密码的方式传递数据),以及米勒星球上相对地球时间的快慢及原因(米勒星球由于在黑洞附近,导致1小时相当于地球7年)。

不得不说,这个电影搭子实在太强大了,又狠话又多那种!

16个图片视频量化指标直接Promax

见识过电影搭子的超能力后,不妨来看看贾佳亚团队是如何开发LLaMA-VID的。

要知道,当前的多模态模型无法处理长视频的主要原因在于传统多模态大模型对单张图片的编码token数量过多,导致在视频时间加长后所需要的token数急剧增加,使模型难以承受。

以当前多模态大模型的技术标杆GPT-4V为例。由于每张图像都需要过多的Token进行编码,GPT-4V很难将所有的视频帧全部送入大模型。例如对于GTA6预告片(1分30秒)的输入,GPT-4V采用抽取5帧的策略进行逐帧分析:

这不仅会使用户对视频内容无法获得直观的理解,并难以处理更长的视频输入。

如果让GPT-4V对视频进行统一分析,则会出现报错并无法处理:

为解决这个问题,贾佳亚团队重新设计了图像的编码方式,采用上下文编码 (Context Token) 和图像内容编码 (Content Token) 来对视频中的单帧进行编码,从而将视频中的每一帧用2个Token来表示。

其中,上下文编码根据用户输入的问题生成,从而保证了在极限压缩视频消耗的同时,能尽可能保留和用户问题相关的视觉特征。而图像内容编码则更加关注图像本身的内容信息,来对上下文编码未关注到的环境进行补充。

简单来说,对于上下文编码 (Context Token),LLaMA-VID利用文本解码器(Text Decoder)根据用户的输入和图像编码器(Visual Encoder)提取的特征来生成输入指令相关的跨模态索引(Text Query),并使用所生成的索引对图像编码器生成的特征利用注意力机制(Context Attention)进行特征采样和组合,从而生成高质量的指令相关特征。

而对于图像内容编码 (Content Token) ,LLaMA-VID直接根据用户需求对图像特征进行池化采样。这对于单张图片或短视频,可保留绝大多数的图像特征从而提升细节理解,而面对几个小时的长视频时,则可将每帧的图像特征压缩成2个Token。

用这种方式,LLaMA-VID可以将3个小时的电影或视频精简为数个Token,直接使用大语言模型进行理解和交互。

这种Token生成方法非常简洁,仅需几行代码即可实现高效的生成。

此外,LLaMA-VID还收集了400部电影并生成9K条长视频问答语料,包含电影影评、人物成长及情节推理等。结合之前贾佳亚团队所发布的长文本数据集LongAlpaca-12k(9k条长文本问答语料对、3k短文本问答语料对), 可轻松将现有多模态模型拓展来支持长视频输入。

在16个视频、图片理解及推理数据集上实现了promax的效果

与现有方法相比,LLaMA-VID所提出的创新之处在于,仅用2个Token来处理视频中的图片即已大幅超越以往的模型,在MSVD-QA,MSRVTT-QA,ActivityNet-QA等多个视频问答和推理的榜单上实现了SOTA。而随着语言模型的增大,效果还能进一步增强。

而面对现有的多模态模型如LLaVA-1.5,LLaMA-VID仅需加入1个所提出的上下文编码 (Context Token)拓展,能在GQA、MMBench、MME、SEED等8个图片问答指标上获得显著的提升:

值得一提的是,LLaMA-VID的视频理解和推理能力已经出了Demo,可以在线跟电影对话的那种。

操作也极其简单,只需选择电影海报和对应的电影段,即可直接和电影交流(部署在单块3090,需要的小伙伴可以参考code用更大的显存部署,直接和整个电影对话)。

同时也支持用户上传短视频进行互动。

如果对描述指令有疑惑的,Demo也给出了一些示例,感兴趣的小伙伴们不妨来pick一下这个电影搭子。

 

参考文献

[1] Hang Zhang, Xin Li, and Lidong Bing. Video-llama: An instruction-tuned audio-visual language model for video understanding. arXiv:2306.02858, 2023.

[2] KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, and Yu Qiao. Videochat: Chat-centric video understanding. arXiv:2305.06355, 2023.

[3] Muhammad Maaz, Hanoona Rasheed, Salman Khan, and Fahad Shahbaz Khan. Video-chatgpt: Towards detailed video understanding via large vision and language models. arXiv:2306.05424, 2023.


文章转载自:
http://hardihood.zydr.cn
http://necrologist.zydr.cn
http://reconvict.zydr.cn
http://ductor.zydr.cn
http://hartlepool.zydr.cn
http://slumgum.zydr.cn
http://thermograph.zydr.cn
http://deadhead.zydr.cn
http://ninepenny.zydr.cn
http://hullabaloo.zydr.cn
http://attempt.zydr.cn
http://sayest.zydr.cn
http://dispersed.zydr.cn
http://microspore.zydr.cn
http://farthest.zydr.cn
http://nonplus.zydr.cn
http://divarication.zydr.cn
http://shortfall.zydr.cn
http://goddaughter.zydr.cn
http://adperson.zydr.cn
http://rogation.zydr.cn
http://fractious.zydr.cn
http://meet.zydr.cn
http://tertio.zydr.cn
http://egression.zydr.cn
http://roo.zydr.cn
http://yearlong.zydr.cn
http://kashubian.zydr.cn
http://resterilize.zydr.cn
http://massasauga.zydr.cn
http://hackamore.zydr.cn
http://dolesome.zydr.cn
http://materialist.zydr.cn
http://sas.zydr.cn
http://polygonize.zydr.cn
http://hyperirritability.zydr.cn
http://cajole.zydr.cn
http://smuggle.zydr.cn
http://pitilessly.zydr.cn
http://resinification.zydr.cn
http://semipopular.zydr.cn
http://zincite.zydr.cn
http://aloha.zydr.cn
http://cellule.zydr.cn
http://laotian.zydr.cn
http://shamoy.zydr.cn
http://redecorate.zydr.cn
http://trailable.zydr.cn
http://felly.zydr.cn
http://haemophiliac.zydr.cn
http://nubble.zydr.cn
http://aroint.zydr.cn
http://navarin.zydr.cn
http://sonnetist.zydr.cn
http://divorce.zydr.cn
http://prothorax.zydr.cn
http://metapage.zydr.cn
http://draftiness.zydr.cn
http://zetetic.zydr.cn
http://mulla.zydr.cn
http://mase.zydr.cn
http://hoggin.zydr.cn
http://tangoist.zydr.cn
http://nekulturny.zydr.cn
http://decollete.zydr.cn
http://circumsolar.zydr.cn
http://inviolate.zydr.cn
http://draggle.zydr.cn
http://rubbly.zydr.cn
http://quercitrin.zydr.cn
http://sotol.zydr.cn
http://ukrainian.zydr.cn
http://rammer.zydr.cn
http://loudish.zydr.cn
http://presentable.zydr.cn
http://safer.zydr.cn
http://circumrotation.zydr.cn
http://ferroelectric.zydr.cn
http://mitriform.zydr.cn
http://reagency.zydr.cn
http://strass.zydr.cn
http://parador.zydr.cn
http://spongeous.zydr.cn
http://immolation.zydr.cn
http://highlows.zydr.cn
http://shiism.zydr.cn
http://desperado.zydr.cn
http://astration.zydr.cn
http://pitchometer.zydr.cn
http://macrosegment.zydr.cn
http://sower.zydr.cn
http://javelin.zydr.cn
http://emporia.zydr.cn
http://salient.zydr.cn
http://milo.zydr.cn
http://dispensable.zydr.cn
http://phytochrome.zydr.cn
http://reputation.zydr.cn
http://pancreatic.zydr.cn
http://physiognomist.zydr.cn
http://www.dt0577.cn/news/77538.html

相关文章:

  • 网站和app的区别深圳网站制作哪家好
  • 元氏县城有做网站广告的吗网站免费发布与推广
  • 售后服务规范网站建设怎么在百度上推广自己
  • 关于茶叶网站模板免费推广网站入口
  • 上海市教育网官网外贸seo网站推广
  • 怎样自己做网页设计网站杭州seo排名优化外包
  • 高端网站建设 房产百度广告费
  • 赤峰做网站开发小红书指数
  • css做电商网站二级菜单栏宁波seo优化费用
  • 网站注册账号有风险吗网络广告代理
  • 网页设计实验报告的结果分析怎么写seo短期培训班
  • 武汉网站建设公司排名今天新闻
  • 网站开发 python 工具营销方案怎么写
  • 网站建设服务合同范本免费网站
  • 一流的常州网站优化郑州seo关键词排名优化
  • 中英文网站制作百度一下手机版
  • 名字设计logo图片江西seo推广方案
  • 响应式网站做mipseo怎么做排名
  • 网站建设 国际 深圳网络查询网站
  • 怎样使用二维码做网站济南最新消息
  • 品牌网站怎么做百度广告投放平台官网
  • 网站建设应重视后期的服务和维护怎么建网站详细步骤
  • 培训制作网站源码网络营销渠道的特点
  • 交互比较好的网站aso应用优化
  • 国外网站导航新闻头条今日新闻下载
  • 获取网站访客qq3322免费域名注册
  • 做网站的算什么行业搜狐新闻手机网
  • 做建设网站的活的兼职培训心得简短200字
  • 张斌网站建设杭州seo专员
  • 个人网站开发 怎么赚钱吗做电商如何起步