当前位置: 首页 > news >正文

做网站一般需要多少钱网络推广怎样做

做网站一般需要多少钱,网络推广怎样做,驻马店 网站制作,昆明做网站的旅行社VideoBooth: Diffusion-based Video Generation with Image Prompts 概括 文章提出了一个视频生成模型VideoBooth,输入一张图片和一个文本提示词,即可输出保持图片中物体且符合文本提示词要求的视频。 方法 粗-细两阶段设计:1)…

VideoBooth: Diffusion-based Video Generation with Image Prompts

Videos synthesized by image prompts.

概括

文章提出了一个视频生成模型VideoBooth,输入一张图片和一个文本提示词,即可输出保持图片中物体且符合文本提示词要求的视频。

方法

粗-细两阶段设计:1)粗阶段,利用CLIP图像编码器将图片视觉编码注入文本嵌入中,融合后的嵌入送入cross attention层;2)细阶段,将多尺度图片空间信息注入视频生成模型的cross-frame attentions层。
Overview
一些困惑:

  • 多尺度的图片编码是用什么图像编码器获取的?通过VAE获取潜在表征,而这个多尺度,其实就是潜在编码在U-Net在不同阶段的输出。

预备知识

  • 拓展2D卷积:为了处理视频数据和时序关联,我们将SD模型中的2D卷积扩展为了3D卷积。(应该指的是U-Net中的卷积层)
  • 交叉帧注意力模块:SD模型中原本的自注意力模块被修改成了交叉帧注意力模块,以提高时序一致性。交叉帧模块同时处理空间和时序域,因此可以提高合成帧的时序一致性。
  • 时序注意力模块:处理时序域,对所有帧起作用,提高时序一致性。

粗粒度视觉编码

使用CLIP获取图像提示词和文本提示词的编码信息,然后将文本编码中目标物体的编码替换为图像视觉编码,将融合后的视觉-图像编码送入交叉注意力层。CLIP图像编码器是固定的,但是为了对齐图像和文本编码,图像编码会经过MLP层。此外,为了适配融合后的编码,交叉注意力层中的K和V也被微调了。

细粒度视觉编码

这部分的编码信息应该是用来保证时序一致性的。首先通过VAE获取图像潜在编码,然后加噪送入U-Net,每个阶段的U-Net输出(包括最初的潜在编码)对应的K-V都会和原始的K-V进行拼接,初始帧的V被更新,并影响后续所有的Value。

实验

http://www.dt0577.cn/news/35509.html

相关文章:

  • 太原网站制作哪家好湖北网站seo策划
  • wordpress编辑器美化seo查询在线
  • 手机新款上市百度seo优化技巧
  • 网站建设不力 被问责月入百万的游戏代理
  • 高端摄影网站模板下载网站seo优化外包顾问
  • 小型的电商网站有哪些优质外链
  • 云上网站做等保搜狗站长
  • 咋做黄页网站怎样在百度上建立网站
  • 网站基础内容什么是seo和sem
  • 网站开发设计心得北大青鸟
  • wordpress微信授权访问广州seo服务
  • 创意型网站企业软文范例
  • 做网站实际尺寸是多少外贸公司一般怎么找客户
  • 做网站信科网站建设首页图片点击率如何提高
  • 免费建站网站一级大录像不卡在线看市场营销四大基本策略
  • 网站广告下悬浮代码怎么做简述网站建设的基本流程
  • phpstudy做网站运营的坏处seo引擎优化平台培训
  • 一个公司优化需要做多少个网站常州网站建设优化
  • 武汉网站建设的公司哪家好网络互联网推广
  • 做游戏的php网站短网址生成器免费
  • 怎么确认网站是什么语言做的百度搜索风云榜电脑版
  • 网站解析不过来网络营销策划活动方案
  • wordpress安装包文件百度seo推广免费
  • 网站优化一般怎么做口碑最好的it培训机构
  • 贵州网站建设费用云南网络营销seo
  • 如果做网站需要多少钱torrentkitty磁力猫
  • 服务好的南昌网站设计外链工具下载
  • 网站导航栏的作用3a汽车集团公司网络营销方案
  • 怎样用模块做网站软文写作经验
  • html5 手机网站开发seo门户网站优化