当前位置：首页 > news >正文

做网站一般需要多少钱网络推广怎样做

news 2025/7/15 22:05:07

做网站一般需要多少钱,网络推广怎样做,驻马店网站制作,昆明做网站的旅行社VideoBooth: Diffusion-based Video Generation with Image Prompts 概括文章提出了一个视频生成模型VideoBooth，输入一张图片和一个文本提示词，即可输出保持图片中物体且符合文本提示词要求的视频。方法粗-细两阶段设计：1）…

VideoBooth: Diffusion-based Video Generation with Image Prompts

Videos synthesized by image prompts.

概括

文章提出了一个视频生成模型VideoBooth，输入一张图片和一个文本提示词，即可输出保持图片中物体且符合文本提示词要求的视频。

方法

粗-细两阶段设计：1）粗阶段，利用CLIP图像编码器将图片视觉编码注入文本嵌入中，融合后的嵌入送入cross attention层；2）细阶段，将多尺度图片空间信息注入视频生成模型的cross-frame attentions层。
Overview
一些困惑：

多尺度的图片编码是用什么图像编码器获取的？通过VAE获取潜在表征，而这个多尺度，其实就是潜在编码在U-Net在不同阶段的输出。

预备知识

拓展2D卷积：为了处理视频数据和时序关联，我们将SD模型中的2D卷积扩展为了3D卷积。（应该指的是U-Net中的卷积层）
交叉帧注意力模块：SD模型中原本的自注意力模块被修改成了交叉帧注意力模块，以提高时序一致性。交叉帧模块同时处理空间和时序域，因此可以提高合成帧的时序一致性。
时序注意力模块：处理时序域，对所有帧起作用，提高时序一致性。

粗粒度视觉编码

使用CLIP获取图像提示词和文本提示词的编码信息，然后将文本编码中目标物体的编码替换为图像视觉编码，将融合后的视觉-图像编码送入交叉注意力层。CLIP图像编码器是固定的，但是为了对齐图像和文本编码，图像编码会经过MLP层。此外，为了适配融合后的编码，交叉注意力层中的K和V也被微调了。

细粒度视觉编码

这部分的编码信息应该是用来保证时序一致性的。首先通过VAE获取图像潜在编码，然后加噪送入U-Net，每个阶段的U-Net输出（包括最初的潜在编码）对应的K-V都会和原始的K-V进行拼接，初始帧的V被更新，并影响后续所有的Value。

实验

http://www.dt0577.cn/news/35509.html

相关文章：

太原网站制作哪家好湖北网站seo策划

wordpress编辑器美化seo查询在线

手机新款上市百度seo优化技巧

网站建设不力被问责月入百万的游戏代理

高端摄影网站模板下载网站seo优化外包顾问

小型的电商网站有哪些优质外链

云上网站做等保搜狗站长

咋做黄页网站怎样在百度上建立网站

网站基础内容什么是seo和sem

网站开发设计心得北大青鸟

wordpress微信授权访问广州seo服务

创意型网站企业软文范例

做网站实际尺寸是多少外贸公司一般怎么找客户

做网站信科网站建设首页图片点击率如何提高

免费建站网站一级大录像不卡在线看市场营销四大基本策略

网站广告下悬浮代码怎么做简述网站建设的基本流程

phpstudy做网站运营的坏处seo引擎优化平台培训

一个公司优化需要做多少个网站常州网站建设优化

武汉网站建设的公司哪家好网络互联网推广

做游戏的php网站短网址生成器免费

怎么确认网站是什么语言做的百度搜索风云榜电脑版

网站解析不过来网络营销策划活动方案

wordpress安装包文件百度seo推广免费

网站优化一般怎么做口碑最好的it培训机构

贵州网站建设费用云南网络营销seo

如果做网站需要多少钱torrentkitty磁力猫

服务好的南昌网站设计外链工具下载

网站导航栏的作用3a汽车集团公司网络营销方案

怎样用模块做网站软文写作经验

html5 手机网站开发seo门户网站优化