ai 生成视频:全新感与动态感,让图像更好识别

admin 2024-7-21 222 7/21

AI 生成视频当下正处于热烈的研究与应用进程之中,文生视频、图像生视频所带来的全新感与动态感,受到了众人的广泛瞩目凭借生成式 AI 视频工具,您只需说出一段描述,就能自动生成相应的视频您甚至还能够选取一张图片,同样能够实现将静止的图像转变为动态的视频,让文字和图片瞬间灵动起来。

今日来介绍一款由 Stability AI 发布的基于人工智能的视频生成工具——Stable Video Diffusion,它能够依据用户所提供的文本描述或者图片,自动生成高品质的视频内容Stable Video Diffusion 是 Stability AI 基于图像模型 Stable Diffusion 所发布的用于生成视频的基础模型。

这是一款先进的生成式 AI 视频模型Stable Video Diffusion 能够适应各类下游任务,涵盖从单一图像进行多视角的合成以及在多视角数据集上进行微调Stable Video Diffusion 是 Stability AI 多元化开源模型系列的一部分,涉及图像、语言、音频、3D 以及代码等领域。

当下,Stable Video Diffusion 的代码已在 Stability AI 的 GitHub 仓库中予以提供运行模型所需的权重能够通过他们的 Hugging Face 页面获取下面我们从技术原理、产品特点以及使用体验来阐述一下 Stable Video Diffusion 的发展现状。

ai 生成视频:全新感与动态感,让图像更好识别

就技术原理而言,Stable Video Diffusion 提出了将潜在视频扩散模型拓展至大型数据集的稳定视频扩散模型,这是一种用于高分辨率、前沿的文本到视频和图像到视频生成的潜在视频扩散模型通过插入时间层并在小型高质量视频数据集中对其进行微调,为 2D 图像合成训练的潜在扩散模型已转变为生成视频的模型。

基于此模型,Stable Video Diffusion 目前明确并评估了视频 LDM 成功训练的三个不同阶段:文本到图像的预训练、视频预训练以及高质量视频的微调从产品特点来看,除了文本到视频和图像到视频的生成功能,还支持多帧生成。

Stable Video Diffusion 提供了两种图像到视频的模型形式,支持 14 或 25 帧的视频生成,分辨率高达 576 x 1024用户能够依据自身需求选择适宜的帧率,进而决定视频的流畅程度。

高分辨率保障了视频的清晰度,使得细节能够得以展现同时,其提供的帧插值技术能够在帧数较少的情况下,让视频看上去更加顺滑Stable Video Diffusion 还支持 3D 场景的生成,目前该功能同时容纳了单个图像和轨道视图,允许沿着指定的相机路径创建 3D 视频。

能够生成更具空间感的视频Stable Video Diffusion 提供了更为精细的摄像机控制功能通过 LoRA 控制摄像机,用户可以精准把控摄像机的位置和角度,从而达成更加精细的视频创作Stable Video Diffusion 依赖于一个复杂的过程,其利用了扩散模型(DMS)、无分类器的引导以及专门设计用于视频生成的基础模型架构。

具体来说,它的工作原理涉及以下部分:1. **图像预训练**:使用 2D text-to-image 预训练模型,改变大模型底模的参数;2. **视频预训练**:基于大规模视频训练集进行视频训练由于没有现成的视频质量审核模型来过滤所需训练视频,所以引入了人工过滤规则;。

3. **高质量视频微调**:进一步提升模型生成的视频分辨率和质量,整体训练步骤借鉴了图像 diffusion model 的训练模式在架构方面,它包含一个多层 UNet,其中每一层都有一系列残差块(包括 3D 卷积层)和两个分别处理空间和时间信息的 Transformer 模块。

输入图像通过 VAE 编码器嵌入到潜在空间中,会和噪声潜在状态合并,一起输入到 UNet 中;输入图像的 CLIP 嵌入矩阵则被用作每个 Transformer 模块交叉注意力层的键值对相机的运动轨迹信息和扩散噪声的时间信息会一起输入到残差模块中,转换为正弦位置嵌入,然后这些嵌入信息会被整合并进行线性变换,加入到噪声时间步长嵌入中。

这样的设计旨在通过精细控制相机轨迹和噪声输入,提升模型处理图像的能力此外,该模型在生成过程中采用 CFG(无分类器引导)来控制生成的清晰度,特别是在生成轨道的最后几帧时,采用三角形 CFG 缩放来避免过度锐化。

如果你想了解更多关于其工作原理的详细信息,可以查阅相关白皮书那该如何使用呢?首先访问 Stable Video Diffusion 的官方网站,下载本地一键整合包依照安装向导的指示完成安装流程安装结束后,开启本地一键整合包。

在界面中选择“文本到视频”或者“图像到视频”功能,按照您的需求进行抉择我们以图片转视频为例,选取一张静态图片作为输入图片的质量越高,生成的视频视觉效果越佳接着设置视频参数,包括视频的帧率、分辨率等参数Stable Video Diffusion 支持 14 或 25 帧的生成,分辨率为 576 x 1024。

点击“生成”按钮,稍作等待来生成视频生成完成后,选择“导出”选项,将视频保存至您指定的文件夹中生成时间各有差异,但在 V100 GPU 上通常约为 2 分钟从使用体验来看,Stable Video Diffusion 作为 AI 视频生成工具,其特点包括本地一键整合包的运用,简化了工具的使用流程,提升了视频创作的效率,其生成的视频质量也相对较高。

然而目前来看也存在局限性,首先从模型方面来说,视频扩散模型的采样速度通常较为缓慢,并且对 VRAM 的要求颇高尽管潜在方法具备效率优势,但一次性生成多个关键帧在训练和推理过程中成本高昂其次在长视频合成方面存在一些根本性的缺陷,生成的视频相当短,不足四秒,无法达成完美的逼真程度。

还可能会生成没有运动的视频,或者相机平移速度极其缓慢通常可能无法准确生成人脸和人物对文本的理解也存在不足

今天就分享到这里吧,天宇软件资讯是一个软件分享基地,其中包括红包软件有微信,钉钉,支付宝,陌陌,QQ,星星优选,小马易荟,福瑞祥,思语,close,云集购物,云货淘,慎语,云鹿,顺胜,安信,伊蓝贝,频道chat,爱果go,梵星途,火箭通讯,品冠,聚美,玖玖购,艾特,微信多开,微信分身,牛牛,红包透视,秒抢,单透软件,机器人,埋雷软件,红包尾数控制,爆粉,红包辅助,埋雷辅助,辅助外挂等一些红包强项外挂辅助软件功能免费下载使用。

- THE END -

admin

7月21日13:58

最后修改:2024年7月21日
0

非特殊说明,本博所有文章均为博主原创。

软件商城
nowmru.com
2024-09-20 07:15:01
软件商城:nowmru.com
软件商城地址:http://nowmru.com
软件商城:nowmru.com
取消

选择聊天工具: