2024服贸会|生数科技，求解视频大模子生成主体不一致问题

发布日期：2024-09-17 06:50 点击次数：77

“当咱们向AI输入一条领导，让它生成一段视频时，骨子上，中枢诉求是但愿AI匡助咱们完成一个完整的叙事。要结束这个想法，需要让中枢元素上保抓合伙和可控”，在近日召开的2024年中国海外作事贸易往复会（以下简称“服贸会”）上，生数科技董事长兼CEO唐家渝给出贬责有蓄意：视频大模子Vidu的主体参照功能，即能结束对放浪主体的一致性生成。为了作念到这少许，业界曾尝试“先AI生图、再图生视频”等规律，但主体参照功能不光能减少使命量，还冲破了分镜头画濒临视频内容的铁心。技艺的突破让视频大模子交易化有了更大的思象空间。

谣言语模子盛行时，生数科技就对准了多模态赛谈，并在2024年1月上线了文生视频的智商。按照生数科技的磋议，视频智商需要更万古长、更高一致性去发展，但Sora的亮相让这家创业公司的磋议提前。

4月底发布Vidu，守旧一键生成16秒高清视频，6月守旧一键生成32秒视频，同期生成音效，并从单个生成的视频中重构出4D视频。7月底，Vidu见识面向巨匠上线，绽开了图生视频、扮装一致性功能以及最长8秒的视频生成智商。

这次，唐家渝在2024年服贸会上重心先容的是Vidu的最新功能“主体参照”。所谓主体参照，便是允许用户上传放浪主体的一张图片，Vidu 就偶然锁定该主体的形象，通过态状词放浪切换场景，输出主体一致的视频，其中“放浪”是要害词，即无论是东谈主物、动物、商品，也曾动漫扮装、凭空主体，齐能确保其在视频生成中的一致性和可控性。

北京商报记者了解到，在该功能上线前，视频大模子对结束这一想法并不是毫无贬责有蓄意，“图生视频”和“扮装一致性”等智商也可作念到。

以先AI生图、再图生视频的规律为例，不错通过AI画图器具如 Midjourney 生要素镜头画面，先在图片层面保抓主体一致，然后再将这些画面转动为视频片断并进行裁剪合成。

但问题在于，AI 画图的一致性并不齐备，时时需要通过反复修改和局部重绘来贬责。更进击的是，骨子的视频制作过程中波及繁密场景和镜头，这种规律在处理多组分镜头的场景时，生图的使命量雄壮，能占到全经过的一半以上，且最终的视频内容也会因为过分依赖分镜头画面而枯竭创造性和天真性。

Vidu的“主体参照”功能通过“上传主体图+输入场景态状词”的神态，径直生成视频素材。这一规律大幅减少了使命量，还冲破了分镜头画濒临视频内容的铁心，让创作家偶然基于文本态状，创造出画面丰富、天真多变的视频内容。

中央播送电视总台导演、AIGC艺术家石宇翔共享动画短片《夏季的礼物》创作经逾期示意，与基础的图生视频功能比较，“主体参照”功能开脱了静态图片的箝制，生成的画面更具感染力息争脱度，让创作的连贯性大大耕作。同期匡助他精打细算了七成摆布的生图使命量。

北京商报记者魏蔚

上一篇：晶科动力钱晶：行状型制造是光伏业的下个阶段下一篇：引下天下级暖和！蔡国强与浏阳团队联手，燃放全球首场AI日景烟花

2024服贸会|生数科技，求解视频大模子生成主体不一致问题

热点资讯

相关资讯