中国の先端的なテキストからビデオへのAIが業界を揺るがす

中国の最先端のテキストからビデオへのAIが印象的な機能を披露し、最先端のモデルに匹敵しています。中国のAI技術の進歩とその業界への潜在的な影響を探ってください。

2025年1月15日

party-gif

中国の新しいテキストからビデオへのAIモデル「VIDU」は、1回のクリックで高精細の16秒動画を生成する能力で業界を驚かせています。OpenAIのWhisperの競合製品として位置付けられているVIDUは、中国語固有のコンテンツの理解と生成において印象的な機能を発揮し、テキストからビデオへのAI技術の新基準を示しています。

中国の驚きのテキストからビデオへのAI技術の進歩:Viduがソラを上回る

中国AI企业上书科技与清华大学联合开发的文本到AI视频模型Vidu的最新公告引起了广泛关注和讨论。虽然有人批评了生成视频的质量,但仔细观察可以发现Vidu的能力确实非常出色,特别是在时间一致性和运动保真度方面。

将Vidu的表现与目前最先进的Sora文本到视频模型进行比较,可以明显看出Vidu取得了重大进步。Vidu演示中展示的运动和时间一致性,如裙子的移动、夹克的摆动以及波浪的真实行为,明显优于Runway Gen 2等当前可用模型。

此外,Vidu和Sora的架构差异也值得注意。Vidu采用了Universal Vision Transformer (UViT)架构,这种架构早于Sora使用的扩散变换器。这种独特的方法使Vidu能够创造出具有动态摄像机移动、细致的面部表情以及遵循光照和阴影等物理世界属性的逼真视频。

虽然分享的视频片段质量可能受到反复下载和压缩的影响,但Vidu的底层能力仍然令人印象深刻。在示例中展示的时间一致性和运动保真度,特别是电视机的移动和背景元素的稳定性,都表明Vidu在文本到视频生成领域取得了重大进步。

我们必须认识到这个领域的快速进步,Sora和Vidu等模型正在推动着可能性的边界。随着AI文本到视频领域的竞争加剧,我们将目睹这些技术的未来部署和发展,这将是一个令人着迷的过程。

よくある質問