字节联合港大发布新视频模型Goku,可直接生成虚拟数字人视频

近日,中国香港大学与字节跳动联合发布了一款名为Goku视频生成模型,这一技术引发了广泛关注和讨论。Goku是一款基于校正流Transformer(rectified flow Transformer)的模型,能够实现图像与视频的联合生成,支持文生视频、图生视频和文生图等多种功能。

Goku的核心特点

Goku模型采用了先进的架构设计,包括图像-视频联合VAE、Transformer架构以及校正流公式。其训练策略分为三个阶段:图文语义对齐预训练、图像-视频联合训练以及不同模态的微调。这种分阶段的训练方法显著提升了模型的生成能力。

Goku还推出了升级版Goku+,专门用于广告视频生成。据官方称,Goku+能够以比传统方法低100倍的成本创建广告视频,同时保持极高的逼真度和自然性。例如,仅需一张商品图片和文字描述,Goku+便能生成带有互动讲解的商品广告视频。

技术突破与应用前景

Goku的发布标志着AI视频生成技术的重大进步。通过高质量数据集的构建和优化,以及多模态大语言模型的应用,Goku不仅提升了文本到图像和图像到视频的生成质量,还在语义丰富性和上下文连贯性方面取得了显著突破。

在实际应用中,Goku和Goku+有望彻底改变市场营销、广告制作以及内容创作领域。例如,在电商直播中,Goku可以自动生成商品讲解视频,帮助商家节省大量人力和时间成本;在娱乐产业中,Goku则可以用于生成虚拟偶像的动态视频,为用户提供更加沉浸式的互动体验。

技术挑战与未来展望

尽管Goku在生成质量和效率上取得了突破,但其仍面临一些技术挑战。例如,如何进一步提升生成视频的时序平滑性和动态一致性,以及如何在保持高逼真度的同时降低计算成本。此外,随着生成式AI技术的快速发展,如何确保生成内容的真实性和安全性,避免滥用成为亟待解决的问题。

未来,随着技术的不断迭代和优化,Goku及其升级版Goku+有望在更多领域发挥重要作用。例如,在教育领域,Goku可以用于生成虚拟教师或助教的视频内容;在医疗领域,Goku则可以用于模拟手术过程或提供远程医疗支持。

总结

Goku的发布不仅是AI视频生成技术的一次重大突破,更是AIGC人工智能生成内容)领域的一次重要里程碑。它不仅为广告、娱乐、教育等多个行业提供了高效、低成本的解决方案,还为未来的虚拟数字人发展开辟了新的可能性。随着技术的进一步完善和应用的深入,Goku有望成为推动数字内容创作和虚拟数字人产业发展的关键力量

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!