字节联合港大发布新视频模型Goku，可直接生成虚拟数字人视频

AI资讯 2个月前硕雀

58 0 0

近日，中国香港大学与字节跳动联合发布了一款名为Goku的视频生成模型，这一技术引发了广泛关注和讨论。Goku是一款基于校正流Transformer（rectified flow Transformer）的模型，能够实现图像与视频的联合生成，支持文生视频、图生视频和文生图等多种功能。

Goku的核心特点

Goku模型采用了先进的架构设计，包括图像-视频联合VAE、Transformer架构以及校正流公式。其训练策略分为三个阶段：图文语义对齐预训练、图像-视频联合训练以及不同模态的微调。这种分阶段的训练方法显著提升了模型的生成能力。

Goku还推出了升级版Goku+，专门用于广告视频生成。据官方称，Goku+能够以比传统方法低100倍的成本创建广告视频，同时保持极高的逼真度和自然性。例如，仅需一张商品图片和文字描述，Goku+便能生成带有互动讲解的商品广告视频。

技术突破与应用前景

Goku的发布标志着AI视频生成技术的重大进步。通过高质量数据集的构建和优化，以及多模态大语言模型的应用，Goku不仅提升了文本到图像和图像到视频的生成质量，还在语义丰富性和上下文连贯性方面取得了显著突破。

在实际应用中，Goku和Goku+有望彻底改变市场营销、广告制作以及内容创作领域。例如，在电商直播中，Goku可以自动生成商品讲解视频，帮助商家节省大量人力和时间成本；在娱乐产业中，Goku则可以用于生成虚拟偶像的动态视频，为用户提供更加沉浸式的互动体验。

技术挑战与未来展望

尽管Goku在生成质量和效率上取得了突破，但其仍面临一些技术挑战。例如，如何进一步提升生成视频的时序平滑性和动态一致性，以及如何在保持高逼真度的同时降低计算成本。此外，随着生成式AI技术的快速发展，如何确保生成内容的真实性和安全性，避免滥用成为亟待解决的问题。

未来，随着技术的不断迭代和优化，Goku及其升级版Goku+有望在更多领域发挥重要作用。例如，在教育领域，Goku可以用于生成虚拟教师或助教的视频内容；在医疗领域，Goku则可以用于模拟手术过程或提供远程医疗支持。

总结

Goku的发布不仅是AI视频生成技术的一次重大突破，更是AIGC（人工智能生成内容）领域的一次重要里程碑。它不仅为广告、娱乐、教育等多个行业提供了高效、低成本的解决方案，还为未来的虚拟数字人发展开辟了新的可能性。随着技术的进一步完善和应用的深入，Goku有望成为推动数字内容创作和虚拟数字人产业发展的关键力量

Goku 数字人视频

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

字节联合港大发布新视频模型Goku，可直接生成虚拟数字人视频

Goku的核心特点

技术突破与应用前景

技术挑战与未来展望

总结

新加坡国立大学（NUS）AI硕士项目解析

ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制