英伟达最近推出了一款名为Fugatto的新型人工智能音频模型,该模型能够根据文本提示或音频输入生成音乐和音效。Fugatto全称为“Foundational Generative Audio Transformer Opus”,是一款创新的生成式AI模型,旨在为音乐、电影和视频游戏制作人提供强大的音频生成和修改能力。
Fugatto的主要功能包括:
- 文本到音频的转换:用户可以输入文本描述,Fugatto将根据这些描述生成相应的音乐片段或音效。例如,用户可以要求模型创作一首包含萨克斯管嚎叫、狗吠声和电子音乐的曲子,或者让小号发出狗吠声。
- 音频修改与增强:Fugatto不仅可以生成新的声音,还可以对现有音频进行修改。例如,它可以将钢琴演奏转换成人声演唱,改变录音中的口音和情绪,甚至从现有歌曲中删除或添加乐器。
- 创新技术应用:Fugatto采用了名为ComposableART的技术,能够在推理过程中组合训练期间仅单独看到的指令,从而实现更复杂的音频生成任务。例如,用户可以要求模型以法国口音讲述悲伤的文字,并精细控制重音和悲伤的程度。
- 时间插值与音景生成:Fugatto还具备生成随时间变化的声音的能力,例如模拟暴雨穿过区域的声音,雷声逐渐增强然后慢慢消失在远处。此外,它能够创建以前从未见过的音景,如模拟雷雨随着鸟儿的歌声缓和为黎明的场景。
尽管Fugatto展示了巨大的潜力,但目前英伟达尚未计划将其技术面向公众开放。不过,该模型在合成音频领域的潜在应用及其可能带来的变革已经引起了业界的广泛关注。
总之,Fugatto作为一款功能强大的AI音频生成模型,不仅能够根据文本提示生成音乐和音效,还能对现有音频进行灵活修改和增强,为音乐制作、广告制作和视频游戏开发等领域带来了新的可能性.