Tango 2简介
Tango 2是一款新型文本到音频生成模型,它通过直接偏好优化(Direct Preference Optimization, DPO),显著提升了音频输出与输入文本的匹配度。
体验链接:https://huggingface.co/spaces/declare-lab/tango2
Tango 2:更精准的内容对齐
Tango 2模型的诞生,正是为了解决这一难题。它通过创建一个合成的偏好数据集,其中包含了赢家(winner)和输家(loser)音频输出,以此来训练模型,使其更好地捕捉文本提示中的语义信息。
数据集与DPO-Diffusion损失
Tango 2利用了一种称为Audio-alpaca的合成偏好数据集,该数据集通过三种策略生成:同一文本提示生成多个音频样本、从经过扰动的文本提示生成音频样本,以及从时间上扰动的文本提示生成音频样本。接着,使用CLAP分数筛选出高质量的样本,用于DPO微调。
DPO-Diffusion损失函数是Tango 2的核心,它允许模型从赢家和输家输出中学习,以改进音频输出的质量。
实验验证:Tango 2的卓越性能
在客观和主观的评估中,Tango 2均展现出了卓越的性能。它在多个自动评估指标上取得了显著的改进,包括Frechet Audio Distance (FAD)、KL散度、Inception Score (IS)和CLAP分数。与Tango和AudioLDM2等基线模型相比,Tango 2在音频质量和文本相关性上都有了显著提升。
未来展望:Tango 2的潜力
Tango 2和Audio-alpaca数据集的推出,预示着文本到音频生成技术的新纪元。相信,这一进步将为未来的内容创作带来更多可能性,同时也为AI技术的进一步发展提供了新的方向。
AI技术的每一次进步都让我们离理想中的未来更近一步。Tango 2模型的出现,不仅提升了文本到音频生成的技术水平,更为AI与人类创造力的结合提供了新的思路。