SafeEar框架是由浙江大学和清华大学联合开发的一种音频伪造检测框架,旨在在保护用户隐私的同时检测音频伪造。该框架的核心思想是基于神经音频编解码器(Neural Audio Codec)设计的解耦模型,该模型能够将语音的声学信息与语义信息分离,并且仅利用声学信息进行伪造检测,从而实现内容隐私保护的语音伪造检测。
SafeEar框架采用了串行检测器结构,包括前端解耦模型、瓶颈层、混淆层、伪造检测器以及真实环境增强等多个模块。前端解耦模型负责从输入的语音中提取目标声学特征;瓶颈层和混淆层通过降维和打乱声学特征,提高对内容窃取的抵御能力;伪造检测器利用Transformer分类器来判断音频是否被伪造;真实环境增强模块则通过模拟不同的音频环境,进一步提升模型的检测能力。
SafeEar框架在面对各类音频伪造技术时展现出卓越的检测能力和泛化能力,误报率低至2.02%,几乎达到了当前最先进的技术水平。同时,实验证明攻击者无法基于该声学信息恢复语音内容,基于人耳与机器识别方法的单词错误率(WER)均高于93.93%
声明:文章来源于网络,如有侵权请联系删除!