相关资讯
标题:
工具:
简介:
中文提示词:
AI降噪:Look Once to Hear(一眼倾听)
发布时间:2024-05-30
一眼倾听(Look Once to Hear):在嘈杂环境中专注目标说话者的语音
Look Once to Hear是一种智能可听系统,用户只需看几秒钟就可以选择听到目标讲话者。这篇论文荣获CHI 2024最佳论文荣誉奖。
论文介绍(翻译):
在拥挤的环境中,如果事先知道目标说话者的声音,人脑可以专注于他们的语音。此系统介绍了一种新的智能可听系统,它实现了这一功能,使目标语音听力能够忽略所有干扰语音和噪声,除了目标说话者。
一个天真的方法是要求一个干净的演讲示例来注册目标说话者。然而,这与可听应用程序领域并不一致,因为在现实世界中,获得一个干净的示例是具有挑战性的,会产生独特的用户界面问题。此论文展示了第一个注册界面,佩戴者看着目标扬声器几秒钟,以捕捉目标扬声器的单个、短的、高噪声的双耳示例。该噪声示例用于在存在干扰扬声器和噪声的情况下登记和随后的语音提取。我们的系统使用不到5秒的嘈杂注册音频实现了7.01dB的信号质量改进,并且可以在嵌入式CPU上以6.24ms的时间处理8ms的音频块。我们的用户研究表明,在以前看不见的室内和室外多径环境中,我们可以推广到真实世界的静态和移动扬声器。最后,与干净的示例相比,我们针对嘈杂示例的注册界面不会导致性能下降,同时方便且用户友好。退一步讲,本文朝着用人工智能增强人类听觉感知迈出了重要一步。
论文地址:[2405.06289] Look Once to Hear: Target Speech Hearing with Noisy Examples (arxiv.org)
访问次数:139