避免被客厅技巧所迷惑:ASR 真实环境测试的必要性

文章 (12) 2021-08-15 11:10:06

当声音环境模型不够用时
当公司开发他们的语音助手时,他们会创建合成环境来模拟产品在现实世界中可能必须实际面对的情况。由于需要对可量化的环境因素进行测试控制,因此需要模拟真实世界的情况,并且通常取决于设备在激活时将环境声音配置文件与场景相匹配。然后,该设备使用该声音配置文件来指导信号处理和噪声消除活动,为自动语音识别 (ASR) 软件生成干净的信号,以将其转换为命令和动作。

在现实世界中,设备、目标扬声器和多个背景噪声源以及其他声音都将出现并经常相互移动。在交互开始时有效的选定声音配置文件可能在片刻之后随着场景一次又一次地转变而变得不合适。在当前这一代设备中,用户有望为语音助手控制此环境。鉴于数十亿用户将在未经培训的情况下操作语音助手,语音助手可能会提供次优结果并极大地阻碍语音界面的广泛采用和使用。

语音助手需要为任何情况做好准备
语音助手需要在自然环境中占据主导地位的是他们自己评估音景并智能地适应音景实时变化的能力,而无需人工协助。

一个恰当的比较是无人驾驶汽车。在常规的人工驾驶汽车的情况下,测试人员评估加速、制动、操控和耐撞性——所有这些都是相对受限的场景。即使是内置车道感应和盲点检测的现代汽车,基本上也取决于操作员的感知和认知能力,才能成功、安全地从 A 到 B。对于无人驾驶汽车,计算机负责检测坑洼、其他汽车、街道信号、天气和道路状况、乱穿马路的行人等等。公共道路的现实世界复杂性基本上不可能在人工环境中模仿。

尽管可以在人工条件下测试无人驾驶汽车的有限方面,但没有人会认为无人驾驶汽车是“经过全面审查”的,而无需针对现实世界的街道和高速公路进行严格测试。这同样适用于在现实世界环境中评估语音处理软件,以及软件在其中导航复杂环境的能力。

真实环境测试
如果语音助手必须承担导航复杂音景的责任,那么就有必要改变语音助手的测试方式。评估现在必须评估围绕语音识别和信号处理的感知和认知能力,而这不再是人类操作员的责任。

预计语音助手将掌握的感知任务是:

随着时间、方向和距离跟随目标声音
对非目标声源的类型和方向进行分类
跟踪有关可听场景的假设的正确性概率
及时更新可听场景中推断出的任何变化
此外,语音助手将需要执行以下认知任务:

使用有关可听场景的最新信息来调整信号处理以进行源分离、回声消除和源特征提取
使用试错信号处理来处理场景感知信息不足的情况
将目标语音的声音移动到感知前景,同时将其他人推入感知背景
只要确定目标语音已被积极的信号处理损坏,就修复目标语音

使用语音时的隐含性能标准是,如果同事应该能够在给定情况下听到并理解说话者的声音,那么语音助手也应该能理解。因此,语音助手在任何此类情况下都应该成功,否则用户会感到失望和沮丧。

与尝试在合成环境中模拟无数情况相比,简单地记录各种各样的情况要容易得多。因此,自然的解决方案是在混合了远场、近场和环境声源的日常嘈杂环境中配置目标语音的真实世界录音的大型数据库。然后可以使用该数据库来评估单个语音助手并将它们的性能相互比较。

至关重要的是,数据库能够挑战语音助手处理上面列出的现实世界环境中重要的感知和认知任务的能力。针对这样一个包含各种真实世界场景的数据库进行测试是确保语音助手经过适当审查并准备好在现实世界中始终如一地提供令人满意的消费者体验的唯一方法。

THE END

发表评论