揭穿语音技术中最常见的神话

文章 (7) 2021-08-15 09:55:58

因为人们将更多时间花在智能家居设备上,而想要触摸任何东西(尤其是与他人共享的任何东西)的时间更少。虽然语音用户界面始于智能扬声器,但随着消费者渴望在家中和旅途中获得各种语音体验,市场也在增长。除了消费产品之外,对支持语音的销售点显示器、工业应用以及更多企业用例的需求也在不断增长。

在急于利用对这项技术的需求时,企业很容易陷入关于制造支持语音的产品的常见误解。接受这些假设可能会导致产品无法充分发挥语音技术的潜力,甚至更糟的是,会导致产品质量低劣,无法响应用户的声音。

我在这里一一揭穿这些神话,包括什么才能真正实现更好的语音性能,以及客户真正从支持语音的技术中寻找什么。

误区1:消费者只想通过智能音箱使用语音。
我们只是触及了语音技术用途的表面。事实是,几乎任何具有用户界面的设备都可以从语音控制的添加中受益。事实上,语音界面越复杂,添加语音控制的好处就越大。

以最近实施触摸屏的快餐店为例,在大流行期间没有顾客愿意使用触摸屏。顾客可以使用他们的声音在餐厅内点菜,就像他们通过得来速点菜一样,但通过一对一的自然语言体验。同样,在杂货店内,想象一下顾客是否可以比较产品、从食谱中购物,并通过响应他们声音的售货亭获得产品问题的答案。

或者,如果每个家庭都有一个声控微波炉怎么办?想想在家工作或与家人共度更多时光时按需做饭会容易得多。

现实情况是,这项技术在简化人们生活方面有很多尚未开发的潜力,消费者渴望能够解决实际问题的精良语音产品。

误区2:必须选择一种类型的助手并坚持使用。
不久前,产品制造商不得不选择他们将使用的语音助手,一旦他们选择了它,他们就会被那个助手困住。直到最近,随着亚马逊语音互操作性计划的推出,这种情况才开始发生变化,这使客户有机会与多种语音服务进行交互。

预计这种互操作性将促进语音中心的概念,公司可以在其中合作,通过其所有智能设备提供一致的语音用户体验。现在,产品制造商可以支持针对特定任务的不同助手。例如,一个助手可以管理根据食谱制作食谱并帮助完成其他厨房任务,而另一个助手可能负责收听新闻和选择完美的播放列表。

这种互操作性还有助于减少摩擦并有助于更广泛的语音扩展。智能电视制造商可以专注于实现节目内容的语音激活,同时忽略用户操作,例如音乐播放,这可以使用另一个唤醒词引擎来完成。同样,智能冰箱可以使用带有三星 Bixby 的音频前端来检查食物库存,还可以与亚马逊的 Alexa 集成来阅读新闻和播放他们的 Spotify 音乐。这种互操作性有助于加快语音行业的创新,同时还允许公司协同工作,减少与多个云助手并行工作的碎片化用户体验。

这种灵活性开辟了许多企业可以而且应该利用的可能性。

误解 3:更多麦克风等于更好的性能。
添加更多麦克风并不是提高性能的灵丹妙药。事实上,收益是递减的。在大多数消费应用中,例如家庭和汽车中的设备,在质量提高变得微不足道以至于不值得投入时间和金钱之前,性能最高可达约 4 个麦克风。

麦克风配置和处理算法将用户的声音提升到环境中的噪音之上,也可以显着提高语音识别的准确性,而不仅仅是增加麦克风的数量。重要的是要考虑信噪比和主要声源的估计到达方向的影响,这有助于优化通常用于帮助麦克风专注于语音并忽略来自其他方向的声音的波束成形算法。

消除背景噪音在前端设计中是一个极具挑战性的问题,而且不是简单地添加更多麦克风就能解决的。例如,在门铃或安全摄像头等设计中,自适应干扰消除器 (AIC) 等稳健的噪声消除算法可能比在设计中包含更多麦克风更有益。该设计可能还需要高级噪声消除算法(例如 AIC)来消除未参考的噪声,因此设备只能听到用户的命令。

误区 4:机器学习仅用于唤醒词和事件检测。
只考虑将机器学习用于唤醒词和事件检测的产品制造商正在浪费一个强大的工具。现实情况是,机器学习可用于更多方面,包括音频源检测和噪声清除。机器学习正在推动许多音频创新,包括帮助设备检测一个人何时在说话以及区分语音和噪音。

在视频会议的情况下,机器学习对于消除背景噪音非常有用。远程工作和视频通话的当前趋势为企业提供数据以改进边缘或云上的音频处理。信号处理链中的许多算法,例如语音活动检测器 (VAD)、噪声抑制、回声消除等,传统上使用数字信号处理算法完成,现在可以使用机器学习和深度学习来提高性能。

误区5:产品的语音性能取决于音频前端。
短语音频系统有很多含义。一个系统包括多个组件,所有组件都协同工作以实现最佳性能。这就是开发支持语音的产品如此具有挑战性的原因。麦克风必须正确移植、密封、与扬声器隔离、无噪音、同步时钟、电平匹配并与主处理器集成。这仅适用于麦克风!您还必须应对扬声器、音频前端、实时中断、语音识别引擎和应用软件。任何单一的故障都是链条中的薄弱环节,都会导致令人失望的用户体验。在规划下一个支持语音的产品时,请确保仔细考虑系统级调试。

语音技术的需求和能力的增长为企业和产品开辟了一个充满潜力的世界。虽然那个世界很大,但它并不需要遥不可及。通过正确的方法和对常见陷阱和假设的一些了解,企业可以制作出出色的语音产品类型,并在客户的愿望清单中名列前茅。

 

THE END

发表评论