打造引人入胜的语音体验时要避免的四个陷阱

文章 (143) 2021-08-15 09:52:57

语音体验无处不在,从家中的智能技术到汽车中的指令。语音是一种新兴的、更人性化的与我们周围环境互动的方式,正在推动下一波消费者和员工体验。

当开发人员利用这种新的通信模式时,导航用于创建强大用户体验的所有不同组件可能会很棘手。作为一名沉浸在人工智能通信领域的首席技术官,我与许多客户交谈并了解他们需要什么才能使他们的语音体验成功。在创建强大的语音体验时,需要避免以下四个关键事项:

1.忽略音频源的质量。 基于语音的体验在很大程度上取决于音频输入的质量和融入体验中的转录能力。作为开发人员,倡导高质量的语音数据很重要,因为低质量的语音音频不仅难以听到,而且还会使开发语音体验变得更加困难。确保您使用良好的语音格式并采用 FLAC 和 Opus 等标准,这些标准提供了良好的压缩和优化。优秀的 ASR 提供​​商将能够处理您拥有的任何内容,但如果您避免使用 8 kHz 等低采样率,而是使用更高质量的采样率(如 16 kHz),您的数据将会更加清晰。在一天结束时,与您的团队合作以确保您的录音要求被听到非常重要。
2.依靠具有刚性架构的 ASR。我经常看到开发人员被锁定在提供最小灵活性的现成解决方案中。寻找一家提供低成本解决方案和易于导航的实时功能的提供商是现实的目标,但没有一刀切的解决方案。开发人员需要确切地知道他们希望从音频数据中获得什么,以便他们可以选择一种能够提取最相关的见解进行分析的技术。寻找能够提供部署灵活性和速度、高精度、实时功能、可扩展性和定制培训的提供商非常重要。这些功能的重要性排名将根据您的用例而有所不同,但选择一种在其中每一项都做得很好的 ASR 技术将使您的语音体验随着最终用户需求的变化和增长而变得更好。
3.忽略将使用您的应用程序的上下文。如果您打算在计算机上运行语音体验,则无需担心连接和带宽问题。另一方面,如果您的团队成员主要使用可能出现连接问题的移动设备,您应该选择最适合低带宽的音频编解码器,这样您就不会占用用户的网络连接。警惕闭源音频编解码器也很好,因为它不需要标准化。只要有可能,请尝试使用开源音频编解码器。
4.不给实验和失败留下空间。所有公司都会对他们的语音体验有不同的需求和愿望——有时并不清楚这些将如何在现实生活条件下实时工作。在构建应用程序或 API 时,很多事情都可能出错,因此在您越来越接近找到满足企业需求的东西时,构建具有健壮性和灵活性的系统至关重要。

作为开发人员,您希望为您服务的任何受众创造最佳的语音体验。确保您的语音数据是高质量的,您了解您的底层 ASR 技术可以做什么,以及您创建可以准确处理您需要的内容的敏捷后端体验,比以往任何时候都更加重要。语音体验的时代已经到来,通过尽早安装适当的 API,您的语音体验将蓬勃发展并适应客户的需求。

THE END

发表回复