这不是魔法:数据在机器学习和 AI 算法中的重要性

文章 (15) 2021-08-15 11:06:59

机器学习不是黑魔法。一个简单的定义是将算法应用于数据以发现输入的有用方面。然而,这个过程显然有两个部分——算法本身以及训练它们的数据,以及正在处理和输入的输入数据。

很简单,算法不能很好地处理较差的训练数据量——而这些数据的不足会使系统营养不良。最终,系统会渴望更多。随着要消耗的数据越多,系统可以得到更好的训练,结果就会越强。毫无疑问,非常需要大量数据来为系统提供健康的帮助以配置最佳结果。不过,至关重要的是,为训练收集的数据代表了您打算执行的任务。

数据差异
在将机器学习 (ML) 专门用于自动语音识别 (ASR) 技术时,在处理数据时还必须考虑另外两个因素:

用于训练模型以构建实际产品的数据
使用模型的客户通过模型馈送的数据
这两者是相关的,但应区别对待,因为它们在不同的时间使用,不应必须是一回事。用于训练模型的数据是源数据。它是增强模型供客户使用的数据。不应该添加由使用系统的客户输入模型的数据来增强基线产品模型。此外,数据安全要求取决于客户而非 ASR 提供​​商。

数据过剩
在机器学习的大部分历史中,数据一直是一种宝贵的商品。出于必要,该领域不得不花时间开发优化利用少量数据的技术。

然而,最近,大量数据变得越来越可用。在全球范围内,有评论员在谈论数据遵循摩尔定律,原始数据量大约每两年翻一番。这是个好消息,对吧?随着深度学习的使用激增——深度学习比传统的机器学习方法更需要数据——更多的数据将帮助我们更好地学习并开发更细微的模型。嗯,这是真的,但只是在一定程度上。

与坏人同在,与好人同在
同样重要的是要确定更多的数据输入并不总是意味着更好的输出。当涉及到机器学习和人工智能 (AI) 时,隐含的假设是更多的数据会导致更好的模型和人工智能系统。然而,情况并非总是如此。如果您的数据质量很差,添加更多数据实际上可能会损害您的性能,因为您的模型将学习不相关甚至不正确的关联。

现实中
那么这一切在现实世界中是如何转化的呢?

人们不耐烦,并不断寻找方法来应对时间匮乏。生活在我们现在所处的嘈杂的数字世界中,企业如何确保他们负责任地使用机器学习和人工智能解决方案,同时改善客户体验?

例如,当人们呼叫联络中心时,他们希望得到快速解决。使用 ASR 可以完成诸如整合基于知识的文章、为座席提供实时洞察、第一时间获得正确答案以及允许座席查看完整呼叫历史以确保他们没有覆盖以前的内容等事情。所有这些都提供了极大的效率。这些功能听起来非常有用——但企业也需要确保他们负责任地收集和使用录制的语音数据。

数据安全在不断发展的数字世界中变得越来越重要,跨行业和企业的新法规正在确保他们及其提供商拥有正确的数据安全。

街区新来的孩子
AI 和 ML 行业在不断发展,最新的话题是持续智能。要建立连续智能,它显然必须实际上是连续的。

为了做持续智能,你需要时刻倾听一切,这使得安全问题更加严重。这个“一切”包括什么?它究竟是用来做什么的?谁可以访问以及该技术已安装多长时间?

例如,在联络中心,语音捕获的持续智能可以打开一整套洞察力,以改善客户体验和业务工作流程。但是,一旦业务有了洞察力,它可能不再需要保留原始数据。是否应该保留,如果保留可以用来做什么,您如何帮助客户理解这一点?

如今,我们越来越关注数据的安全性。这并不奇怪,因为几乎每天都有关于亚马逊的 Alexa 的新闻报道,即使没有唤醒词,也能在我们自己的家中聆听我们的声音。那么,问题就变成了,我们如何在满足不耐烦的社会的同时确保人们数据的安全?

那么数据到底有多重要呢?
为了最终满足 ASR 系统,需要提供足够的数据来执行训练,这样才能构建好的系统——但不要让消费者承诺提供他们认为私有的训练数据来实现这些结果。

ML 算法处于不断发展的状态,现在可用的技术允许使用较小的数据集来偏向已经在大数据上训练过的系统,从而能够在需要的地方使用受保护的孤岛中的数据。在某些情况下,通过巧妙的技术应用和数据使用,少量的数据可以达到“足够好”的准确性。数据采集​​的整体问题并未消除——但有时可以提供解决方案的数据较少。

ASR 提供​​商和业务解决方案提供商都有责任确保在捕获语音时不会损害人们的隐私。如果企业开始在其工作流程中转向持续智能,那么该行业必须确保所有数据始终保持安全。

由于对语音技术缺乏信任,我们已经在进行一场艰苦的战斗,因此该行业必须继续寻找使技术更好地发挥作用的方法,而不会损害人们的隐私。

THE END

发表评论