定义了最先进的应用人工智能

文章 (135) 2021-03-25 15:33:42

在过去的四年中,我参加了将近20家公司的技术尽职调查,这些公司声称有一些专有的人工智能(AI)“秘密调味料”。在对它们进行评估后,结果在烟雾和镜子之间平均分配,在经过一两年的时间里,以及在机器学习方面有良好应用的镜子。

每家公司都确认其人工智能(AI)是下一代,世界级,最前沿,突破性,企业级,市场领先的或其他令人毛骨悚然的东西。鉴于实际AI功能的均匀分布,难怪普通技术购买者对这样的断言几乎没有信任。我的数据集虽然很小,但建议他们这样做。

很明显,在实际工业系统中使用的最新应用AI的门槛必须更高。毕竟,就实际行业应用而言,大多数学术论文永远都不会见过。提供真实世界的AI系统不仅需要在可控的实验环境中超越学术基准。

为了帮助组织实现这一目标,重要的是要了解什么构成了最先进的应用AI以及定义它的标准。在这里,我们将探讨技术领导者在选择适合其业务需求的最佳解决方案或构建自己的解决方案以兑现其最先进的承诺之前应考虑的三个基准。

经过同行评审。

第一个标准要求您使用最先进的软件,以在公开,可复制和可训练的基准上提供最佳的准确性。基准测试应该由第三方设计,而不是由供应商自己或附属团队设计。它必须有一个公开的基准,随着多个团队竞相对其进行改进,基准必须不断提高。例如,NLP进展网站跟踪自然语言处理中的此类基准。

其次,解决方案应该是可重现的,这意味着提供商团队之外的任何人都应该能够从头开始重现相同的结果。这应该包括精度度量,超参数,训练/测试划分,所使用的软件版本或硬件的选择。

最后,可培训性是一个重要因素。应该有可能重现模型训练和推理阶段。实际上,排名靠前的解决方案可能与您的用例不符。例如,在医疗保健机构中,您可能会关心确定心脏病学特定的术语,而当前的基准测试还没有专门针对这些术语。在未来几个月内,新论文的表现也可能会超过当前的最新水平,因此请保持在评估解决方案时要牢记这一点。

它已在多家公司投入生产。

如果AI系统未“应用”在多个实际生产系统中,则不能声称AI系统是“应用最新技术”。现实世界的数据与学术数据不同,它更加多样化,嘈杂,动态且带有偏见。在学术上表现最好的模型在实践中并不总是表现最好的模型。这就是为什么该行业需要训练定制模型的数据科学家,工具和流程的原因。虽然学术基准很有用,但也有局限性。

此外,生产就绪性有其自己的一组要求。在这种情况下,多个独立团队将评估解决方案的代码质量,错误处理,日志记录,监视,可伸缩性,安全性,隐私,部署,升级过程,计算和内存使用-以及偏见,可解释性和概念漂移等方面。

在多个组织中进行多个部署还可以验证您还没有构建一次性的自定义解决方案。这没什么不对,但是将一个自定义解决方案推广到可重复使用的软件包需要不同程度的专业知识。要拥有最先进的应用AI,就需要具有通用化的模型。

提供开放源代码或开放核心解决方案还可以验证其他人是否正在独立选择使用它。声称您的解决方案有用或易于使用是一回事,而让其他人将自己的项目放在这个项目上则是另一回事。这要求您提供正确的文档,集成,示例和社区支持。

使源代码开放的另一个优点是使其他人能够评估代码和模型质量。公开源代码鼓励更高的软件工程标准-从单元测试和最小的依赖关系到可训练,健壮和可解释的模型的机器学习方面。

这种透明性和第三方评估的水平将揭示您的软件远非完美:它仅在某些体系结构中发挥良好的作用,需要在准确性和速度之间进行权衡,重用其他软件包,只能很好地扩展到某个特定点,在所有规模的水平上都不具有成本效益,并且具有一些实验功能。一切都很好,可以预期-所有软件都是这样。真正的最新解决方案拥有这一点。

如果AI行业希望摆脱购买者对蛇油销售的看法,则应停止销售。对于用户而言,重要的是要知道什么使解决方案真正成为最新技术,哪些是事后才使用AI。让我们为出色的应用AI的意义设定一个高标准,并走很长的路要实现它。

THE END

发表回复