合成数据可能是解锁AI的关键-这是什么?

文章 (165) 2021-03-25 15:37:37

这是一个普遍的误解,认为大多数企业都淹没了数据,而在培训数据时,AI却被宠坏了选择。事实是,尽管出现了大数据繁荣,但大多数企业仍然缺少所需的大量高质量数据,这阻碍了高价值AI应用程序的开发。

当前的AI研究正在产生惊人的结果,但是AI击败了Go上世界上最好的播放器或表现优于人类的嘴唇读者,这是例外,而不是规则。通过在越来越庞大的模型上进行训练,AI不断变得更好,其中一些模型具有十亿个可调参数。这需要庞大的数据集,很少有企业能够承担收集费用,特别是当数据需要由人类主题专家进行注释或分类时。此外,并非所有数据都是相同的。收集某些数据非常昂贵。由于行业隐私法规的限制,其他数据(如医疗数据)是不可访问的。

在大数据时代,“数据贫乏”的企业和行业应该做什么?

输入综合数据
合成数据(由计算机生成以帮助训练AI模型的数据)正在开始解决AI的数据稀缺性问题。寻找下一个竞争优势的企业,或者由于数据不足而难以实现AI的企业,需要了解什么是合成数据,如何生成合成数据以及如何创造短期业务价值。

时间序列数据
时间序列数据(或时间戳数据)是按时间顺序索引的数据点序列。合成数据中的大多数参与者都专注于为金融用例生成时间序列数据。您可能会使用这些综合数据集来构建更准确的AI模型,以进行信用卡欺诈检测或优化算法,以量化高频交易中的杠杆作用。

影像数据
合成图像数据(例如卫星图像或CT扫描)是最难生成的数据,但有可能成为最有价值的数据。在医疗保健,安全,保护和许多其他行业中,合成图像数据具有巨大的机会。

根据业务用例,创建合成图像数据的不同方法提供不同的优势。当数据基于规则时,3D建模是一种很好的方法。自主车辆摄像机输入类似于例如在“构建”驾驶视频游戏(如侠盗猎车手)中使用的摄像机。

更复杂且基于规则的数据较少(例如医学显微镜图像或多光谱卫星图像)可能是生成AI的更好候选者,生成AI是一种通常依赖于称为``生成对抗网络''(GAN)的机器学习框架的技术。

企业如何利用综合数据
没有必要的质量数据,我们就无法在最需要的地方建立准确的,可预测的AI模型。那将要改变。利用综合数据,原本需要花费数月或数年才能收集的相关业务数据,或者只是无法访问的相关业务数据,可以在几天甚至在某些情况下仅数小时就“增长”。

在评估综合数据供应商时,您应该首先询问他们是否可以为您的应用程序提供正确的数据类型。请记住,获取大量高质量数据只是第一步。真正的价值在于能够使用这些数据来训练高度准确的AI模型。如果这不是您内部已经拥有的功能,则应询问供应商是否具有此功能,或者他们是否可以将您推荐给合作伙伴。

像适用于AI堆栈的任何其他解决方案一样,企业还需要考虑如何将合成数据最好地集成到更大的AI策略中。公司投资的几乎一半的AI项目从未超越概念验证阶段。合成数据技术可以解锁并显着加速AI,但是如果您不能超越概念验证并投入生产,那将毫无意义。虽然首先将合成数据应用于企业中一个高需求的用例可能很有意义,但是在投资任何数据获取策略之前,您应该有一个整体的AI计划。

人工智能的未来
由于具有合成数据,因此数据访问将不再是过去的限制。在各行各业中,越来越多的组织现在可以构建和利用AI模型进行成本削减措施和业务增长。

人工智能将继续扰乱越来越多的行业,合成数据将极大地扩展人工智能的应用。

 

THE END

发表回复