企业中的机器学习:下万亿美元的价值将从何而来?

文章 (154) 2021-01-30 19:32:28

在“哈利·波特”世界中,分类帽子是一种算法,可从学生的行为历史,喜好和个性中获取数据,并将其转变为决定他们应该加入霍格沃茨之屋的决定。如果现实世界中有排序的帽子,它将采用机器学习(ML)应用程序的形式,这些应用程序根据复杂的数据集做出自主决策。尽管软件一直在“吞噬世界”,但ML开始吞吃软件,它正在推动医疗保健,安全和农业等数万亿美元的全球产业。

如果希望ML创造显着的价值,那么问题就变成了:该价值将在哪里产生?我将探讨三种类型的公司创造和获取价值的方式:使用ML的传统公司,构建与行业无关的ML工具的公司以及构建垂直集成的ML应用程序的公司。

机器学习不仅仅适合科技巨头

从新闻提要到推荐引擎,来自Facebook,亚马逊,苹果,Netflix和Google(FAANG)的机器学习创新广为人知,但是大多数人并不了解传统行业对机器学习的需求不断增长。到2023年,全球在人工智能系统上的支出预计将达到980亿美元,是2019年支出的2.5倍以上,其中金融服务,零售和汽车领域处于领先地位。拥有超过7万亿美元资产管理规模的投资管理公司黑石(Blackrock)在2018年发布了几支由机器学习驱动的ETF。机器学习已迅速在医疗保健行业获得了广泛的关注,并且涉及医疗成像,诊断和药物发现的机器学习驱动解决方案的预算有望在未来三年内达到100亿美元。

在这些企业客户中,已经出现了三个广泛的客户群:软件工程师,数据科学家和业务分析师,有时也被称为“公民数据科学家”。尽管业务分析师受过培训的技术水平较低,但他们构成了一个庞大且不断增长的用户群体,他们正在使用ML来帮助公司了解其不断增加的数据存储库。

机器学习工具已嵌入各行各业

为了适应这些客户群,寻求为淘金热制作镐的公司激增。Tesla和Snap的前工程副总裁Stuart Bowers说:“挑战不是使ML透明,而是使痛苦的部分(如日志记录,数据管理,部署和可再现性)变得容易,然后使模型训练高效且可调试。” 。

现有的供应商,尤其是公共云,已经采用“端到端平台”方法作为其销售更多基础架构服务策略的一部分。AWS的ML平台Sagemaker最初是面向专家开发人员和数据科学家的,其最近推出了Sagemaker Studio,以将受众群体扩大到技术含量较低的用户。对于像AWS这样的技术巨头来说,出售ML工具是一种驱动其客户增加基础设施支出的方式,这意味着他们有能力以低成本提供这些工具。

独角兽还经常与云提供商合作,从而创造价值。Databricks是一个以Apache Spark为基础的强大数据工程功能而闻名的ML平台,成立于2013年,如今价值62亿美元。Databricks与Microsoft之间的合作关系使Microsoft可以驱动更多数据和计算到Azure,同时大规模地扩展自己的市场推广工作。

但是,企业从业人员开始要求“同类最佳”的解决方案,而不是用来吸引他们购买更多基础设施的工具。为了解决这个问题,下一代初创公司将追求更有针对性的方法。与在位者广泛使用的平台相反,初创企业可以选择特定问题并开发专用工具来更有效地解决它们。在ML工具领域中,三个领域对当今的用户构成了重大挑战。

数据集管理

虽然机器学习的结果可能很优雅,但从业人员将大部分时间都花在数据清理,整理和转换工作流的各个部分上。由于数据越来越多地以不同的格式散布在多台计算机和云中,因此很难将数据设计为一种可消耗的格式,以便团队可以轻松访问并使用它们进行协作。

为了解决这个问题,Tecton的联合创始人兼首席执行官Mike Del Balso正在通过他的新创业公司使他在Uber倡导的最佳实践民主化。数据损坏是生产ML系统中出现问题的最常见原因。建模人员将大部分时间都花在训练时选择和转换特征,然后建立将这些特征传递到生产模型的管道。” Tecton通过构建一个平台来管理这些“功能”,简化了数据层的复杂性,这些功能是从业务原始数据中挑选出来的智能实时信号,这些信号对于ML的运营至关重要。

在更上游,Liquidata正在为数据库构建开源的GitHub等效项。在我与Liquidata的联合创始人兼首席执行官兼Snap的前工程副总裁Tim Sehn的谈话中,他强调说:“我们需要像互联网上的开源软件一样在开放数据上进行协作。这就是为什么我们创建了DoltHub的原因,DoltHub是在互联网上免费存储,托管和协作开放数据的地方。”

实验跟踪和版本控制

另一个常见的问题是结果之间缺乏可重复性。缺少ML模型的版本控制,因此很难重新创建实验。

正如Weights and Biases的联合创始人兼首席执行官Lukas Biewald在我们的采访中分享的那样,“如今,最大的痛苦是缺乏基本的软件和最佳实践来管理全新的编码风格。您不能使用糟糕的画笔来绘画,不能在糟糕的IDE(集成开发环境)中很好地编写代码,也不能使用我们现在拥有的工具来构建和部署出色的深度学习模型。” 他的公司于2018年推出了一个实验跟踪解决方案,使OpenAI等客户能够将见解从单个研究人员扩展到整个团队。

模型可扩展性

建立基础架构以扩展模型部署并监视生产结果是该成熟市场中的另一个关键组成部分。

开源框架Ray背后的初创公司Anyscale已经抽象出了分布式应用程序和可扩展ML基础。在我与Anyscale的联合创始人兼首席执行官Robert Nishihara的谈话中,他分享了“就像Microsoft的操作系统为开发人员工具和应用程序创建了一个生态系统一样,我们正在创建基础架构以支持丰富的应用程序和库生态系统,范围从模型部署培训,这使开发人员可以轻松地扩展ML应用程序。”

在自然语言处理或NLP领域中,可伸缩性也在迅速发展。Hugging Face建立了一个开源库来构建,训练和共享NLP模型。该公司的联合创始人兼首席执行官ClémentDelangue说:“过去三年发生了范式转变,NLP的转移学习开始极大地改变了将NLP集成到业务应用程序中的可访问性和准确性。“我们使公司有可能在一周而不是几个月内将最新研究的NLP模型应用于生产。”

其他有前途的初创公司包括Streamlit,该公司允许开发人员仅使用几行Python创建ML应用并立即进行部署。OctoML将附加的智能层应用于ML,使系统更易于优化和部署。Fiddler Labs建立了一个可解释的AI平台,以不断解释和监控生产结果。

为了面对老牌公司的激烈竞争来建立长期的耐用型公司,初创公司在问自己两个问题:我对哪一组客户必不可少?接触这些客户的最佳方法是什么?

许多初创公司提出了占领一个大市场1%的想法,但通常这些大市场即使没有拥挤,也已经得到了良好的服务。专注于赢得核心客户群的公司最终展现出强大的早期吸引力,这转化为长期扩展潜力。为了吸引这些客户,Databricks和Datarobot等大多数企业都采用了自上而下的企业销售动向。与我们在开发人员工具领域中看到的情况类似,我希望ML初创公司最终将从纯粹的企业销售发展为推动自下而上的采用,并获得比当今以企业为中心的现有公司更多的优势。

垂直集成的机器学习应用程序正在颠覆现状

机器学习中一些最令人兴奋的公司正在开拓商业模式来颠覆整个行业。汽车就是最明显的例子,仅在2019年,就有100亿美元的资金投入到了汽车行业。机器学习也将产生革命性影响的下一代垂直市场包括医疗保健,工业,安全和农业。

Salesforce首席科学家Richard Socher说:“当ML加X时,ML才是最有效的。” “最好的机器学习公司有着明确的垂直重点。他们甚至不称自己为ML公司。他指出医疗保健是一个独特的有前途的领域:Athelas已将ML应用于免疫监测,通过收集白细胞计数数据来帮助患者优化药物摄入。Curai利用ML来提高医生建议的效率和质量,从而使他们可以花更多的时间治疗患者。Zebra和AIdoc通过训练数据集来更快地确定医疗状况,从而增强了放射科医生的能力。

在工业和物流领域,Covariant是一家结合了强化学习和神经网络的初创公司,使机器人能够管理大型仓库设施中的物体。敏捷和敏捷同样在构建机器人,以越来越复杂的方式适应不可预测的情况。Interos应用ML评估全球供应链网络,帮助企业围绕供应商管理,业务连续性和风险做出关键决策。

在安全和国防领域,Verkada通过智能地分析实时镜头并从中学习,重新构想了企业物理安全。Anduril建立了一个ML主干,该主干可以集成来自传感器塔的数据,以增强国家情报的智能。Shield AI的软件允许无人系统解释信号并在战场上智能地行动。

农业是从机器学习中获得巨大收益的另一个垂直领域。约翰迪尔(John Deere)收购了开发智能农作物喷洒设备的初创公司Blue River Technology。合并后的公司Intelligent Solutions Group的首席科学家Lee Redden说:“我们通过引入计算机视觉技术来识别单个植物并逐个植物采取行动来改变农业世界。” 其他著名的企业AgTech公司包括Indigo,该公司将ML应用于“精准农业”,利用数据来更有利和可持续地生产食品。

我们从这里去哪里?

ML已悄然成为我们日常生活的一部分,它为我们的汽车,医院的运营以及所吃的食物提供动力。迄今为止,大型企业已经开创了最先进的技术,但真正的希望在于下一波ML应用程序和工具,这些机器应用和工具将把围绕机器智能的炒作从像哈利波特的幻想转化为有形的社会价值。

有很多理由对ML在未来几年内可以创造的价值持乐观态度。传统公司将培训数百万公民数据科学家,以将破碎的行业重塑为更高产的行业。ML工具将降低构建智能应用程序的障碍,每天将数百万个新想法推入生产。垂直ML业务模型将使人们获得健康食品,可靠的人身安全和负担得起的医疗保健民主化。

在这里,我们将找到机器学习的真正价值。

THE END

发表回复