机器学习与企业数据管理的突破

文章 (162) 2021-01-31 22:31:09

根据Gartner的说法,“明年,业务部门的数据和分析专家的数量将以IT部门专家的速度增长三倍,这将迫使公司重新考虑其组织模型和技能。”简而言之,对可用企业数据的需求超过了供应量,要大规模提供干净,统一且可用于业务的数据,数据领导者将需要改变其操作方式。

是的。

随着机器学习,云计算和存储技术的进步,企业终于打破了数据管理难题。至关重要的是业务效率,收入实现,产品创新和竞争差异性方面的突破性改进。此处驱动的结果可能具有变革性。

数据管理满足业务资产

作为资深数据管理产品负责人,从一开始我就一直在努力。当企业开始意识到数据是可重用的业务资产(例如软件)而不是可消耗的IT资产(例如计算能力)时,我到了那里,而IT部门必须如此对待数据。

该问题的初始解决方案包括企业数据仓库,主数据管理(MDM)和提取转换负载(ETL)。在这些集中化的机制中,很少有熟练的IT人员创建了从各种孤立的系统中吸取原始数据并将其放置在对业务人员最有用的位置的管道。集中化是由时间的计算和存储限制以及各种工具集的技术技能要求所决定的,而不是由集中化数据管理基础架构是最佳设置的普遍真理所决定的。

企业IT部门是完成这项工作的大祭司。他们尽了最大的努力。他们采访了业务用户,他们非常了解如何利用数据来获取业务价值,但是他们对数据的结构和管理缺乏技术上的了解。IT部门努力将这种业务知识整理为软件资产,构建了基于规则的复杂系统以容纳各种数据源和各种数据使用场景。但是双方总是在变化和成长,创造了一个持续的追赶游戏。产生下一组有用的数据是不昂贵且费时的。

信息孤岛:回归

随着时间的流逝,IT部门为此变得更好了。新的自助式数据准备工具简化了基于规则的系统,并且计算能力变得更便宜,并且最终用户更容易使用。使用Tableau和诸如Alteryx或Trifacta之类的自助数据准备工具,商人可以直接访问核心企业数据,并在分支机构而不是中心对他们的知识进行整理。他们不再需要排队等待大型IT部门向主数据存储中添加数据。他们无需应用第三范式,甚至不必知道它是什么,即可在端点处理数据。这不是一个完美的设置,而是一个不错的解决方法。

但是就像在一部恐怖恐怖电影中一样,一个新的怪物出现了-它来自屋子里。

现在,企业拥有数十个(通常更多),而不是一个集中的主数据源和一组易碎的规则来管理它。这几乎不需要治理-三个人可以三种不同的方式使用同一个数据源,只有一个人正确地进行了处理。

业务边缘的发言人富有成效,但彼此之间并不共享或互相学习。同时,中心必须继续编写通用规则,当输入新的不合格数据时,通用规则通常会中断。学术研究表明,基于规则的系统往往会使用最多50个数据源。这创造了数据多样性,数据量和速度的潜在致命组合。

机器学习时代的数据管理

随着硬件的不断进步(在云和本地级别),当今的计算能力和存储更加经济。这就实现了一个新的环境,在该环境中,可以将计算密集型算法工作负载广泛部署,而无需使用以前专用于这些任务的核心,昂贵的基础架构。通过将机器学习的这些进步与越来越丰富的相关技能结合起来,IT可以创建经过整理的,广泛使用的数据,这些数据会不断地与商人的创造力和短周期的输入进行微调。

业务专家的敏锐度和对数据的深刻理解成为了机器学习模型的数据培训输入,而不是陷入虚拟烟雾之中。这些模型可以处理所有数据,同时可以直接从受其影响最大的人那里继续学习。面对大量相互矛盾的数据和矛盾的反馈,模型具有弹性。因为他们一直在研究各种数据集的通用模式,所以模型可以大规模容纳各种数据。当数据破坏模型时,可以快速训练这些模型以提高其准确性,这与在不破坏某些规则的情况下改进复杂的规则集的繁琐过程相反。

与MDM和其他技术变化不同,机器驱动的企业数据母带管理不需要进行叉车式升级。它可以与您(包括人员)一起使用,并适合诸如数字化转型之类的现代化计划。那些不可扩展的企业数据仓库,数据湖或主数据管理系统不会消失。它们仍然是新的,由机器学习驱动的,由人类指导的,可信赖的数据语料库的引擎的一部分,每个人都可以信赖。

机器学习已经帮助我们到达可以管理10倍数据的位置,其中只有十分之一的人,十分之一的时间。

在下一篇文章中,我将提供一些实用指导,以指导这项新技术的应用。只有结合新技术,新技能和新组织方法,才能充分发挥现代数据管理的潜力。好消息是您可能在旅途中比想像的要远。

我们已经看到了企业数据分析的民主化和数据科学家不断渴求的模型的涌入。现在该认真考虑一下机器驱动的,以人为导向的企业数据管理方法。

 

THE END

发表回复