人工智能成功的秘诀

文章 (15) 2021-08-20 19:45:25

各行各业的公司都在采用人工智能来扩大和改善其业务运营。深度学习的进步正在帮助推动从电子商务到国家安全的商业成功。数据是 AI 模型成功配方的最重要因素。与传统的编码模型不同,AI 算法的结果非常依赖于用于训练它的数据,因为它会根据所训练的内容来推断结果。

这与教一个年幼的孩子非常相似。当蹒跚学步的孩子看到阿拉斯加雪橇犬时,它的父母会帮助将其识别为“狗”。现在蹒跚学步的孩子对四足毛茸茸的东西有了一个词,她可以用它来识别它的运动和行为。但是当蹒跚学步的孩子遇到一只猫时会发生什么?她很可能也认为它是一只狗。在这里,父母将帮助她了解猫虽然四足毛茸茸,但其行为与“狗”的概念截然不同。反馈机制帮助幼儿建立一个识别框架。可能仍然存在边缘情况,例如,一只非常毛茸茸的小狗可能会被误认为是一只猫——直到它发出声音。这是从数据中提取的附加特征,以增加区分度。

计算机视觉

在监督学习中,机器从标记的示例中学习。在计算机视觉中,机器被教导识别日常物体,如房间中的椅子、桌子和柱子,或汽车、行人和道路上的人行道。训练数据集需要与每个训练样本相关联的“理想答案”,也称为“基本事实”,以便机器构建反馈循环并改进其答案。将基本事实与数据相关联称为标记,并依赖于人类专家。这叫做人的判断。这个概念也适用于其他类型的数据。对于自然语言处理,需要教会机器“那个鸡肉汉堡太糟糕了”和“我想要一个鸡肉汉堡太糟糕了”之间的区别。虽然这两个句子共享几个词,但它们的意思完全不同。因此,机器需要在大量精心标记的数据上进行训练。这就是人类介入机器学习模型的地方。

运作

对于机器来说,图像只是一系列像素。但是标记图像向机器显示某些像素集合是某些语义对象(如灯柱或卡车)。图像由数据专家或“循环中的人类”标记。标注专家每天对数百张街道图像进行语义分割。他们将图像中的元素标记为预定的对象类别,最终将图像划分为具有语义意义的部分。同样,在 NLP 中,循环中的人类执行命名实体识别、情感分析、语音到文本验证,以帮助支持机器学习。

如果没有人工判断,这些数据是不透明的,不能用于训练机器学习算法。同样,人类也会审核算法的结果,以确保它不会偏离轨道。人类的细微差别与机器规模相结合,以创建机器学习解决方案。对人类的依赖是机器学习中鲜为人知的一个方面,可能会让新的从业者感到惊讶。

数据标记是一项日益专业化的服务。过去,机器学习工作依赖于数据科学家或一些实习生来执行标记。如今,公司必须规划可扩展且安全的数据管道,以确保为数百万个数据点提供一致且高质量的标签。科学家必须能够快速迭代训练实验并添加或删除有助于他们获得更好结果的特征。需要标记越来越多细微差别的数据类别。标签劳动力的多样性还有助于在非常主观的场景中创建更全面的输入数据集。

要在公司内成功选择、试点和实施机器学习,您必须在部署高薪机器学习团队之前提出一些关键问题。首先,数据在哪里?你有专有数据还是打算使用公共数据集?您的选择是否会在您着手解决的问题中产生足够的准确性和差异性?接下来,您将如何试点和扩展您的数据标记和审计工作?您是否有可靠的供应商可以满足您的需求?如果在越来越大的数据集上训练,今天的算法可以提供越来越高的准确度。您是否预留了必要的预算来大规模处理数据标记,包括版本管理和工具集成?您是否需要领域专业知识,或者您是否可以与按照您的说明接受过培训的贴标员合作?什么是变更管理?较大的公司现在正在定义数据管道管理器,其职责是为组织内的各种数据团队整合和简化外部数据标记工作。这是一个迹象,表明该学科正在以所需的严肃性得到解决。与您的训练数据交朋友。它会毫不犹豫地回报你。

 

THE END

发表评论