人工智能开发:AI不会以数据集结束
人工智能开发:AI不会以数据集结束

人工智能开发:AI不会以数据集结束

我记得AI的本科教授说:“AI就是他们所说的机器智能,他们还没有完全理解。一旦他们理解了它,它就不再被认为是人工智能。一旦很好地理解了机器人技术,它就不再是人工智能而成为了自己的分支机构。一旦理解了计算机视觉,它就变得独立了。语音识别和自然语言处理也沿用了这条路线。“或许,唯一能够很好地理解并且人工智能如此重要的领域,分离会使AI变得毫无意义,是机器学习,使用复杂的数学重算法进行插值的科学潜在的功能。正是由于这种特殊的地位,我们有时会出现“AI和机器学习”这样的口号,这有点像说“数学和微积分”。

机器学习(包括称为“ 深度学习 ” 的更着名的分支)当然是至关重要的。ML算法在许多AI领域都很常见,它们是非常深奥的关键,它可以帮助机器从一些模糊的输入中猜出所需的结果。将数据集加载到模型中即可 – 您可以获得预测。ML使这种情况发生。媒体得到消息。如果您现在阅读最受欢迎的文章,您可能只会相信AI会神奇地解决所有问题。总体配方对于故障是平庸的 – 收集数据集,找到可以插入问题复杂性的ML算法,训练模型并收集现金。简单。

然而,正如任何真正的AI实践者都知道的那样,ML虽然至关重要,但并不是问题的核心。谷歌ML研究人员的一篇开创性的NIPS论文深入解释说,机器学习只是人工智能应用的一个微不足道的部分。大部分工作围绕优化管道,收集干净数据和提取适合ML模型的特征,并且可在动态环境中维护。这在自然语言理解中尤为突出,为了提取适合分类器模型的特征,需要解决拼写错误,词干,停用词,消除实体引用的歧义,可能,查看上下文,了解人们经常使用化妆单词,准备好慢慢改变词汇和主题分布,以及无数其他的东西。

有人可能会问,为什么不完全跳过这个并将任务加载到一个强大的深度学习框中?当然,我们可以交换数据建模的复杂性,以便在培训阶段花费更多时间?好吧,祝你好运。你有没有尝试过预测树木年轮的天气?它们是相关的……你的机器应该能够找到从一个到另一个的路径。问题是,在发生这种情况的时候,你可能会在地下安静地休息。一些最强大的超级计算机用来预测更具影响力的信号的天气仍然会做出不准确的预测。有一个原因 – 计算的指数复杂性不是开玩笑。

这就是领域专业知识变得无价之宝的地方。简而言之,人类专家可以通过提供机器的快捷方式来修剪大量不必要的计算。这是通过使用多年来在特定领域中积累的知识人类专家建模推理路径来完成的。继续使用NLU,一个很好的例子是利用来自语言学的信息来丰富数据,例如词性,句子结构(即解析树),拼写法等。要了解这些好处,请考虑如何有效地管理复杂项目。你要做的第一件事是分解并建立中间里程碑。它们的范围更小,更容易定义,因此更容易到达。然后,实现更大的整体将减少到达每个中间里程碑,这更容易定义和跟踪。

但是建模比采取捷径还要多。培训数据集的支持者忽视了过多的领域,在这些领域中甚至很难定义如何编译数据集以进行培训。这意味着人们很难向注释器(用预期结果标记数据集的那个)解释如何为每个数据样本提出预期结果的逻辑。有时,标签的含糊不清使事情复杂化。其他时候,分析输入数据的复杂性 – 向人类提供所需的感官数据可能是完全不可能的。在物理世界中,某些测量可能对注释器是危险的(例如,如果您的输入是气体)。这些情况中的每一种都立即使得从一开始就收集数据的整个过程变得不可行。

可能值得重新审视从AI“分支”的所有领域。其中一个共同的主题是令人难以置信的领域建模和知识。例如,机器人技术依赖于运动,力学,材料,电气工程,光学和其他更基础的科学的物理学。虽然最终结果可能是将图像输入CV单元,但大部分“魔法”实际上在此之前发生。换句话说,完全不是用于“魔法”AI应用的ML,而是用于描述系统正在进行预测的域的公理,定理,测量,调整等的混合。ML只是锦上添花。这些领域的应用程序不依赖于机器来将输入与输出相关联,而是将领域知识放在首位,自下而上地建立自己的技术 – 从基本规则到复杂系统,可能会与ML建立一些步骤。它们的整体构成总是由域逻辑驱动。

这样做的好处是很多。首先,您不再需要严重依赖手动数据收集,正如我们所讨论的那样,这种数据收集充满了约束和错误。这样可以更全面地覆盖您的域。想想你更喜欢的东西,2个数字相乘的规则,还是列出不同可达数字对的产品的无限表?其次,您可以向最终用户解释推断。

您可以解释这是一个具有真实英文名称的特定域名功能,而不是突出显示您的反向传播在第7个隐藏层上的影响。第三,它允许更清洁的产品组装和更优化实施的更换部件的能力。尝试使用ML管道!(这是值得再次阅读上述NIPS论文的地方)

那么,你可能会问什么?到目前为止,您可能同意域建模对于有效实施至关重要。您决定聘请领域专家并继续。还有更多吗?是! 因为域建模对于AI应用程序来说是如此重要,所以它也可以作为寻找新的未开发AI应用程序的指南针!换句话说,为了找到新的机会,寻找一个难以收集数据的领域,同时一般领域环境得到充分理解,而且缺乏自动化。正是在这些空间中,人们可以通过一个简单的ML桥接关闭两个领域知识集群之间的小间隙,并突然得到更令人印象深刻的结果。并且,与“我们将所有内容与所有人群相关联”不同,您将拥有完整的域名覆盖,更好的描述能力,并最终,

 

发表回复