@sambodhi
2018-06-01T16:20:50.000000Z
字数 5636
阅读 1537
作者|FILIP PIEKNIEWSKI
译者|LIU ZHIYONG
编辑|CHEN SI
AI前线导读: 拜Alpha Go所赐,世界进入了波澜壮阔的人工智能元年,如今公众一谈到人工智能,通常想到的就是那如火如荼、如日中天的深度学习。不可否认的是,深度学习肯定带来了机器学习的飞跃,也正在引起各个领域的技术变革。如果说,人工智能的凛冬即将来临,人们会不会认为是一派胡言呢?因为从表象来看,深度学习与人工智能技术正在逐步的改变人们的生活,使用深度学习来做自动驾驶、金融服务、安全防卫等等业务的公司如雨后春笋般纷纷冒出。一点都看不出人工智能凛冬的迹象。但实际上,在人工智能漫长的70年历史里,曾经历过好几个低谷时期。所以说,眼下的人工智能即将出现新的低谷时期,也不是没有可能。让我们看看Filip Piekniewski是怎么断言人工智能凛冬即将到来呢?
多年来,深度学习一直处于所谓的人工智能革命的前沿,许多人都相信,它是将我们带到技术奇点的奇迹世界的“银弹”(通用人工智能)。在2014年、2015年和2016年,很多企业下了许多赌注,那几年深度学习正在开疆拓土,如Alpha Go等。像Tesla这样的公司,他们的CEO宣布全自动驾驶汽车指日可待,Tesla甚至开始向客户兜售这种选项(将在未来软件更新中启用)。
现在,我们已经到了2018年中期,情况已经发生了变化。从表面上看一切一如既往,NIPS大会门票依旧洛阳纸贵,企业公关仍然在所有的新闻发布会上频频提及人工智能。Elon Musk仍然承诺自动驾驶汽车的前途是不可限量的,Google CEO还在不断重复Andrew Ng的口号:“对比电能,人工智能能够发挥的价值要大得多。(AI is bigger than electricity.)”
但是,这个美丽的童话开始出现了裂缝,正如我以前在旧文 AI And The Ludic Fallacy 中所预测的那样,这条裂缝最明显的地方出现在自动驾驶——这项在现实世界中得到实际应用的技术。
当ImageNet的问题得到有效解决时(注意,这并不意味着计算机视觉问题得到解决),该领域的许多杰出研究者(甚至包括沉静寡言的Geoff Hinton)都在积极地接受新闻采访,在社交媒体上打造声势(如Yann Lecun、Andrew Ng、Fei Fei Lee等)。总的来说,我们正处在一场巨大的革命前夜,从现在开始,革命的脚步只能加速了。
好几年已经过去了,这些人在Twitter上变得不那么活跃了,如Andrew Ng在Twitter上发推的情况如下:
这也许是因为Andrew过于离谱的言论现在受到社区更多的反思,正如下面的推文所示:
显然,公众这种激昂亢奋的情绪已经相当明显地减弱了,称赞深度学习是人工智能的终极算法的推文比以前大为减少,论文的论调变得不那么“革命”了,并且显得更“进化”了。自从Alpha Go Zero出世以来,DeepMind已经没有再次显示出任何惊人的迹象了。OpenAI也沉寂许久,它最后一次在媒体大出风头是在Dota2中击败顶级人类选手,我认为他们是想营造出与Alpha Go一样的轰动,但很快旋踵即逝了。
事实上,这个时候开始有些文章提到,甚至Google实际上也不知道如何处理DeepMind,因为它们的结果显然不如最初预期的那样注重实际……至于那些名扬四海的研究人员,他们通常会与加拿大或法国的政府官员会晤,以确保他们未来的资助,Yann Lecun甚至辞去Facebook的研究负责人的职位,改任Facebook人工智能首席科学家。
这种从有财有势的大公司到政府资助的研究机构的逐渐转变,让我意识到这些公司(此处指Google和Facebook)对这类研究的兴趣实际上逐渐减弱了。这些都是早期的征兆,并没有什么大声疾呼,有的只是身体语言。
关于深度学习的一个重要的口号是,它几乎能够毫不费力地扩展。我们在2012年就有了AlexNet,它有大约6千万的参数,我们现在可能有至少是参数是这个数1000倍的模型,对吧?我们可能会问,但问题是,这些东西真的有1000倍的能力吗?那有没有100倍的能力呢?OpenAI的一项研究派上了用场:
因此,就计算机视觉的应用角度来看,我们看到VGG和Resnets在计算资源应用上的一个数量级之后是饱和的(就参数的数量而言,实际上较少)。Xception是Google Inception架构的一种变体,实际上它在ImageNet的表现略显出色,可以说实际上也略优于其他产品,因为AlexNet基本上解决了ImageNet的问题。因此,在比AlexNet算力提高100倍的情况下,我们在计算机视觉方面,或者准确地说,是图像分类,能够几乎让架构趋于饱和。
所有大型网络搜索引擎玩家都在神经机器翻译(Neural machine translation,NMT)上付出了巨大的努力,也难怪它需要所能获取的计算资源(但是Google Translate仍然很槽糕,尽管取得了较好的成绩)。上图中最新的三个点,有趣地显示了DeepMind和OpenAI应用于游戏的强化学习相关的项目。尤其是AlphaGo Zero和稍微更通用的AlphaZero,会要求获取荒谬的计算资源,但并不适用于真实世界的应用程序,因为需要大量的计算资源来模拟和生成这些数据匮乏的模型所需的数据。
好的,我们现在可以在几分钟之内,而不是几天就能训练AlexNet,但是,我们能在几天内训练出一个1000倍大的AlexNet,并得到质量更好的结果吗?答案显然是不能……
所以实际上,这张图是为了显示深度学习的扩展性有多好,但实际上表明扩展性有多差。我们不能仅仅通过扩展AlexNet别得到更好的结果:我们必须处理特定的体系结构,在没有更多数量级的数据样本的情况下,有效的额外计算不会带来太大的效果,而这种量级的数据样本实际上仅在模拟的游戏环境下可用。
迄今为止,深度学习的声誉遭到最大的打击来自自动驾驶汽车的领域(我很早就预料到这点,2016年我曾发表博文 AI And The Ludic Fallacy,阐述了这一观点)。最初,人们认为端到端的深度学习能够以某种方式来解决这个问题,这也是Nvidia特别大力提倡的观点之一。
我认为这个世界上没有人还相信这一点,尽管我有可能错了。看看去年加州车管局发布的2017年自动驾驶脱离报告(译注:在加州DVM法规中,对于自动驾驶测试定义了一个专用名词“脱离(disengagement)”,以此来衡量自动驾驶技术的成熟度。自动驾驶模式中的“脱离”是指在自动驾驶测试中,系统无法进入自动驾驶模式或终止自动驾驶模式改由人工控制的情况,即车辆驾驶员必须手动接管驾驶的情况),Nvidia的自动驾驶汽车在没有“脱离”的情况下,只能行驶不超过10英里。
在我的另一篇文章 Autonomous Vehicle Safety Myths And Facts, 2018 Update 中,我讨论了这方面的总体情况,并与人类驾驶员的安全性进行了比较。自2016年以来,Tesla的自动驾驶系统发生了几起事故,其中有些事故还是致命的。按理说,Tesla的自动驾驶系统不应该与自动驾驶汽车相混淆,但至少在核心技术上,它依赖的是同一种技术。到今天为止,除了偶尔出现的骇人错误,它仍然不能在十字路口停车,不能识别红绿灯,甚至不能在环状交叉路口转弯。那是在2018年5月,就是Tesla许下将在海岸沿线实现自动驾驶的承诺的几个月后(尽管传言他们已经尝试过,但还不能完全实现,因为还没有超过30次“脱离”,因此那个承诺无法实现)。就在几个月前(2018年2月),Elon Musk在一次电话会议上被问及海岸沿线行驶的问题时,他再三重申道:
我们本来可以做到海岸沿线的自动行驶,但它需要太多的专用代码来有效地完成这一游戏,或者让它稍微弱一些,使它可以用于一条特定的路线,但这不是通用的解决方案。因此,我认为我们可以重复它,但如果它不能用于其他路线的话,这就不是真正意义上的解决方案。
我为我们在神经网络方面取得的进展感到非常兴奋。这取得的一点进展,使它看上去不像是进步,它的进展不是呈指数级增长的东西,似乎没有太多的进展,但突然间,让人们惊叹:哇!它让人们觉得这是一个蹩脚的司机。实际上,它是一个很好的司机。人们会感叹说:不会吧,它开得怎么可以这么好?牛逼啊!
那么,让我们看看上面那张OpenAI的图表,我似乎并没有看到那个呈指数级增长的进展。在这个领域所有大玩家,都没能做到出现脱离之前的行驶距离呈现这种呈指数级增长的进展。实质上,上述说法应该被解释为:“我们目前没有能够在美国海岸沿线安全驾驶的技术,但如果我们真的想的话,我们可以伪造它。我们深切希望,神经网络能力的某种指数跳跃将会很快就发生,好将我们从耻辱和大量的官司中解救出来。”
但迄今为止,人工智能泡沫中最大的刺点就是Uber自动驾驶汽车在亚利桑那州撞死一名行人的事故。从NTSB的初步报告来看,我们可以看到一些令人震惊的声明:
除了本报告中显而易见地提到的总体系统设计失败之外,令人惊讶的是系统耗费很长时间来试图确定它前面看到的究竟是什么(无论是行人、自行车、汽车还是其他任何东西),而不是在这种情况下做出唯一合乎逻辑的决定,即确保不会触及这些目标。原因有几点:首先,人们往往在事后用言语表达他们的决定。因此,某人通常会说:“我看到一个骑自行车的人,所以我左转避开他。”大量的心理物理学文献提出了一个截然不同的解释:“人类通过神经系统的快速感知循环迅速将其解释为障碍物,并采取行动避免与它触及,好几秒钟之后才意识到发生了什么,并进行口头解释。”我们每天做的决定有很多都不是用语言表达的,而且驾驶这一行为也包含了很多这样的决定。
语言表达的成本很高,需要时间,而现实往往并不能提供所需的时间。这些机制已经进化了十亿年,保护了我们的安全,而驾驶环境(尽管是现代事物)则利用了许多这样的反射。由于这些反射并没有专门为驾驶而进化,因此它们可能会引发错误。对汽车的蜂鸣声引起的膝跃反射(也称膝跳反射,Knee Jerk Reaction)可能导致了许多车祸事故和死亡事故。但是我们对三维空间的理解、速度、预测行为的能力,通过我们的道路穿过的物理对象的行为是原始的技能,这些原始技能早在一亿年前就像今天一样有用,由于进化的缘故,它们磨炼得非常好。
但是因为这些东西大多不易用语言表达,所以它们很难衡量,因此我们根本没法在这些方面优化我们的机器学习系统……现在,这将有利于Nvidia的端到端方法:学习图像→动作映射,跳过任何语言的表达环节,在某种程度上,这是做到这一点的正确的方式,但是……问题在于输入空间是令人难以置信的高维空间,而动作空间是非常低维的。因此,与输入的信息量相比,“标签”(读出)的数量非常小。在这种情况下,习得虚假的关系是非常容易的,正如由深度学习中的对抗样本举例证明的那样。
我们需要一个不同的范式,并假设对行为的整个感知输入的预测作为第一步,使系统能够提取世界的语义,而不是虚假的相关性(更多详情可参见我提出的第一个被称为预测视觉模型(Predictive Vision Model)的架构,见博文:Predictive Vision In A Nutshell )。
事实上,如果说我们从深度学习的爆发中学到了什么东西,那就是(一万维度)图像空间中有足够多的失真图案(spurious patterns),它们实际上会在许多图像上泛化,并留下印象,比如我们的分类器实际上理解他们所看到的东西。即使那些在这一领域投入大量资金的顶尖研究人员也承认,事实并非如此。
我要提到的是,更多的知名人士认识到了这种傲慢自负,并有勇气公开炮轰。该领域中最活跃的人士之一是Gary Marcus。虽然我不认为我同意Gary在人工智能方面提出的所有观点,但我们一致同意,人工智能还没有深度学习所宣传的那么强大。事实上,相距甚远。他写过关于深度学习的优秀博文及论文:Deep learning: A critical appraisal (https://arxiv.org/abs/1801.00631)、In defense of skepticism about deep learning(https://medium.com/@GaryMarcus/in-defense-of-skepticism-about-deep-learning-6e8bfd5ae0f1),在文中,他非常深入细致地解析了深度学习的炒作。我很尊重Gary,他的举止就像一个真正的科学家,而大多数所谓的“深度学习界的明星”,实际上表现就跟廉价明星一样。
预测人工智能低谷就像预测股市崩盘一样,根本就不可能准确的预测何时发生,但几乎可以肯定的是,它会在某个时候出现。就像在股市崩盘之前,会有迹象表明股市即将崩盘,但这种说法太过强烈,以至于在显而易见的情况下很容易忽视掉它们。在我看来,已经有明显的迹象表明,深度学习的热度正在大幅下降(可能在人工智能中,因为这一术语被企业宣传所滥用),这些迹象就在眼前,但人们却被日益激烈的描绘所遮盖了双眼。那个低谷究竟有多“深”?我不知道。接下来会发生什么?我也不知道。但我很肯定它会到来,也许会更早而不是更晚。
原文链接: AI Winter Is Well On Its Way
https://blog.piekniewski.info/2018/05/28/ai-winter-is-well-on-its-way/