@lsmn
2018-04-03T13:44:39.000000Z
字数 4288
阅读 2495
深度学习
DNN
RNN
神经网络
我们卡住了。或者至少我们进入了停滞期。有人还记得上一次一年时间过去在算法、芯片或数据处理方面没有显著进展吗?数周之前,我在Strata San Jose大会上没有看到任何新的醒目的进展,这非常不正常。
我们卡住了。或者至少我们进入了停滞期。有人还记得上一次一年时间过去在算法、芯片或数据处理方面没有显著进展吗?数周之前,我在Strata San Jose大会上没有看到任何新的醒目的进展,这非常不正常。
正如之前的报道,深度学习似乎已经成熟,现在,我们的主要工作,要么是整合所有那些功能强大的新技术(聚合平台),要么是从那些巨大的VC投资那里赚钱。
我不是唯一一个注意到这一点的人。有几个参会者和参展商也向我说了类似的事情。就在前几天,我注意到,一个由备受尊敬的研究人员组成的团队评估了各种先进的分析平台的优缺点,他们的结论是,没有什么特别的东西值得报道。
我们现在的情况实际上并不坏。我们过去两三年的进展都是在深度学习和强化学习领域。深度学习提升了我们处理语音、文本、图像和视频的能力。加上强化学习,我们在游戏、自动驾驶、机器人技术等类似的领域取得了重要进展。
基于那些技术的商业扩展尚处于最早期的阶段,比如,聊天机器人和客户的互动节省了大量的成本,为个人提供便利的新应用,如私人助理和Alexa,私人汽车的L2级别自动化,如自适应巡航控制、事故避免制动和车道保持。
Tensorflow、Keras等深度学习平台比以前更易于使用,而且,得益于GPU,比以前更高效。
然而,已知的缺陷一点没有改变。
我敢肯定,我们还可以列出更多。就是在解决这些主要的缺陷时,我们卡住了。
对于深度神经网络,人们现在普遍认为,如果我们继续推动,继续投资,就能克服这些缺陷。例如,从80年代到20世纪,我们知道了如何使用DNN,我们只是没有硬件。等到硬件跟了上来,DNN加上新的开源潮流开辟了这个新的领域。
所有类型的研究都有自己的势头。尤其是,一旦你在某个特定的方向投入了大量的时间和金钱,你就在那个方向上一直保持领先。如果你多年来一直为开发这些技能的专门知识而投入,那么你就不愿意弃船而逃。
有时候,你需要换个方向,即使你并不准确地知道那个新方向可能是什么。近日,处于领先地位的加拿大和美国AI研究人员就是那样做的。他们认为,他们的方向错了,需要从根本上重新开始。
去年秋天,Geoffrey Hinton也表达过这个观点。Hinton因为80年代末在DNN方面的突破而享誉世界。他现在是加拿大多伦多大学的荣誉教授,同时也是谷歌的研究人员。他说,他现在“非常怀疑”DNN底层的核心方法反向传播。据他观察,人类大脑不需要所有那些标记的数据来得出结论,Hinton说,“我的观点是抛开一切,重新开始”。
记住这一点,下面是一个有关新方向的简短调查,这些新方向介于纯粹的概率和载人登月之间,但据我们所知,都不是对深度神经网络的增量改进。
这些介绍都很简短,但无疑可以让你进一步阅读,以求全面的理解。
有许多研究都是严格遵循Hinton反向传播理论,他们认为,节点和层级的基础结构很有用,但连接和计算的方法需要做重大修改。
我们最好从Hinton自己的新研究方向CapsNet开始。这和使用CNN进行图像识别有关,简单来说,问题是,CNN对物体的姿态非常敏感。也就是说,如果同一个物体的位置、大小、方向、形状、速度、反照率、色彩、纹理等有差异,那么就需要针对每一种情况在数据集里增加训练数据。
在CNN中,这是通过大量增加训练数据和/或减少可泛化的最大池化层来处理的,但只能靠损失实际信息。
有许多人对CapsNets做了不错的技术性介绍,下面是其中一种,来自Hackernoon。
Capsule是神经层的一个嵌套集。在通常的神经网络中,你不断增加层数。在CapsNet中,你在一个单独的层里添加更多的层。或者换句话说,把一个神经层嵌入另一个神经层。Capsule中的神经元可以获取图像中实体的上述属性。一个Capsule输出一个表示实体存在的向量。向量的方向代表了实体的属性。这个向量会被发送给神经网络中所有可能的父节点。预测向量的计算是用自己的权值乘以一个权重矩阵。哪个父节点的标量预测向量积最大,就增加哪个Capsule的信度。其余的父节点信度降低。这种路由协议要优于当前类似max-pooling这样的机制。
CapsNet大幅减少了所需的训练数据集,在早期的测试中,其在图像分类方面也表现出了优越的性能。
二月份,我们介绍了南京大学新软件技术国家重点实验室周志华和冯霁的研究成果,他们展示了一项名为gcForest的技术。他们的研究论文显示,gcForest在文本和图像分类方面通常都优于CNN和RNN。优势相当明显。
简而言之,gcForest(多粒度级联森林)是一种决策树集成方法,保留了深度网络的级联结构,但使用与完全随机的树森林配对的随机森林组取代了不透明的边缘和节点神经元。要了解更多有关gcForest的信息,请查阅我们最初发表的文章。
Pyro和Edward是两种新的编程语言,结合了深度学习框架和概率编程。Pyro是Uber和谷歌的合作成果,而Edward诞生于美国哥伦比亚大学,获得了DARPA的资助。结果就是这样一个框架,让深度学习系统可以度量预测或决策置信度。
在经典的预测分析中,我们可能会这样处理,使用对数损失函数作为适应度函数,处罚确信但错误的预测(误报)。截止目前,深度学习尚无定论。
举例来说,这有望应用在自动驾驶汽车或飞机上,让控制器在做出重大或灾难性决策之前,有某种自信或怀疑的自觉。无疑,这是你希望Uber自动驾驶汽车在你上车之前就知道的。
Pyro和Edward均处于早期开发阶段。
我经常遇到一些小公司,他们的平台内核里有非同寻常的算法。我深究过,但在大多数情况下,他们都不愿意提供真的细节,甚至都不愿意让我向人介绍他们在做什么。这种保密做法并不会影响其工具的效果,但是,在他们提供一些基准和细节之前,我真得无法告诉你内部发生了什么。将来他们最终揭开面纱时,我们要据此做出判断。
下面是截至目前我调查过的最先进的非DNN算法和平台。
层级时序记忆(HTM)使用稀疏分布式表示(SDR)进行大脑神经元建模及执行计算,在标量预测(大宗商品、能源、或股票等东西的未来价格)和异常检测方面的性能均优于CNN和RNN。
这是因Palm Pilot闻名的Jeff Hawkins在其公司Numenta里取得的成果。Hawkins一直致力于研发一种以大脑功能基础研究为基础的强大AI模型,该模型没有像DNN那样的分层和节点结构。
HTM的特点是可以非常快速地发现模式,仅需大约1000次观测。相比之下,训练CNN或RNN需要几十万或上百万次观测。
而且,模式识别是无监督的,可以随着输入变化即时识别和归纳模式变化。这样得到的系统不仅训练速度相当快,而且可以自学习和自适应,不会受数据变化或噪音干扰。
我们在二月份发表的一篇文章中专门介绍了HTM和Numenta,我们建议您阅读这篇文章了解更多内容。
我们开始关注真正的游戏规则改变者,但是,至少有两个增量改进的例子值得一提。显然,这两个例子仍是包含反向传播原理的CNN和RNN,但它们的效果更好。
谷歌和Nvidia研究人员使用一个名为网络修剪的过程删除对于输出没有直接贡献的神经元,让神经网络变得更小、运行更高效。这一进展是谷歌新平台AutoML近期主要的性能提升。
Transformer是一种新方法,最初用于语言处理,如语言到语言的翻译,这曾经是CNN、RNN和LSTM的领域。该方法是去年夏末由谷歌大脑和加拿大多伦多大学的研究人员发布的,它在包括英语/德语翻译测试在内的各种测试中都表现出了显著的准确性提升。
RNN的时序特性使它比较难以充分利用像GPU这样的现代化快速计算设备,这些设备长于并行处理,而不是串行处理。CNN的时序性比RNN差许多,但在CNN架构中,组合来自输入远端部分的信息所需要的步骤数量随距离增大而增多。
这一准确性的重大进展来自新开发的“自注意(self-attention)函数”。该函数显著减少了步骤,现在只需要很少的、数量固定的步骤。在每个步骤中,它运用一种自注意机制直接为句中所有词之间的关系建模,而不管它们的相对位置。
点击这里可以阅读研究论文原文。
如果没有思考过,那么你应该关注下中国在AI领域的巨大投入及其在数年内赶超美国引领AI发展的目标。
Steve LeVine是Axios Future的编辑,同时也是美国乔治城大学的教员。他在一篇文章中明确指出,中国可能是一个快速跟进者,但可能永远无法赶上来。因为,美国和加拿大的研究人员可以自由变换研究方向,任何时候都可以根据自己的意愿重新开始。以制度为指南的中国研究人员永远不会那样做。以下内容来自Steve的文章:
“在中国,那不可想象,”位于西雅图的Outreach.io首席执行官Manny Medina这样说道。他还说,像Facebook的Yann LeCun、加拿大多伦多Vector研究所的Geoff Hinton这样的AI明星,“他们不需要申请就可以开始研究,并深入下去。”
正如风投们所言,也许是时候转变了。
关于作者:Bill Vorhies是数据科学中心的编辑部主任,从2001年开始就成为一名数据科学家。他的电子邮件地址是:Bill@DataScienceCentral.com。