@sambodhi
2018-07-18T16:49:56.000000Z
字数 3913
阅读 3130
作者|Matt Turck
译者|Sambodhi
编辑|Debra
AI前线导读: 2018年已经过了一半。那么,大数据和人工智能目前发展怎么样了?Matt Turck就给我们娓娓道来他眼中的2018年大数据和人工智能全景图……
2018年,是数据世界中激动人心但又令人忧虑的一年。
就像去年一样,数据技术生态系统仍然呈“星星之火可以燎原”之势。如果不出意外的话,2018年在商业和个人交流中,数据可能会变得更加重要。然而,由于一些原因,事情有所改变。
一方面,数据技术(大数据、数据科学、机器学习、人工智能)继续前进,变得越来越高效,在世界各地企业也得到了广泛的应用。到目前为止,2018年企业界的关键主题之一是“数字化转型”,这绝非偶然。这个词语对有些人来说可能有点奇怪,他们会嘀咕:这难道不是过去25年来一直发生的事儿吗?但它恰恰反映出一个事实:许多传统的行业和企业现在正全力投入到真正的数据驱动之旅。
另一方面,更广泛的、具有代表性的一大群人已经意识到数据的缺陷。无论是通过关于人工智能风险的公开辩论、剑桥分析公司(Cambridge Analytica)的丑闻、大规模的Equifax数据泄露、与GDPR相关的隐私讨论,还是关于日益增多的有关中国政府监控的报道,数据世界已经开始暴露出一些更黑暗、更可怕的一面。
上面提到的两个方面,其实都是同一个现象的另一面,这种现象已经酝酿多年,但今天已经全面展现了:几乎所有的一切(无论是个人的的还是职业的)正在迅速数字化,数据技术在处理和分析这些海量数据排放(data exhaust)方面比以往更加娴熟,实时性也更高。这可能会导致数据一些不可思议的应用以及数据的滥用。关于如何结合这种强大的力量和必要的责任感的讨论已经变得至关重要。
AI前线注:数据排放(data exhaust),指互联网用户留下的点击记录可以发掘商业价值,这正成为网络经济主流。
让我们来重点介绍2018年的一些关键趋势和事件。
从行业角度来看,数据生态系统仍然像以往一样令人兴奋、充满活力,拥有大量的创新初创企业,成熟的“规模扩展”以及许多积极的公共技术供应商。最重要的是,有许多大大小小的客户都在大规模部署这些技术,并从他们的努力中获取不可否认的价值。
随着从老旧的IT技术到更为现代的数据产品的替代更新,大数据市场(基础设施、分析)似乎正在通过早期大多数买家对技术和产品的替代更新来完成循环,并逐渐过渡到传统采用曲线的后期大部分。
此外,数据世界继续朝着云端的方向发展。考虑到大型公共云服务提供商(AWS、Azure、Google Cloud Platform、IBM)每个季度都有数十亿美元的收入,它们的增长速度之快,着实让人吃惊。这一趋势引发了企业对厂商锁定(vendor lock-in)的持续关注,这可能为提供“多云”(multi-cloud)解决方案的初创企业带来机遇。然而,到目前为止,即使采用多云策略的企业仍然倾向于依赖一个供应商作为他们的主要提供商。
AI前线注:厂商锁定(vendor lock-in),是很多云部署的通病。如果一家企业所使用特定厂商的产品或服务越多,那么它对于这家厂商及其产品服务的依赖性就越高;同样,企业也就越难以变更厂商。即使是在与现有厂商进行续约时,这也会导致企业在合同谈判过程中缺乏主动性;厂商知道企业变更厂商的代价是非常之高昂,难度是非常之高,因此两者取其轻,企业必然会接受厂商涨价的要求。多云(multi-cloud)解决方案就是企业采用多个(大于或等于2个)不同云服务商提供的不同云服务,根据企业具体业务需求和业务目标,决定不同应用程序和工作负载部署在不同云计算平台上。
随着他们的业务不断发展,大型云提供商通过其平台(如Amazon Neptune、Google AutoML等)提供一系列广泛的大数据、数据工程和机器学习工具,通常都制定了激进的定价策略,从而相互竞争越来越激烈,这一切都是为了吸引更多的开发者,因为他们真正的商业模式是数据存储。随着此类工具的范围和成熟度不断增长,这对数据技术领域产生了重大影响,可以说,初创企业更难与之竞争,至少在广阔的、横向的机遇面前就是如此。每年在大型云供应商会议上发布的产品公告列表(如AWS re:Invent)会给初创企业带来冲击波,因为他们将云供应商与数十家风投支持的初创企业直接竞争。看看公众市场如何应对即将到来的Elastic(一家开源软件企业)IPO将是一件有趣的事。三年前,Amazon推出了直接竞争对手Elasticsearch。
然而,只要初创企业有足够的差异化,他们还是有很多机会的。在这个领域中,很多企业都在快速扩展,在生态系统的基础设施和分析部分中有许多特别有趣、快速增长的部分,包括流/实时、数据管控和数据结构/虚拟化。人们对人工智能的兴趣激增,也带来了在人工智能芯片、GPU数据库、人工智能DevOps工具以及能够在企业中部署数据科学和机器学习的平台上的巨大机遇,以及大量资金。
在人工智能研究领域,这无疑是疯狂的一年,从AlphaZero的威力到新技术发布的惊人速度——生成对抗网络的新形式,替代型的新递归皮层网络,Geoff Hinton的新胶囊网络。像NIPS这样的人工智能会议已经吸引了8000人,每天都有成千上万的学术论文提交。
与此同时,对AGI的追求仍然难以捉摸,这也许是值得谢天谢地的事儿。目前人们对人工智能的兴奋和恐惧,大部分源于2012年以来令人印象深刻的深度学习表现,但在人工智能研究领域中,有一种情绪在人们中日益弥漫开来:“现在怎么办?”因为有些人质疑深度学习的基础(反向传播),而其他一些人希望能够超越他们所认为的“蛮力”方法(大量数据、大量算力),或许更倾向于采用更多基于神经科学的方法。
在人工智能研究界中,许多人都不担心机器人世界的统治,他们反而担心的是这个领域持续的过度炒作最终可能会让公众失望,并导致另一场人工智能寒冬的到来。
然而,在人工智能研究之外,我们正处于一波深度学习在现实世界中的部署和应用浪潮的开端,涉及不同行业的语音识别、图像分类、对象识别和语言等各种问题。如果生态系统的基础设施和分析部分已经发展到后期的大多数,那么对于企业和垂直人工智能应用来说,我们仍然是非常早期的先驱者。
尽管人工智能初创市场可以说已经显示出最终降温的迹象,但以深度学习为基础的初创企业在一两年前开始的寒武纪大爆发仍然有增无减。整体规模和估值的期望仍然很高,但我们肯定已经经过了这样一个阶段:大型互联网企业会为了人才而高价收购早期人工智能初创企业。与其他一些利用这种炒作的企业相比,市场中也出现了一些“真正”的人工智能初创企业。在2014~2016年期间成立的一些人工智能初创企业正开始初具规模,许多企业在医疗、金融、“工业4.0”和后台办公自动化等跨行业和垂直领域提供越来越有趣的产品。在未来的几年里,深度学习将继续为现实世界的应用带来巨大的价值,而专注于垂直方向的人工智能初创企业将面临许多巨大的机遇。
这种持续的爆炸在很大程度上是个全球现象,加拿大、法国、德国、英国和以色列都特别活跃。然而,中国在人工智能方面似乎在一个完全不同的水平,有报道称,政府主导的数据汇集规模令人难以置信(跨越了互联网企业和市政当局),面部识别和人工智能芯片等领域的迅速发展,以及为初创企业提供数轮巨额融资:根据CB Insights的数据,中国仅占全球人工智能交易份额的9%,但2017年在全球人工智能资金的比例接近48%,高于2016年的11%(见下面的一些例子)。
同样,数据隐私(以及所有权和安全性)问题也正成为全球关注的主要问题。在互联网发展的早期,数据隐私是为了保护我们在网上所做的事情,这是我们活动中相对较小的一部分。相应地,只有一小部分人真正在乎数据隐私的问题。随着我们个人和职业生活的方方面面都通过越来越多的联网设备连接到互联网上,利害关系正在发生变化。人工智能能够在大量数据集中发现异常、预测结果和识别人脸,这使数据隐私问题变得更加复杂。
另一个独立但相关的问题是,这些数据中有很多都属于大型互联网企业(GAFA)所有。有些企业,比如Facebook,已经被证明不是完美的管理者。尽管如此,这些数据为他们在生产更强大人工智能的竞争中提供了不公平的优势。
针对这些问题,一个新兴的主题是把区块链看作是对抗人工智能风险的一种可能的方式,同时也是在GAFA之外的企业生产更为出色的人工智能的另一种方式。加密经济被视为一种激励个人提供个人数据的方式,也是机器学习工程师通过匿名处理这些数据建立模型的一种方式。这一切仍处于试验阶段,但一些早期的市场和网络正在出现。
言归正传,这是我们2018年的全景图。
在语义上有必要进行说明:流行语经常变动。例如现在很少有人谈论“大数据”,更多谈论的是“人工智能”,但实际上,这两个术语都是描述同一个现实。因此,我们略微改变了2018年的全景图:现在被称为“大数据与人工智能”全景图!
全尺寸的高清版全景图下载地址为:http://u6.gg/dN3xt
原文链接: Great Power, Great Responsibility: The 2018 Big Data & AI Landscape
http://mattturck.com/bigdata2018/?utm_campaign=Content%20Curation&utm_content=74020288&utm_medium=social&utm_source=twitter