@yy125 2017-06-08T14:18:27.000000Z 字数 956 阅读 171

卷首语

AI

AI无疑是2017年最火的热词之一。

2015年ILSVR比赛里，微软用30多层的神经网络将图像分类的错误率降至4.94%，首次击败人类（5.1%），从某种程度上证明了机器不仅是“决策支持系统”, 它们本身就可以提供更可靠的答案。2017年Kaggle的肺癌检测进一步展示了人类经验（医生）和软件（开发者）之间崭新的合作方式：两者分别通过历史记录和模型，将各自的修为注入机器大脑，用多种数据加快其进化，让一个集人类专家多年智慧的绝世高手在数日内诞生。这些成功，将人们对AI和数据的关注提升到前所未有的高度。

惠普的一位前CEO曾说:“If only HP knew what HP knows，it would be three times more profitable" (如果惠普真的掌握它实际拥有的信息,盈利将比现在高三倍）。AI正在带来这样的可能性。今天它还只能做X->Y的映射，在不远的未来，也许真的能被快速训练成集万众之长，晓天文地理，服务于普罗众生，能传续万代的超级大脑，而且绝对不会出现“不给冰淇淋就不上补习班”的抵触情绪。

人类早已习惯了被自己的创新所取代：蒸汽机取代了拉车夫，机械取代了手工工人，互联网取代了不少唱片公司、零售、纸媒。当BOSS“资本”每次面对这些机遇时，它的选择自始至终毫无悬念。客观上也解放着人类：多少人愿意回到这些技术革命之前的时代呢？

回到If-HP-Knew-What-HP-Knows，我们仍然面临着同样的课题。数据仍然没有被充分利用，而且数据湖面临变成数据沼泽的危险。数据工程师们分属不同项目组，服务于不同部门，做着类似的事：数据加载、清洗、映射、打标签、聚合和计算出新的数据集，再用于各种推荐、挖掘或AI。湖越来越满，集群越来越忙。而数据用户们不知道有哪些可靠的数据，对陌生的不敢用，只好让自己的工程师加工，最终形成越来越多的数据孤岛。

因此，在利用AI的同时，通过数据治理，让更多用户更全面地利用数据，也是数据工作重点之一。比如梳理所有数据用户的需求，共同定义数据标准和CDE，将不同等级的数据商品化，供所有用户超市般地搜索、选用和分享等等。

AI大牛Andrew Ng做过一个比喻：如果机器学习是一艘火箭，那么神经网络是引擎，数据是燃料，缺一不可。所以，在追AI的同时，记得先搞定数据。

卷首语

内容目录

选择主题