@changedi
2015-12-31T14:00:43.000000Z
字数 1864
阅读 2327
大数据
搞大数据的人,都是大公司的人。
那么接触过大数据,又耍过大数据,同时想把大数据推给别人(所有人)用的人,就是大公司里大数据部门的人。
不幸的是,我是这样的一个人!!
抛开“大”,数据一直存在。古希腊先贤探求世界本源时,毕达哥拉斯认为世界的本源是“数”,数——我想大家更多的理解为数学,但是数学的原料不就是数据吗?读书时与导师推导获取知识的链路,得到的结论是
故事大概是这样的:
最早世界是一片混沌,我们理解为虚空(void),这里什么都没有,或者什么都有,谁知道呢;接下来出现了噪声(noise),像黑白噪声,它们彼此交错、自由狂放、繁杂变化、毫无规律,让人生厌,没人知道它们怎么来的,就好像是进化自然的产物;接着,有些耐心的人开始从噪声中采集收纳,得到数据(data)[1],数据冗杂、多样、若隐若现、无法解释,让人陌生又无奈,让人好奇又沮丧,但是有一点,它们是活的,它们可以被表达,它们可以“说话”,它们包含了单纯的美;在“数字”的世界迷茫不了太久,有些聪明的人从数据中汇总分析——继续抽象——得到了信息(information)[2],人们好奇驱使,大脑飞转,从数字中得到了启示——从高层解释数据规律——信息可解释、可汇总、可归纳,最关键的是,可以被传播,信息让人happy、让人愉悦、容易表达;毕竟人类的大脑不是白长的,在得到信息后,有人意识到,这玩意能“做文章”,于是更深的抽象和归纳后,形成了知识(knowledge)[3],知识是啥?在这个客观世界,长时间具有代表性且普适的认识,就是知识,知识需要学习、不易获取、有的不易表达、知识让人满足;再往下走,再往下走还不满足,于是人类历史上就有那么些个“伟人”,成立了宗教,有的人在知识和宗教之间加了一层智慧,这个我看来就是一个知识的集大成者或精深者,这里且不谈,宗教干啥的我也不太懂,反正是当年我的老师谈了这么一嘴,估计我觉得是想给知识和智慧留点面子——毕竟宗教被知识分子不齿——而且最终也导致了幻灭,回到噪声了,这个中滋味,大家自己品尝吧。
好吧,一个读书时候的故事,影响了我最终的路——我进了一个“数据”的行业。
看看我们现在最能谈到的“大数据”在哪个阶段呢?其实从噪声开始到知识结尾,这几个阶段都包含(不排除未来也有宗教,we will see)。一开始说过了,我是推着别人“耍”大数据的人。那么大数据怎么映射到这几个阶段呢?
开始我说了,我是大公司的,你真别不信,这个阶段真跟公司规模大小有点关系。在一开始,初创团队只有噪声,大家恨不得一人兼多职,只有一个目标:活着。产品成型后,开始积累数据,这时候有了分工,没办法,为了能商业化,能来钱,咱得专业呀,产品相关的那些内容不管有用没用,先记下。规模逐渐做大,数据越记越多,钱够人够,这时候就得搞几个人做整理抽象——目标要获取信息——这个阶段老板牛逼啦,要看报表啦,那报表里有什么?当然不能只有数字,老板看了会吐血,你也会吐血。所以要把数字反应的信息报出来。拿到信息,基本能指导运营了,有了数字量化的标准,就有了目标。一般到这个阶段,就是瓶颈期了,一般公司也不会再做数据抽象了,再抽象就要出知识了,这哪是小公司玩的了的。说白了,知识就是通过长期数据和信息积累后,得到的产物——书籍、论文、生态~~最后的宗教?太扯了,这个就别BB了。
大数据在做什么呢?大数据核心在做的事情,我看主要集中在数据->信息
的过程。围绕着这个点,把上下游的工具和平台做好,这就是大数据了。上下游是什么?就是数据采集、加工、建模。这不简单吗?这是不难,在小数据时代,一旦量大了呢?你怎么玩?单机转变为分布式。而分布式计算,效率、性能就成了众多科学家和工程师们追逐着解决的问题了。
后面会再写一篇文章来分析当前大数据的技术栈(先挖个坑)。这里就浅尝辄止吧。总结一句我理解的大数据:大数据是一个生态,它包含了数据的采集、加工、转换、分析、建模和展示,人们可以在这个生态里使用
理论上没有大小限制的数据集。没有大数据和小数据的区别,大数据包含了小数据,分布式包含了单机。大数据一定是一个革命,当对数据的使用没有量
的边界限制时,质
的变化还会远吗?