@evilking
2017-10-15T10:31:55.000000Z
字数 914
阅读 1085
大数据平台篇
目前市面上普遍使用的数据分析工具有R,SAS,SPSS,PYTHON,MATLAB等工具,但是这些工具除了 python 外只适合用于分析,由于这些语言要么是只提供图形化的界面,要么就是对大数据执行效率比较慢,并不适合上生产,而 python 尽管数据分析方面的包越来越丰富了,但相比于专业的统计分析语言来说,还略有不足;
所以当我们做完模型后,国内的数据分析师一般需要自己用工程上的编程语言(比如JAVA)将模型翻译成生成环境上的语言;
随着大数据时代的来临,越来越多的公司将历史业务数据迁移到大数据平台上,并且分析工作一般也需要使用大数据平台工具,这就需要数据分析师除了掌握分析建模能力外,还需要对基本的大数据平台开发有些基本的了解;
数据分析师需要对大数据平台上的开发技能掌握的程度,视所在公司组织架构而定:
对于中小型公司,可能需要数据分析师即做模型,又要用大数据平台开发工具翻译到生产环境,这就要分析师对大数据平台的开发技能有较高的要求;
对于稍微大点的公司,可能就配有专门的大数据开发工程师,配合数据分析师将模型转换到生产环境,这就对分析师的大数据开发技能要求稍微低点,可将更多的精力放在建模上;
本系列的内容希望读者能对常用的大数据平台工具(如Hadoop,Hive,Hbase,Spark)有个基本的了解,掌握它们的基础开发技能,同时能对Spark的MLlib包的使用熟悉
我们用大数据平台是为了用大数据平台工具做分析,所以重点关注在数据处理这块
这部分主要以示例代码的形式展示给读者如何使用大数据平台来开发