@zhangyy 2017-06-06T05:38:10.000000Z 字数 2472 阅读 379

电商离线数据分析

大数据项目

一：项目介绍：

二：运用相关的技术：

三：应用环境搭建：

四：案例测试出来：

一：项目介绍

1.1 整体概述：

利用hadoop 的生态环境搭建出一套 电商离线分析平台满足以下需求
1. 数据分析平台
2. 推荐系统
3. 业务系统的底层存储系统
4. 业务监控系统 等
。。。。。。。。

1.2 电商企业项目分析：

  商品订单：商品的购买率
    ---> 订单数量
    ----> 网站的注册会员数量
    ----> 网站的访客量x
    ----> 网站的内容
    -----> 推广链接（百度访客）
             电商企业所关心的这些内容，就需要通过数据分析平台来提供

1.3 数据来源：

      数据的来源：
               日志
                 两种 日志数据
                 系统运行日志：运行异常，服务器的配置 提供运维使用
                 业务日志数据：
                             1. 业务日志：用户行为数据
                用户行为日志
                           从用户打开网站开始，在各个网页的一系列操作 用户行为
                           用户行为数据的搜集：
                                     以监听事件的方式
                电商数据分析：
                   离线和实时
                    离线数据分析结果，提供个营销部分使用
                    做为营销的参考

1.4 数据维度分析：

 平台 ： 用户的入口 pc 端（前端页面/后端业务系统） 移动端（android,ios,pad）
            时间 : 小 时，天，月 ， 季度，年
            浏览器： 浏览器的类型（js 与浏览器的兼容问题） 浏览的版本
            地域： 仓库管理 京东快递 ： 物流管理化  通过分析不同地域的用户量，用户行为 合理调配仓库管理
                  本地化计算管理
            指标： 分析的访客量，用户量，会话量

二：运用相关的技术：

2.1 技术架构层

1. 日志提取层
2. 数据分析层
3. 数据展示层

相关技术交互图：
image_1am81bvsd64t1h6s2trok2ac49.png-60kB

2.2 运用相关技术

linux + windows 下的eclipse 开发
hadoop 生态环境

2.1.1 系统环境配置

centos6.4 x64     namenode01.hadoop.com
整个环境搭建（伪分布环境） 可以参考 以前的配置

2.1.2 日志分析层构建

flume-ng+hadoop+nginx  平台构建
hadoop + hadoop 平台构建参考 以前文档配置

1. nginx 环境配置

安装nginx 
rpm -ivh nginx-1.8.0-1.el6.ngx.x86_64.rpm
rpm -ivh nginx-debug-1.8.0-1.el6.ngx.x86_64.rpm
启动nginx 
service nginx start

更改nginx 的主配置文件

cd /etc/nginx/
mkdir -p www/source 
vim nginx.conf
在最后增加：
添加 主机
server {
    listen       80;
server_name  namenode01.hadoop.com 0.0.0.0;
    location ~ .*(BfImg)\.(gif)$ {
      default_type image/gif;
  access_log /home/hadoop/access.log log_format; 
  root /etc/nginx/www/source;  
} 
上传BFImg.gif 到 /etc/nginx/www/source;
作为测试页面
从新启动 nignx 
service nginx restart

测试页面访问
http://192.168.3.1/BFImg.gif

image_1am8865ba1ao120v1u69i1ugol9.png-33.9kB

2. flume 配置文件

 su - hadoop
 cd yangyang/flume/conf

vim test2.conf

agent.sources = r1
agent.sinks = k1
agent.channels = c1
## common
agent.sources.r1.channels = c1
agent.sinks.k1.channel = c1
## sources config
agent.sources.r1.type  = exec
agent.sources.r1.command = tail -F /home/hadoop/access.log
## channels config
agent.channels.c1.type = memory
agent.channels.c1.capacity = 1000
agent.channels.c1.transactionCapacity = 1000
agent.channels.c1.byteCapacityBufferPercentage = 20
agent.channels.c1.byteCapacity = 1000000
agent.channels.c1.keep-alive = 60
#sinks config
agent.sinks.k1.type = hdfs
agent.sinks.k1.channel = c1
agent.sinks.k1.hdfs.path = hdfs://namenode01.hadoop.com:8020/logs/%m/%d
agent.sinks.k1.hdfs.fileType = DataStream
agent.sinks.k1.hdfs.filePrefix = BF-%H
agent.sinks.k1.hdfs.fileSuffix=.log
agent.sinks.k1.hdfs.minBlockReplicas=1
agent.sinks.k1.hdfs.rollInterval=3600
agent.sinks.k1.hdfs.rollSize=132692539
agent.sinks.k1.hdfs.idleTimeout=10
agent.sinks.k1.hdfs.batchSize = 1
agent.sinks.k1.hdfs.rollCount=0
agent.sinks.k1.hdfs.round = true
agent.sinks.k1.hdfs.roundValue = 2
agent.sinks.k1.hdfs.roundUnit = minute
agent.sinks.k1.hdfs.useLocalTimeStamp = true

3. 启动flume 服务进行日志收集

cd /home/hadoop/yangyang/flume/
bin/flume-ng agent --conf ./conf/ --conf-file ./conf/test2.conf --name agent

image_1am88qm4g18c1d401ere1sh21k4pm.png-65.7kB

去hadoop 的hdfs 上面查看是否有数据生成。

image_1am89ga3k1tvo19tr1fo0g151ojh13.png-61kB

电商离线数据分析

一： 项目介绍

二： 运用相关的技术：

内容目录

一：项目介绍

二：运用相关的技术：