@zhangyy
2017-06-06T13:38:10.000000Z
字数 2472
阅读 169
大数据项目
- 一: 项目介绍:
- 二: 运用相关的技术:
- 三: 应用环境搭建:
- 四: 案例测试出来:
利用hadoop 的生态环境搭建出一套 电商离线分析平台满足以下需求
1. 数据分析平台
2. 推荐系统
3. 业务系统的底层存储系统
4. 业务监控系统 等
。。。。。。。。
商品订单:商品的购买率
---> 订单数量
----> 网站的注册会员数量
----> 网站的访客量x
----> 网站的内容
-----> 推广链接(百度访客)
电商企业所关心的这些内容,就需要通过数据分析平台来提供
数据的来源:
日志
两种 日志数据
系统运行日志:运行异常,服务器的配置 提供运维使用
业务日志数据:
1. 业务日志:用户行为数据
用户行为日志
从用户打开网站开始,在各个网页的一系列操作 用户行为
用户行为数据的搜集:
以监听事件的方式
电商数据分析:
离线和实时
离线数据分析结果,提供个营销部分使用
做为营销的参考
平台 : 用户的入口 pc 端(前端页面/后端业务系统) 移动端(android,ios,pad)
时间 : 小 时,天,月 , 季度,年
浏览器: 浏览器的类型(js 与浏览器的兼容问题) 浏览的版本
地域: 仓库管理 京东快递 : 物流管理化 通过分析不同地域的用户量,用户行为 合理调配仓库管理
本地化计算管理
指标: 分析的访客量,用户量,会话量
1. 日志提取层
2. 数据分析层
3. 数据展示层
相关技术交互图:
linux + windows 下的eclipse 开发
hadoop 生态环境
2.1.1 系统环境配置
centos6.4 x64 namenode01.hadoop.com
整个环境搭建(伪分布环境) 可以参考 以前的配置
2.1.2 日志分析层构建
flume-ng+hadoop+nginx 平台构建
hadoop + hadoop 平台构建参考 以前文档配置
1. nginx 环境配置
安装nginx
rpm -ivh nginx-1.8.0-1.el6.ngx.x86_64.rpm
rpm -ivh nginx-debug-1.8.0-1.el6.ngx.x86_64.rpm
启动nginx
service nginx start
更改nginx 的主配置文件
cd /etc/nginx/
mkdir -p www/source
vim nginx.conf
在最后增加:
添加 主机
server {
listen 80;
server_name namenode01.hadoop.com 0.0.0.0;
location ~ .*(BfImg)\.(gif)$ {
default_type image/gif;
access_log /home/hadoop/access.log log_format;
root /etc/nginx/www/source;
}
上传BFImg.gif 到 /etc/nginx/www/source;
作为测试页面
从新启动 nignx
service nginx restart
测试页面访问
http://192.168.3.1/BFImg.gif
2. flume 配置文件
su - hadoop
cd yangyang/flume/conf
vim test2.conf
agent.sources = r1
agent.sinks = k1
agent.channels = c1
## common
agent.sources.r1.channels = c1
agent.sinks.k1.channel = c1
## sources config
agent.sources.r1.type = exec
agent.sources.r1.command = tail -F /home/hadoop/access.log
## channels config
agent.channels.c1.type = memory
agent.channels.c1.capacity = 1000
agent.channels.c1.transactionCapacity = 1000
agent.channels.c1.byteCapacityBufferPercentage = 20
agent.channels.c1.byteCapacity = 1000000
agent.channels.c1.keep-alive = 60
#sinks config
agent.sinks.k1.type = hdfs
agent.sinks.k1.channel = c1
agent.sinks.k1.hdfs.path = hdfs://namenode01.hadoop.com:8020/logs/%m/%d
agent.sinks.k1.hdfs.fileType = DataStream
agent.sinks.k1.hdfs.filePrefix = BF-%H
agent.sinks.k1.hdfs.fileSuffix=.log
agent.sinks.k1.hdfs.minBlockReplicas=1
agent.sinks.k1.hdfs.rollInterval=3600
agent.sinks.k1.hdfs.rollSize=132692539
agent.sinks.k1.hdfs.idleTimeout=10
agent.sinks.k1.hdfs.batchSize = 1
agent.sinks.k1.hdfs.rollCount=0
agent.sinks.k1.hdfs.round = true
agent.sinks.k1.hdfs.roundValue = 2
agent.sinks.k1.hdfs.roundUnit = minute
agent.sinks.k1.hdfs.useLocalTimeStamp = true
3. 启动flume 服务进行 日志收集
cd /home/hadoop/yangyang/flume/
bin/flume-ng agent --conf ./conf/ --conf-file ./conf/test2.conf --name agent
去hadoop 的hdfs 上面查看是否有数据生成。