[关闭]
@zhangyy 2017-06-06T13:38:10.000000Z 字数 2472 阅读 171

电商离线数据分析

大数据项目


  • 一: 项目介绍:
  • 二: 运用相关的技术:
  • 三: 应用环境搭建:
  • 四: 案例测试出来:

一: 项目介绍

  1. 利用hadoop 的生态环境搭建出一套 电商离线分析平台满足以下需求
  2. 1. 数据分析平台
  3. 2. 推荐系统
  4. 3. 业务系统的底层存储系统
  5. 4. 业务监控系统
  6. 。。。。。。。。
  1. 商品订单:商品的购买率
  2. ---> 订单数量
  3. ----> 网站的注册会员数量
  4. ----> 网站的访客量x
  5. ----> 网站的内容
  6. -----> 推广链接(百度访客)
  7. 电商企业所关心的这些内容,就需要通过数据分析平台来提供
  1. 数据的来源:
  2. 日志
  3. 两种 日志数据
  4. 系统运行日志:运行异常,服务器的配置 提供运维使用
  5. 业务日志数据:
  6. 1. 业务日志:用户行为数据
  7. 用户行为日志
  8. 从用户打开网站开始,在各个网页的一系列操作 用户行为
  9. 用户行为数据的搜集:
  10. 以监听事件的方式
  11. 电商数据分析:
  12. 离线和实时
  13. 离线数据分析结果,提供个营销部分使用
  14. 做为营销的参考
  1. 平台 用户的入口 pc 端(前端页面/后端业务系统) 移动端(android,ios,pad
  2. 时间 : 时,天,月 季度,年
  3. 浏览器: 浏览器的类型(js 与浏览器的兼容问题) 浏览的版本
  4. 地域: 仓库管理 京东快递 物流管理化 通过分析不同地域的用户量,用户行为 合理调配仓库管理
  5. 本地化计算管理
  6. 指标: 分析的访客量,用户量,会话量

二: 运用相关的技术:

  1. 1. 日志提取层
  2. 2. 数据分析层
  3. 3. 数据展示层

相关技术交互图:
image_1am81bvsd64t1h6s2trok2ac49.png-60kB

  1. linux + windows 下的eclipse 开发
  2. hadoop 生态环境
  1. su - hadoop
  2. cd yangyang/flume/conf
vim test2.conf
  1. agent.sources = r1
  2. agent.sinks = k1
  3. agent.channels = c1
  4. ## common
  5. agent.sources.r1.channels = c1
  6. agent.sinks.k1.channel = c1
  7. ## sources config
  8. agent.sources.r1.type = exec
  9. agent.sources.r1.command = tail -F /home/hadoop/access.log
  10. ## channels config
  11. agent.channels.c1.type = memory
  12. agent.channels.c1.capacity = 1000
  13. agent.channels.c1.transactionCapacity = 1000
  14. agent.channels.c1.byteCapacityBufferPercentage = 20
  15. agent.channels.c1.byteCapacity = 1000000
  16. agent.channels.c1.keep-alive = 60
  17. #sinks config
  18. agent.sinks.k1.type = hdfs
  19. agent.sinks.k1.channel = c1
  20. agent.sinks.k1.hdfs.path = hdfs://namenode01.hadoop.com:8020/logs/%m/%d
  21. agent.sinks.k1.hdfs.fileType = DataStream
  22. agent.sinks.k1.hdfs.filePrefix = BF-%H
  23. agent.sinks.k1.hdfs.fileSuffix=.log
  24. agent.sinks.k1.hdfs.minBlockReplicas=1
  25. agent.sinks.k1.hdfs.rollInterval=3600
  26. agent.sinks.k1.hdfs.rollSize=132692539
  27. agent.sinks.k1.hdfs.idleTimeout=10
  28. agent.sinks.k1.hdfs.batchSize = 1
  29. agent.sinks.k1.hdfs.rollCount=0
  30. agent.sinks.k1.hdfs.round = true
  31. agent.sinks.k1.hdfs.roundValue = 2
  32. agent.sinks.k1.hdfs.roundUnit = minute
  33. agent.sinks.k1.hdfs.useLocalTimeStamp = true

    3. 启动flume 服务进行 日志收集

  1. cd /home/hadoop/yangyang/flume/
  2. bin/flume-ng agent --conf ./conf/ --conf-file ./conf/test2.conf --name agent

image_1am88qm4g18c1d401ere1sh21k4pm.png-65.7kB

去hadoop 的hdfs 上面查看是否有数据生成。

image_1am89ga3k1tvo19tr1fo0g151ojh13.png-61kB

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注