[关闭]
@andrewwang 2017-02-20T10:01:32.000000Z 字数 881 阅读 692

数据为王

技术


AI

理解

人工智能技术没有什么神奇,大多数情况下都是人工智障。好的效果都要工程师一点一点打磨出来,有多少人工就有多少智能。控制开发成本,追求有限目标。创始人自己懂AI,就先招优秀的工程师,而不只招一堆科学家。

过去10年我们一直在做一件事,那就是打造移动优先的世界。
而在接下来的10年时间里,我们将转到一个AI优先的世界。——Google CEO Sundar Pichai,2016年10月

资料

斯坦福大学公开课 :机器学习课程_全20集
2016年不可错过的21个深度学习视频、教程和课程
初学者入门指南:深度学习的五级分类
初学者必读:从迭代的五个层面理解机器学习
程序员实用深度学习免费课程:从入门到实践
九本不容错过的深度学习和神经网络书籍
2016AI巨头开源IP盘点 50个最常用的深度学习库

扫盲

最小二乘法:最小平方
信息熵:系统有序化程度,越有序越低
支持向量机SVM
卷积神经网络CNN
数据分析扫盲 -- 1.传统数据分析
数据分析扫盲 -- 2.机器学习

QA

图中最凹点即为代价函数最优情况。单点的吧,怎么覆盖所有点?

思考

联想

学习现有知识,创造新知识
学习能力很弱

建模:特征值
自学:自动/人工提问和回答
纠错改进

方案

计算和存储分离

整体

流程

1.数据抓爬,清洗
2.保存到数据仓库
3.分析处理数据
4.业务系统提取数据到DB

系统架构及功能

整体()
抓取清洗系统():同时负责数据腐坏处理?
语义分析(析木):对数据仓库的数据做分析
数据仓库(同抓爬):提供业务系统对接接口

人员架构(参考百度的架构)

机器学习(集成应用)
深度学习(研究) 系统开发(研发)

数据分类

活动,信息

抓爬

python版本:https://scrapy.org/
java版本:webmagic

数据来源类型:微信,网页,API
技术核心:JS动态网页,防盗链,验证码登录

可配置可视化平台

清洗

语义分析

数据仓库

业务系统对接数据仓库的方法:获取从指定时间开始的新增data,处理,业务系统需检查data是否重复(已处理)。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注