@Vincent-Gao
2018-10-30T19:39:59.000000Z
字数 1693
阅读 1049
2018数据科学组培养方案
创新创业工作坊
信息与通信工程学院科协
数据科学
培养方案
- 大家好,首先欢迎大家加入工作坊的数据科学组,在接下来的一年里,希望大家能够在组里有所收获,收获到技术是最好,收获到队友也很好。
- 这篇文档主要有这么几个部分:首先是组里的要求以及一些注意事项;培养方案以及进度安排。
要求以及注意事项
- 首先是数据科学组半个月(或一个月)开一次组会,也就是给大家布置的任务,以及阶段性的学习目标都是以组会时间来推进度。
- 因为我个人的要求还是比较高,所以我对大家的要求也会比较严格,也不喜欢大家水我。
- 我的要求其实很简单:要走走,要留留;随时走,随时加。大家可以随时加入我的组,也可以随时离开我的组,我不会要求大家一定要搞这些,搞不搞全都是大家的兴趣。但是要搞就要好好搞,不要呆在组里又不搞事,这就不太好了。
- 每次开组会基本都会包含:
- 同学完成任务的分享
- 我对新的知识的讲解
- 新任务的布置(我会尽量让大家做有意思的事情,不同的事情)
培养计划以及进度安排
PART ONE : Python基础部分
1. 培养理念:
- Python作为一门比较优秀的高级程序语言,能够比较好的满足我们对数据处理以及数据分析的实现,本质上是语言是相y通的,不对大家所用的语言做任何的限制,除Python之外也可选择:JAVA,C++,R,Matlab等。所以大家一定要熟练掌握一门语言
2. 内容与任务:
- 完成数学科学SME杯的两道题(基础题 & 进阶题),要求方法必须经过优化。
- 小组复现LetterSpace
PART TWO : 数据挖掘概念与技术
1. 培养理念:
- 数据挖掘理论是数据科学的基础理论,为数据科学明确了研究方向以及衍生出来的研究领域。也是进入机器学习以及深度学习的门槛性理论知识。书籍以韩家炜老师的《数据挖掘概念与技术》为主,以周志华老师的《机器学习》为辅。
2. 内容与任务:
PART THREE : 实现整栈爬虫
1. 培养理念:
- 研究的基础是数据:一个好的研究结果和研究领域离不开高质量的数据集和高质量的数据标注工作。而且数据一定是一手数据:所以数据来源要么是开源数据集,要么是自己爬出来的数据。开源数据集用来解决基础理论性的问题。自己爬出来的数据用来解决应用型的问题。所以说数据的爬取是科研的第一步。
2. 内容与任务:
- 网易云音乐的歌词与评论
- 新浪微博博文的舆情数据
- 豆瓣电影、猫眼电影,时光网等电影网站的电影信息(评分,影评,票房数据)
- ......
PART FOUR : 机器学习
1. 培养理念:
- 机器学习是数据挖掘一个拓展与深入,主要研究的是分类问题,其中的方法是学习的重点。
2. 内容与任务:
PART FIVE : 深度学习
1. 培养理念:
- 深度学习其实是机器学习中的一种:神经网络。这一部分主要是向大家介绍一些较为基础的神经网络理论基础以及模型介绍。
2. 内容与任务:
PART SIX : 自然语言处理
1. 培养理念:
- 我们的培养方案结束在自然语言处理这里,实际上就是深度学习的一个实现领域。
2. 内容与任务:
- Word2Vec
- 论文阅读
- 卷积神经网络的自然语言处理上的应用
- ......