InfoQ播客:Vowpal Wabbit,其创建者John Langford,在MSN中的使用,以及机器学习在工业界的应用
摘要:无疑当前机器学习及应用是备受关注的。在本期播客中,QCon主席Wes Reiszt对话机器学习专家及Vowpal Wabbit系统的创建者John Langford。对话中谈论了如何了解和掌握机器学习技术、当前机器学习的实践、热点及发展趋势。
作者:Wesley Reisz
本周的InfoQ播客内容是QCon主席Wes Reiszt与机器学习科学家John Langford之间的谈话。话题包括John Langford所创建的机器学习系统Vowpal Wabbit。Vowpal Wabbit设计为特别高效的机器学习系统,其中集成了一些机器学习领域最新算法,并已应用于MSN的新闻个性化。他们还讨论了如何在进入到机器学习领域,以及机器学习如何从学术研究中转向工业应用中。
关键要点:
- Vowpal Wabbit是一种机器学习系统,力图实现对一些最新的机器学习算法的集成。
- 如何学习机器学习:选学一到两门课程,熟悉机器学习的理论和实践。
- 机器学习已从研究领域转向工业实践。在ICML会议的九个专题讲座中,其中的四个是来自于工业界。
- 即使具有了足够的数据,依然难以做到预测。
- AlphaGo是人工智能的一个里程碑。它使用了强化学习、深度学习,以及围棋大师的实战棋谱。
- 当前深度学习是计算机视觉和语音识别等领域的颠覆性技术。
- 趋势是什么:神经网络、强化学习和情境学习。
- 机器学习技术正在商品化。
点击播客链接收听
摘要
对Vowpal Wabbit的概要描述
- 1分38秒:Vowpal Wabbit(VW)旨在将最新的机器学习技术集成到算法中。
- 2分04秒:对于实现从K个类别中择一的预测算法,当K的数值很大时,现有算法的计算代价很大。为改进该问题,VW将包含一种称为“回调树”(Recall Tree)的次线性算法。(译者注:相关研究可参考该预发表论文)
- 3分08秒:在单机上VW可达百兆数据输入在不到一秒时间内的接收。VW中的学习算法默认采用的是线性回归方法。相比于朴素贝叶斯方法,线性回归方法更加强大。
- 3分32秒:VW使用“实例装配流水线”的方法加速了解析,使得运算时间得到改进。
- 4分04秒:Langford也在Qcon纽约大会上做了一个介绍VW的报告。在报告中,他通过给出一些实例展示了VW的工作方式。
- 4分25秒,VW已与其它的技术一起应用于个性化新闻推荐系统中的决策服务。
- 4分34秒:在MSN中已部署了基于VW构建的新闻推荐系统,该系统的上线已使用户参与度增长了25%。
- 4分58秒:事实上,Vowpal Wabbit是卡通人物猎人埃尔默·福德(Elmer Fudd)称呼兔八哥时的发音(Vorpal Rabbit)。“Vorpal”一词意为“非常地锋利”,出自“无意义的文字游戏”(Jabberwocky)。Jabberwocky是一首由单词组成的没有特别意义的诗,对诗本身的理解取决于诗中单词的使用方式。“Wabbit”一词来源于电影“Killer Rabbit”,电影讲述一些人在找寻圣杯时遇上了一只十分特别的兔子。
如何走进机器学习
机器学习实践
- 7分38秒:相比于十年前而言,机器学习在工业界得到了更广泛的应用。
- 7分58秒:在ICML机器学习国际会议上,来自于工业界的与会者比例很高,九个专题讲座中的四个是来自于工业界,并且是其中最受欢迎的。
- 8分35秒:机器学习是搜索和广告等工业领域的关键技术。
- 9分00秒:机器学习已被用于控制中,例如,对种植或灌溉作物最佳时机的决策。
当具备足够的数据时
- 12分23秒:机器学习算法输入的表示方式和特征选取是十分重要的。
- 13分00秒:很难说什么时候数据才是足够的。尽量基于你所拥有的数据建立模型,进而在模型中添加更多的数据,并对模型改进情况进行观察。当时间或经费不足时,接受当前所得到的模型。
人工智能与围棋
- 14分23秒:在最艰难的比赛之一中,AlphaGo战胜了最好的人类围棋选手,这是对于机器学习和人工智能领域而言是一个里程碑事件。它标记了人工智能的进展,而非解决了人工智能的问题。
- 15分02秒:为实现这样的结果,AlphaGo组合使用了已有的技术。它使用蒙特卡洛树进行搜索,从所有可能的走法中随机选择一个。它是一个快速算法。
- 16分54秒:AlphaGo使用了强化学习、深度学习和围棋大师所下过的棋谱。
深度学习
- 17分39秒:当前深度学习是计算机视觉、语音识别等领域的颠覆性技术。
- 17分50秒:在2012年的一个图像识别竞赛中,使用深度学习的方法最终胜出,此后每年深度学习方法都在改进。它已达到了人类的误差水平,对一些类型的图像具有与人类同样的识别能力。
趋势
- 9分36秒:在ICML会议所接纳的332篇论文中,56篇是关于神经网络的,这显示了该研究方向的重要性。强化学习及优化表现方向的研究也同样受到重视。
- 18分37秒:将会出现新的深度学习应用。
- 18分50秒:强化学习和情境学习对于处理因果关系是十分重要的技术。
- 20分20秒:机器学习已近乎成为商业化的服务。Amazon、Google、 Microsoft等公司已经提供了机器学习服务。
其中提到的人士和公司
其中提到的产品
关于QCon大会
QCon是由InfoQ主办的全球顶级技术盛会,由业内人士推动,专为在团队中影响软件创新的技术团队主管、架构师以及项目经理而设计。QCon每年的七场大会分别在伦敦、纽约、旧金山、圣保罗、北京、上海和东京召开。QCon旧金山市大会已经举办到第十届,今年将于11月7日至11日期间举行,届时会有100多名业内专家作为演讲嘉宾,并有1300名与会者以及18个涉及如今推动软件开发发展的专题追踪报道。想要了解更多详情,请参见qconsf.com网站。
更多关于播客的信息
你可以通过RSS订阅我们的播客,或者通过SoundCloud和iTunes收听。本页所列出的播客摘要内容均附有可点击链接,点击后可直接切换到音频的相关部分。
查看英文原文:The InfoQ Podcast: John Langford on Vowpal Wabbit, Used by MSN, and Machine Learning in Industry