@Rays 2018-04-02T10:37:06.000000Z 字数 1351 阅读 2843

Booking.com是如何将Kubernetes用于机器学习的

机器学习 容器

摘要： 在今年的QCon伦敦大会上，Sahil Dua介绍了Booking.com是如何使用Kubernetes实现机器学习模型的扩展，为客户推荐目的地和住处。他重点展示了Kubernetes是如何通过容器的弹性和避免资源饥饿特性，帮助企业运行计算和数据密集的、难以并行处理的机器学习模型。

作者： Manuel Pais

正文：

Sahil Dua是Booking.com的一名开发人员。在今年的QCon伦敦大会上，他介绍了Booking.com是如何使用Kubernetes实现机器学习模型的扩展，为客户推荐目的地和住处。他重点展示了Kubernetes是如何通过容器的弹性和避免资源饥饿特性，帮助企业运行计算和数据密集的、难以并行处理的机器学习模型。

Kubernetes所提供的隔离性（进程不必竞争资源）、弹性（基于资源的消费情况而自动向上或向下扩展）、灵活性（具备快速测试软件库或架构的能力）和支持GPU（尽管Kubernetes对NVIDIA GPU的支持依然是Alpha版，但已经实现20到50倍的速度改进）等特性，对于以Booking.com的规模（每日约150万次房间预订，每月约4亿访客）运行大量的机器学习模型是十分关键的。下面的配置通过指定Pod所需的GPU资源，告知Kubernetes为节点调度一个GPU单元：

resources:
  limits:
    alpha.kubernetes.io/nvidia-gpu: 1

每个模型以无状态应用运行在一个容器中。但容器镜像中并不包括模型本身，而是在启动时从Hadoop获取。这使得镜像可以维持较小的规模，避免了每推出一个新模型，就要为此创建一个新的镜像，进而加速了模型的部署。模型一旦部署，就可通过REST API访问，Kubernetes将开始轮询容器是否准备好，可以接收预测请求，最终直至流量导向新的容器。

除了Kubernetes的自动扩展和负载均衡之外，Dua还介绍了Booking.com为优化模型延迟而采用的其它一些技术，就是保持模型加载在容器的内存中，并在启动容器后对模型做热身（即通过向Google的机器学习框架TensorFlow发送初始请求。TensorFlow的首轮运行通常比较慢）。但是并非所有请求均来自于运行中的系统，在一些情况下，可以预先计算预测情况并存储，以供其后使用。预先计算重在优化通量（即单位时间完成的工作量）。Dua指出，批处理请求和并行处理异步请求有助于降低网络开销，进而提高通量。

机器学习模型在提供给Booking.com做预测之前，需要使用一些预先挑选的数据进行训练。训练过程也是运行在Kubernetes架构上的。训练运行在容器的基础镜像中，但基础镜像中仅包含了训练所需的框架，例如TensorFlow和Torch等，它从Git代码库获取实际训练的代码。Dua强调，这种设计再次使得容器可维持较小的规模，避免了镜像随新版本代码而不断增殖。训练数据也是从Hadoop集群获取。一旦模型训练好（即完成训练工作负载），模型将导出到Hadoop。

查看英文原文： How Booking.com Uses Kubernetes for Machine Learning

Booking.com是如何将Kubernetes用于机器学习的

内容目录

选择主题