@sambodhi
2017-02-24T14:22:32.000000Z
字数 1655
阅读 1898
Google曾在2016年11月16日宣布,将于2017年初通过其云端(Google Cloud Platform)的公共云发布图形处理器(GPU)支持的虚拟机(VM)实例。
当时的市场背景是亚马逊网络服务(AWS),IBM SoftLayer和微软Azure过去都推出了支持GPU的虚拟机实例。谷歌希望凭借其按分钟而非小时计费的机制,和它提供的GPU多元化脱颖而出。用户可选择的GPU包括NVIDIA Tesla P100和Tesla K80,以及AMD FirePro S9300 x2。
而今天(2017年2月21日,InfoQ注),Google宣布,其云计算平台推出了支持云端GPU加速服务的公开测试版,目前支持的GPU是NVDIA Tesla K80,凭借GPU超强的计算力,云端的性能获得了大幅度的提升。
目前,用户现在可以使用gcloud命令行工具在云平台上的三个地区(us-east1、asia-east1和eurpo-west1)上创建基于NVIDIA GPU的虚拟机。
Google表示,下周他们将支持使用Cloud Console创建GPU虚拟机。
据在Google官网了解到的信息,如果用户需要额外的计算能力进行深度学习,最多可以将8个GPU(4块K80的板子)连接到自定义的Google Compute Engine虚拟机。GPU可以加速多种类型的计算分析,例如:视频和图像转码、地震分析、分子建模、基因组学、计算金融、模拟、高性能数据分析、计算化学、金融、流体动力学和可视化等等。
Google Compute Engine上的GPU是直接连接到虚拟机上的,提供了与裸机相同的性能。它不需要用户在自己的数据中心构建GPU集群,只需添加GPU到Google的云中的虚拟机即可。用户可以灵活地选择1、2、4或8块NVIDIA GPU来构建自己的服务器形态,从而使得服务器上的自定义虚拟机实例获得最佳性能。
用户可灵活构建服务器形态。
每块NVIDIA K80配有2,496个流处理器、12GB的GDDR5内存。
据称,这些实例支持流行的机器学习和深度学习的框架,如TensorFlow、Theano、Torch、MXNet和Caffe,以及NVIDIA流行的CUDA软件(用于构建GPU加速应用)。
费用也是用户很关心的问题。Google的云GPU很有竞争力,按分钟(至少10分钟)进行计费。在美国,连接到虚拟机的每个K80 GPU的价格为每小时0.70美元;在亚洲和欧洲,每个GPU每小时0.77美元。
用户选择Google云GPU的好处是,只需按使用的量支付费用,不需自己构建、维护一个GPU集群,就可以进行快速的深度学习和机器学习训练,而这些都是零资本投资的结果。
Google云GPU集成了Google云机器学习(Google Cloud Machine Learning,简写Cloud ML),帮助用户节省大规模使用TensorFlow框架训练机器学习模型所需的时间。现在,用户不需要花费几天时间在单台机器上用大量的图像数据集训练一个图像分类器,就可以在云机器学习中使用多个GPU执行分布式训练,大大缩短开发周期并快速迭代模型。
Google ML是一项托管服务,通过云计算工具(如Google Cloud Dataflow、Google BigQuery、Google Cloud Storage和Google Cloud Datalab)提供端到端培训和预测工作流。
Google建议用户先在小数据集上并训练TensorFlow模型开始,然后启动更大的云机器学习,用整个数据集训练模型,以充分利用Google云GPU的规模和性能。有关Cloud ML的更多信息,请参阅《快速入门指南》并开始使用,查看《Using GPUs for Training Models in the Cloud》这篇文档以深入了解Google云GPU。用户还可以使用gcloud命令行来创建VM,并开始尝试TensorFlow加速机器学习。