AI算力如何高速运转？华为云全球首发GPU加速型容器

2019-03-07 18:00:13 责任编辑：出处：[db:出处]

　　日前，华为云·云容器实例(CCI)全球首发基于K8S的serverless GPU加速型容器实例。这是继华为云在全球首发基于K8S的容器实例后，为容器实例服务提供更丰富的计算选择，给关注AI、视频处理等高性能计算的企业和开发者带来更多的玩法。

　　AI算力需求迎来爆发式增长

　　以AI场景为例，OpenAI发布研究报告，透露 2012 年到 2018 年 6 年间单次AI训练的计算量增加 30 万倍，这意味着训练计算量每3. 5 个月翻倍，是摩尔定律的 5 倍。同时，AI正在向各行各业普及，因此AI算力的需求会出现爆炸式增长。公有云因为低成本的硬件、无需关注基础设施、 0 交付周期的优势，是客户在有AI算力需求时是更好的选择。

　　随着容器技术逐渐被各个领域开发者接受，大家发现容器技术可以提供标准化的容器打包，解决AI场景中不同工具对环境的依赖。用户在搭建深度学习训练环境，需要准备带GPU的机器，安装python，tensorflow，GPU驱动等，如果要从开发环境到测试环境，再从测试环境到生成环境，涉及环境迁移过程中如何保证环境的一致性。然而容器带来的标准化打包能力可以提供了绝佳的解决方案，可以极大降低AI平台的复杂度，做到多训练框架并存、大幅简化生产环境部署。

　　目前K8S已经成为业界最主流的容器管理平台，它提供灵活的编排调度系统，可以满足大规模、高并发的AI分布式训练，大幅提高训练速度。因此，公有云GPU容器实例对AI用户的吸引力越来越高。

　　华为云·GPU加速型云容器实例

　　华为云·云容器实例本次发布的GPU加速型容器实例本质是在Serverless K8S的基础上提供GPU算力，这两个技术的结合给AI、基因、视频处理等场景带来不一样的体验。

　　免运维。相比传统租用云服务器、甚至自建IDC，GPU加速型容器实例无需客户维护集群、考虑集群的升级、社区bug修复、集群资源利用率等问题，直接购买和管理GPU容器实例。同时，CCI提供了可视化的pod CPU/MEM/GPU监控功能，可以实时监控处理过程，极大的简化运维成本。

　　高性能。华为云GPU加速型云容器实例支持秒级伸缩和高并发，kata容器启动速度实测600ms，集群规模高达上十万容器实例，让客户快速利用GPU实例实现分布式计算。例如，华为云EI使用该GPU容器实例，在斯坦福大学DAWNBench测试中取得前两名的好成绩，并达到0.8+的GPU线性加速比。