Kubeflow实战系列:阿里云上小试TFJob

  • 时间:
  • 浏览:3

为了正确处理这俩 难题报告 ,另一另2个新的资源类型TFJob,即TensorFlow Job被定义出来了。通过这俩 资源类

本系列将介绍咋样在阿里云容器服务上运行Kubeflow方案, 本文介绍咋样使用TfJob运行模型训练。

模型训练是机器学习最主要的实践场景,尤其以使用机器学习框架TensorFlow进行模型训练最为流行,但是 随着机器学习的平台由单机变成集群,这俩 难题报告 变得多样化了。GPU的调度和绑定,涉及到分布式训练的编排和集群规约属性的配置(cluster spec)也成了数据科学家们巨大的负担。

本文为云栖社区原创内容,未经允许不得转载,如需转载请发送邮件至yqeditor@list.alibaba-inc.com;可能您发现本社区蕴含涉嫌抄袭的内容,欢迎发送邮件至:yqgroup@service.aliyun.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。