TensorFlowonYarn:深度学习遇上大数据.pdf


立即下载 咿呀哟
2024-04-20
TensorFlow 资源 管理 现状 学习 深度 2222 Yarn 数据 作业
2.4 MB

深度学习 +大数据
TensorFlow on Yarn
李远策
2017年4月17日
内容大纲
 TensorFlow使用现状及痛点
 TensorFlow on Yarn设计
 TensorFlow on Yarn技术细节揭秘
 深度学习平台演进及SparkFlow介绍
背景
坐标:360-系统部-大数据团队
专业:Yarn、Spark、MR、HDFS …
挑战:深度学习空前火爆,各种深度学习框架层出不穷,业务部
门拥抱新兴技术。平台怎么应对?
机遇:Maybe 深度学习 + 大数据
TensorFlow使用现状及痛点
场景(1)
场景(2)
TensorFlow使用现状及痛点
tf.train.ClusterSpec({
“worker”: [
“worker0.example.com:2222”,
“worker1.example.com:2222”,
“worker2.example.com:2222”
],
“ps”: [
“ps0.example.com:2222”,
“ps1.example.com:2222”
]})
分布式版本ClusterSpec定义:
带来的问题:
•手动指定机器很繁琐
•端口冲突
•机器负载不均
TensorFlow使用现状及痛点
• 手动分发训练样本
• 手动拉取训练模型
TensorFlow使用现状及痛点
• 多人多服务器使用混乱,计算资源如何划分?
• 没有GPUs集群资源管理和调度(内存、CPU、GPU、端口
),集群资源负载不均
• 训练数据手动分发,训练模型手动保存
• 进程遗留问题,需要手动杀死
• 缺乏作业统一管理,不便对作业运行状态跟踪
• 日志查看不方便
总结:
TensorFlow使用现状及痛点
• 集群资源的管理(目前支持CPU、内存,需要扩展GPU资
源管理)
• 作业的统一管理、状态跟踪
• 资源组(Schedule Pool)的划分
• 作业进程的资源隔离
Yarn能解决什么问题:
TensorFlow on Yarn设计
• 同时支持单机和分布式TensorFlow程序
• 支持GPU资源管理和调度
• 不再需要手动配置CluserSpec信息,仅需要设置work和ps


TensorFlow/资源/管理/现状/学习/深度/2222/Yarn/数据/作业/ TensorFlow/资源/管理/现状/学习/深度/2222/Yarn/数据/作业/
-1 条回复
登录 后才能参与评论
-->