TensorFlowonYarn：深度学习遇上大数据.pdf

立即下载 作者: 咿呀哟
上传时间: 2024-04-20
关键词: TensorFlow 资源管理现状学习深度 2222 Yarn 数据作业
大小 2.4 MB
描述

   深度学习 +大数据
TensorFlow on Yarn
李远策
2017年4月17日
内容大纲
 TensorFlow使用现状及痛点
 TensorFlow on Yarn设计
 TensorFlow on Yarn技术细节揭秘
 深度学习平台演进及SparkFlow介绍
背景
坐标：360-系统部-大数据团队
专业：Yarn、Spark、MR、HDFS …
挑战：深度学习空前火爆，各种深度学习框架层出不穷，业务部
门拥抱新兴技术。平台怎么应对？
机遇：Maybe 深度学习 + 大数据
TensorFlow使用现状及痛点
场景（1）
场景（2）
TensorFlow使用现状及痛点
tf.train.ClusterSpec({
“worker”: [
“worker0.example.com:2222”,
“worker1.example.com:2222”,
“worker2.example.com:2222”
],
“ps”: [
“ps0.example.com:2222”,
“ps1.example.com:2222”
]})
分布式版本ClusterSpec定义：
带来的问题：
•手动指定机器很繁琐
•端口冲突
•机器负载不均
TensorFlow使用现状及痛点
• 手动分发训练样本
• 手动拉取训练模型
TensorFlow使用现状及痛点
• 多人多服务器使用混乱，计算资源如何划分？
• 没有GPUs集群资源管理和调度（内存、CPU、GPU、端口
），集群资源负载不均
• 训练数据手动分发，训练模型手动保存
• 进程遗留问题，需要手动杀死
• 缺乏作业统一管理，不便对作业运行状态跟踪
• 日志查看不方便
总结：
TensorFlow使用现状及痛点
• 集群资源的管理（目前支持CPU、内存，需要扩展GPU资
源管理）
• 作业的统一管理、状态跟踪
• 资源组（Schedule Pool）的划分
• 作业进程的资源隔离
Yarn能解决什么问题：
TensorFlow on Yarn设计
• 同时支持单机和分布式TensorFlow程序
• 支持GPU资源管理和调度
• 不再需要手动配置CluserSpec信息，仅需要设置work和ps

目录
TensorFlow/资源/管理/现状/学习/深度/2222/Yarn/数据/作业/ TensorFlow/资源/管理/现状/学习/深度/2222/Yarn/数据/作业/

-1 条回复

登录后才能参与评论