我们有许多distcp作业将数据从主群集复制到备份群集。这些工作全天运行并复制几乎所有关键数据库表。我们在这里使用webhdfs。
其中一些工作……
调整distcp性能时我通常会看到三件事;
'-m'选项允许您指定使用的地图任务的数量,可以说的最大同时副本数。尝试运行副本几次并逐渐增加此数字,以查看哪种方法最适合您的方案。
您可以使用“-strategy dynamic”标志运行DistCp作业,该标志将“动态”调整地图大小,使得更快或响应更快的节点能够比较慢或繁忙的节点复制更多数据。您可以在DistCp手册中阅读更多相关信息。
看起来你已经尝试过'-bandwidth'选项,但我想在这里提一下它,因为它绝对是一个重要的因素。如果您的网络允许,请尝试进一步增加此功能。