我是Spark,Hadoop和Yarn的初学者。我安装Spark:https://spark.apache.org/docs/2.3.0/和Hadoop / Yarn:HTTPS://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common / …
您需要在YARN中找到Spark驱动程序容器,或者从Spark UI中找到它。从那里,您可以转到Executors选项卡,您将看到 stdout 和 stderr 每个链接(加上,最终输出的驱动程序)。
stdout
stderr
加班,YARN将逐出这些日志,这就是为什么你需要启用日志聚合并部署Spark History Server的原因。
FWIW,Cloudera将在最近的公告中全面关注在Kubernetes上运行Spark。不确定YARN(或者带有Ceph或者HD的HDFS是这些部署的流行数据存储区)的说法
我遇到了同样的问题,最后能够在执行以下步骤后检查“Pi大约是3.14 ...”:
首先通过添加这些行来在每个节点中启用纱线日志聚合 yarn-site.xml
yarn-site.xml
<property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <property> <name>yarn.nodemanager.log-aggregation.roll-monitoring-interval-seconds</name> <value>3600</value> </property>
修改yarn-site.xml后,您可能需要重新启动yarn和dfs
然后通过命令行检查日志:
yarn logs -applicationId <applicationID>
”/>
希望能帮助到你。
您必须将控制台输出写入文件,这样做会将您正在执行的spark程序的输出写入文件中,您可以使用 的 尾巴-f 100 强> 在...上 的 consoleoutfile.txt 强> 下面提到看你的控制台输出。
./submit_command > local_fs_path/consoleoutfile.txt 2>&1
您可以使用资源管理器和应用程序ID使用相同的视图 或者通过使用以下命令,您将获得应用程序的整个日志 运用 yarn logs -applicationId 申请ID