Hadoop+Spark中8088，18080，19888，4040端口页面的区别

在大数据技术栈中，Hadoop和Spark是最常用的两个组件，它们在分布式计算、大规模数据存储和处理方面具有重要地位。无论是在本地开发环境还是在生产环境中，理解这些技术的端口与管理页面是非常重要的。在本文中，我们将讨论Hadoop和Spark中常见的四个端口——8088、18080、19888和4040——以及它们的作用和管理页面的区别。我们还会提供一些场景和实例来帮助更好地理解这些端口。

一、背景介绍

Hadoop和Spark作为大数据的核心组成部分，通常都运行在集群模式下，且有多个Web管理界面用于监控和管理集群的状态、作业执行情况、资源分配等信息。每个端口都代表着不同的功能和用途，了解它们的区别有助于更有效地管理和调试集群。

Hadoop集群组件

Hadoop是一个开源的大数据处理框架，它的核心组成部分有：

HDFS：用于分布式存储数据。
YARN：资源管理和调度系统。
MapReduce：分布式计算模型。

Spark集群组件

Spark是一个快速、通用的计算引擎，支持批处理和流处理等任务。Spark通常部署在Hadoop集群上，利用Hadoop的HDFS和YARN进行资源管理。

二、端口及管理页面简介

在Hadoop和Spark的集群管理中，有多个Web界面用于监控集群的运行状况。不同的端口分别对应着不同的Web UI，以下是这些端口的作用和管理页面的简介：

1. 8088端口：Hadoop ResourceManager Web UI

端口8088是Hadoop YARN的ResourceManager管理页面的端口。YARN（Yet Another Resource Negotiator）是Hadoop的资源管理和作业调度系统，负责管理集群中的资源分配。ResourceManager是YARN的核心组件之一，负责管理所有资源的分配以及调度运行作业。

8088端口的功能：

查看集群的资源使用情况，包括内存和CPU资源。
查看各个应用程序的状态，包括正在运行、待运行、成功、失败等状态。
查看集群的健康状态，包括节点和应用的运行情况。
提供应用的详细日志和调度信息。

案例：
假设你在一个Hadoop集群上运行了多个MapReduce作业，你可以通过访问 http://<ResourceManager_host>:8088 来查看所有正在运行的作业，调度情况以及资源的使用情况。通过ResourceManager的Web UI，你可以查看每个作业的状态和日志，快速发现集群中可能的瓶颈或问题。

具体页面：

Applications：显示所有提交到集群的作业，可以查看作业的详细信息和日志。
Nodes：查看集群中各个节点的资源使用情况，帮助诊断节点的健康状态。
Scheduler：查看资源调度器的状态，帮助理解作业的资源分配情况。

2. 18080端口：Spark Web UI

端口18080是Spark的Web UI页面。Spark提供了强大的Web界面，帮助用户监控集群中各个Spark应用的执行情况。该界面不仅提供作业执行状态，还能展示每个作业的任务执行时间、内存使用等关键指标。

18080端口的功能：

查看Spark应用的执行状态和进度。
监控每个作业的详细信息，例如任务的执行时间、每个Stage的状态等。
查看作业的执行日志，帮助诊断问题。
查看集群的资源使用情况（包括内存和CPU的使用）。

案例：
如果你在Spark集群中运行了一个数据处理作业，可以通过访问 http://<Spark_master_host>:18080 来查看所有Spark应用的执行状态。你将能够看到该应用的各个阶段执行进度（Stage）、每个Task的执行时间以及集群的资源分配情况。这对于优化Spark作业和确保集群资源有效利用非常有帮助。

具体页面：

Jobs：查看所有Spark应用的作业执行情况，显示每个作业的完成情况和执行时间。
Stages：展示每个作业的Stage执行情况，帮助分析任务的执行效率。
Storage：查看缓存和持久化数据的状态。
Environment：显示Spark的配置信息。

3. 19888端口：Hadoop JobHistory Server Web UI

端口19888是Hadoop JobHistory Server的Web UI端口。JobHistory Server是Hadoop中用于存储和查询MapReduce作业历史信息的组件。当MapReduce作业完成后，作业的执行历史会被保存到JobHistory Server，用户可以通过该页面查看作业的详细历史数据，包括运行时间、输入输出数据量等信息。

19888端口的功能：

查看已完成的MapReduce作业的历史信息。
提供作业的详细执行日志，包括每个Task的执行时间、输出结果等。
分析作业执行过程中的瓶颈和错误信息，帮助优化作业。

案例：
假设你提交了一个复杂的MapReduce作业，该作业运行了很长时间，但最终失败。你可以通过访问 http://<JobHistory_host>:19888 来查看作业的执行历史，并查找作业失败的具体原因，如内存溢出、节点故障等。JobHistory Server的页面会显示每个Map和Reduce任务的执行详情。

具体页面：

Job History：显示作业的执行历史，包括每个作业的运行状态、执行时间和资源使用情况。
Tasks：展示每个Task的执行详细信息。
Counters：显示作业的统计信息，如输入输出数据量等。

4. 4040端口：Spark Driver Web UI

端口4040是Spark Driver Web UI的端口。每个Spark作业在集群中都会启动一个Driver进程，负责协调和管理整个作业的执行。Driver Web UI提供了关于作业执行的详细信息，包括任务的执行状态、内存使用情况等。

4040端口的功能：

查看Spark Driver的状态和作业的执行详情。
查看每个Stage和Task的执行时间、内存消耗等信息。
提供作业的日志和执行跟踪，帮助开发者调试Spark作业。

案例：
假设你正在本地提交一个Spark作业并需要调试该作业的执行。你可以通过访问 http://<Driver_host>:4040 来查看Driver的Web UI，获取作业的执行信息。你将能够看到Spark作业在集群中的执行情况，包括各个Stage的执行时间和资源使用情况。这对于优化Spark作业的性能至关重要。

具体页面：

Jobs：查看Spark作业的执行状态。
Stages：查看每个Stage的执行状态，包括任务的运行时间、数据传输情况等。
Storage：查看缓存数据的状态。
SQL：如果使用了Spark SQL，展示SQL查询的执行情况。

三、端口与页面的区别总结

从上述描述可以看出，这些端口对应着不同的组件和管理页面：

端口	组件/服务	功能说明	使用场景
8088	Hadoop ResourceManager	资源管理与作业调度，显示集群资源和应用信息。	查看集群资源使用情况、作业调度状态、资源分配情况。
18080	Spark Master	Spark应用管理，显示所有运行中的Spark应用信息。	查看Spark应用的执行情况、作业状态和执行日志。
19888	Hadoop JobHistory Server	查看MapReduce作业的历史信息，包括执行日志和任务统计。	分析和调试已完成的MapReduce作业的历史信息。
4040	Spark Driver	查看Spark Driver的执行信息，包括作业和任务的执行状态。	查看Spark作业执行情况，调试Driver端执行细节。

四、实际应用场景

1. 在调试作业时使用不同端口

假设你正在一个生产环境中调试一个复杂的Spark作业，在调试过程中，你可能会同时使用多个端口页面来帮助你理解问题所在。例如：

如果作业在执行过程中资源不足，可以通过8088端口的ResourceManager Web UI查看资源分配情况。
如果某个Stage运行特别慢，可以通过18080端口的Spark Web UI查看Stage执行的具体情况。
如果某个MapReduce作业运行失败，可以通过