

# 控制台上的 AWS Glue 作业运行状态
<a name="view-job-runs"></a>

您可以查看 AWS Glue 提取、转换、加载（ETL）任务在运行时或停止后的状态。您可以使用 AWS Glue 控制台查看状态。

## 访问任务监控控制面板
<a name="monitoring-accessing-dashboard"></a>

您可以在 AWS Glue 导航窗格中的 **ETL 作业**下选择**作业运行监控**链接，以访问作业监控控制面板。

## 任务监控控制面板概览
<a name="monitoring-dashboard-overview"></a>

任务监控控制面板提供任务运行的总体摘要，以及状态 **Running (正在运行)**、**Canceled (已取消)**、**Success (成功)** 或者 **Failed (失败)**。其他磁贴提供总体任务运行成功率、任务的预估 DPU 使用率，以及按任务类型、工件类型和天细分的任务状态计数。

磁贴中的图形是交互式。您可以选择图形中的任意数据块来运行筛选条件，仅显示页面底部 **Job runs (任务运行)** 表中的任务。

您可以使用 **Date range (日期范围)** 选择器更改此页面上显示的信息的日期范围。更改日期范围时，信息磁贴会进行调整，显示代表当前日期之前指定天数的值。如果您从日期范围选择器中选择 **Custom (自定义)**，您还可以使用特定日期范围。

## 任务运行视图
<a name="monitoring-job-breakdown"></a>

**注意**  
 您可以在 90 天内访问工作流和任务运行的任务运行历史记录。

**Job runs (任务运行)** 资源列表显示符合指定日期范围和筛选条件的任务。

您可以根据其他条件（如状态、工件类型、任务类型和任务名称）筛选任务。在表格顶部的筛选条件框中，您可以输入要用作筛选条件的文本。当您输入文本时，将使用包含匹配文本的行更新表结果。

您可以从任务监控控制面板上的图形中选择元素，查看任务的子集。例如，如果您选择 **Job runs summary (任务运行摘要)** 磁贴中正在运行的任务的数量，则 **Job runs (任务运行)** 列表仅显示当前状态为 `Running` 的任务。如果您选择 **Worker type breakdown (工件类型细分)** 条形图，则 **Job runs (任务运行)** 列表中仅显示具有匹配工件类型和状态的任务运行。

**Job runs (任务运行)** 资源列表显示任务运行的详细信息。可以通过选择列标题对表中的行进行排序。此表包含以下信息：


| 属性 | 说明 | 
| --- | --- | 
| 作业名称 |  作业的名称。 | 
| Type |  任务环境的类型： [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/glue/latest/dg/view-job-runs.html)  | 
| 开始时间 |  此任务运行的启动日期和时间。  | 
| 结束时间 |  此任务运行的完成日期和时间。  | 
| 运行状态 |  任务运行的当前状态。值可以是： [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/glue/latest/dg/view-job-runs.html)  | 
| 运行时间 | 任务运行使用资源的时间长度（以秒为单位）。 | 
| 容量 |  此任务运行时可分配的 AWS Glue 数据处理单元（DPU）的最大数量。有关容量规划的更多信息，请参阅《AWS Glue 开发人员指南》**中的 [DPU 容量规划监控](https://docs.aws.amazon.com/glue/latest/dg/monitor-debug-capacity.html)。  | 
| Worker 类型 |  任务运行时分配的预定义工件的类型。值可以是 `G.1X`、`G.2X`、`G.4X` 或者 `G.8X`。 [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/glue/latest/dg/view-job-runs.html)  | 
| DPU 小时 |  任务运行使用的 DPU 的估计数量。DPU 是处理能力的相对衡量标准。DPU 用于确定任务运行成本。有关更多信息，请参阅 [AWS Glue 价格页面](https://aws.amazon.com/glue/pricing/)。  | 

您可以在列表中选择任何任务运行并查看其他信息。选择任务运行，然后执行以下任一操作：
+ 选择 **Actions (操作)** 菜单和 **View job (查看任务)** 选项，在可视化编辑器中查看任务。
+ 选择 **Actions (操作)** 菜单和 **Stop run (停止运行)** 选项，停止任务的当前运行。
+ 选择 **View CloudWatch logs (查看 CloudWatch 日志)** 按钮，查看该任务的任务运行日志。
+ 选择**查看详细信息**可查看“作业运行详细信息”页面。

## 查看任务运行日志
<a name="monitoring-job-run-logs"></a>

您可通过多种方式查看任务日志：
+ 在 **Monitoring (监控)** 页面中的 **Job runs (任务运行)** 表中，选择任务运行，然后选择 **View CloudWatch logs (查看 CloudWatch 日志)**。
+ 在可视化任务编辑器中，在任务的 **Runs (运行)** 选项卡上，选择超链接以查看日志：
  + **Logs (日志)** – 链接到为任务运行启用连续日志记录时写入的 Apache Spark 任务日志。当您选择此链接时，它会将您转到 `/aws-glue/jobs/logs-v2` 日志组中的 Amazon CloudWatch 日志。默认情况下，日志会排除无用的 Apache Hadoop YARN 检测信号和 Apache Spark 驱动程序或执行程序日志消息。有关连续日志记录的更多信息，请参阅的《AWS Glue 开发人员指南》**中的[连续日志记录 AWS Glue 任务](https://docs.aws.amazon.com/glue/latest/dg/monitor-continuous-logging.html)。
  + **Error logs (错误日志)** – 链接到写入此任务运行的 `stderr` 的日志。当您选择此链接时，它会将您转到 `/aws-glue/jobs/error` 日志组中的 Amazon CloudWatch 日志。您可以使用这些日志查看有关任务运行期间遇到的错误的详细信息。
  + **Output logs (输出日志)** – 链接到写入此任务运行的 `stdout` 的日志。当您选择此链接时，它会将您转到 `/aws-glue/jobs/output` 日志组中的 Amazon CloudWatch 日志。您可以使用这些日志，查看有关在 AWS Glue Data Catalog 中创建的表和遇到的错误的详细信息。

## 查看任务运行的详细信息
<a name="monitoring-job-run-details"></a>

您可以在 **Monitoring (监控)** 页面上的 **Job runs (任务运行)** 列表中选择任务，然后选择 **View run details (查看运行详细信息)**，查看该任务运行的详细信息。

任务运行详细信息页面上显示的信息包括：


| 属性 | 说明 | 
| --- | --- | 
| 作业名称 |  作业的名称。 | 
| 运行状态 |  任务运行的当前状态。值可以是： [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/glue/latest/dg/view-job-runs.html)  | 
| Glue 版本 | 作业运行使用的 AWS Glue 版本。 | 
| 最近的尝试 | 此作业运行的自动重试次数。 | 
| 开始时间 |  此任务运行的启动日期和时间。  | 
| 结束时间 |  此任务运行的完成日期和时间。  | 
| 开始时间 |  准备运行作业运行所花费的时间。  | 
| 执行时间 |  运行作业脚本花费的时间。  | 
| 触发器名称 |  与作业关联的触发器的名称。  | 
| 上次修改日期 |  上次修改作业的日期。  | 
| 安全配置 |  作业的安全配置，包括 Amazon S3 加密、CloudWatch 加密和作业书签加密设置。  | 
| 超时 | 作业运行超时阈值。 | 
| 已分配容量 |  此任务运行时可分配的 AWS Glue 数据处理单元（DPU）的最大数量。有关容量规划的更多信息，请参阅《AWS Glue 开发人员指南》**中的 [DPU 容量规划监控](https://docs.aws.amazon.com/glue/latest/dg/monitor-debug-capacity.html)。  | 
| 最大容量 |  任务运行可用的最大容量。  | 
| 工作线程数 | 作业运行所用的工作线程数。 | 
| Worker 类型 |  为任务运行分配的预定义工件的类型。值可以是 `G.1X` 或者 `G.2X`。 [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/glue/latest/dg/view-job-runs.html)  | 
| 日志 | 指向连续日志记录（/aws-glue/jobs/logs-v2）的作业日志链接  | 
| 输出日志 | 指向作业输出日志文件（/aws-glue/jobs/output）的链接。 | 
| 错误日志 | 指向作业错误日志文件（/aws-glue/jobs/error）的链接。 | 

您还可以查看以下附加项目，这些项目在您查看最近任务运行的信息时可用。有关更多信息，请参阅 [查看最近任务运行的信息](managing-jobs-chapter.md#view-job-run-details)。
+ **输入参数**
+ **连续日志**
+ **指标** – 您可以直观地查看基本指标。有关所包含指标的更多信息，请参阅 [查看 Spark 作业运行的 Amazon CloudWatch 指标](#monitoring-job-run-metrics)。
+ **Spark UI** – 您可以在 Spark UI 中直观地查看任务的 Spark 日志。有关使用 Spark Web UI 的更多信息，请参阅 [使用 Apache Spark Web UI 监控作业](monitor-spark-ui.md)。按照 [为 AWS Glue 作业启用 Apache Spark Web UI](monitor-spark-ui-jobs.md) 中描述的过程启用此功能。

## 查看 Spark 作业运行的 Amazon CloudWatch 指标
<a name="monitoring-job-run-metrics"></a>

在任务运行的详细信息页面上的 **Run details (运行详细信息)** 部分下面，您可以查看任务指标。AWS Glue Studio 将任务指标发送到 Amazon CloudWatch，用于每次任务运行。

AWS Glue 每 30 秒将指标报告到 Amazon CloudWatch AWS Glue 指标表示先前报告的值的增量值。在适当时，指标控制面板会聚合（合计）30 秒值以获取整个最后一分钟的值。但是，AWS Glue 传递给 Amazon CloudWatch 的 Apache Spark 指标通常是表示在报告它们时的当前状态的绝对值。

**注意**  
您必须配置您的账户才能访问 Amazon CloudWatch。

指标提供有关任务运行的信息，例如：
+ **ETL Data Movement (ETL 数据移动)** – 从 Amazon S3 中读取或向其中写入的字节数。
+ **Memory Profile: Heap used (内存配置文件：使用的堆)** – Java 虚拟机（JVM）堆使用的内存字节数。
+ **Memory Profile: heap usage (内存配置文件：堆使用情况)** – JVM 堆使用的内存所占的比例（比例：0–1）。
+ **CPU Load (CPU 负载)** – 使用的 CPU 系统负载所占的比例（比例：0–1）。

## 查看 Ray 作业运行的 Amazon CloudWatch 指标
<a name="monitoring-job-run-metrics-ray"></a>

在任务运行的详细信息页面上的 **Run details (运行详细信息)** 部分下面，您可以查看任务指标。AWS Glue Studio 将任务指标发送到 Amazon CloudWatch，用于每次任务运行。

AWS Glue 每 30 秒将指标报告到 Amazon CloudWatch AWS Glue 指标表示先前报告的值的增量值。在适当时，指标控制面板会聚合（合计）30 秒值以获取整个最后一分钟的值。但是，AWS Glue 传递给 Amazon CloudWatch 的 Apache Spark 指标通常是表示在报告它们时的当前状态的绝对值。

**注意**  
您必须配置您的账户才能访问 Amazon CloudWatch，如中所述。

在 Ray 作业中，您可以查看以下聚合指标图表。借助这些功能，您可以建立集群和任务的配置文件，也可以访问有关每个节点的详细信息。支持这些图表的时间序列数据可在 CloudWatch 中找到，以供进一步分析。

**任务配置文件：任务状态**  
显示系统中 Ray 任务的数量。每个任务生命周期都有自己的时间序列。

**任务配置文件：任务名称**  
显示系统中 Ray 任务的数量。仅显示待处理任务和活动任务。每种类型的任务（按名称）都有自己的时间序列。

**集群配置文件：正在使用的 CPU**  
显示使用的 CPU 内核数。每个节点都有自己的时间序列。节点由 IP 地址标识，IP 地址是临时的，仅用于识别。

**集群配置文件：对象存储内存使用情况**  
显示 Ray 对象缓存的内存使用情况。每个内存位置（物理内存、缓存在磁盘上以及溢出在 Amazon S3 中）都有自己的时间序列。对象存储管理集群中所有节点的数据存储。有关更多信息，请参阅 Ray 文档中的 [Objects](https://docs.ray.io/en/latest/ray-core/objects.html)。

**集群配置文件：节点数**  
显示为集群配置的节点数量。

**节点详细信息：CPU 使用情况**  
以百分比形式显示每个节点上的 CPU 使用率。每个系列都显示节点上所有内核的 CPU 使用率的汇总百分比。

**节点详细信息：内存使用情况**  
显示每个节点的内存使用情况（以 GB 为单位）。每个系列都显示节点上所有进程之间聚合的内存，包括 Ray 任务和 Plasma 存储进程。这不会反映存储到磁盘或溢出到 Amazon S3 的对象。

**节点详细信息：磁盘使用情况**  
显示每个节点的磁盘使用情况（以 GB 为单位）。

**节点详细信息：磁盘 I/O 速度**  
以 KB/s 为单位显示每个节点上的磁盘 I/O。

**节点详细信息：网络 I/O 吞吐量**  
以 KB/s 为单位显示每个节点上的网络 I/O。

**节点详细信息：Ray 组件的 CPU 使用情况**  
以所占核心的分数来显示 CPU 使用率。每个节点上的每个 ray 组件都有自己的时间序列。

**节点详细信息：Ray 组件的内存使用情况**  
以 GiB 为单位显示内存使用情况。每个节点上的每个 ray 组件都有自己的时间序列。