

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 监控 AWS Batch 队列中的服务作业
<a name="monitor-sagemaker-job-queue"></a>

您可以使用和监控 SageMaker 训练作业队列中作业的状态`get-job-queue-snapshot`。`list-service-jobs`

查看队列中正在运行的作业：

```
aws batch list-service-jobs \
  --job-queue my-sm-training-fifo-jq \
  --job-status RUNNING
```

查看队列中正在等待的作业：

```
aws batch list-service-jobs \
  --job-queue my-sm-training-fifo-jq \
  --job-status RUNNABLE
```

查看已提交 SageMaker 但尚未运行的作业：

```
aws batch list-service-jobs \
  --job-queue my-sm-training-fifo-jq \
  --job-status SCHEDULED
```

获取队列中排名最前的作业快照：

```
aws batch get-job-queue-snapshot --job-queue my-sm-training-fifo-jq
```

此命令会显示队列中即将执行的服务作业的顺序。

## 获取详细的服务作业信息
<a name="describe-service-job"></a>

使用 [https://docs.aws.amazon.com/batch/latest/APIReference/API_DescribeServiceJob.html](https://docs.aws.amazon.com/batch/latest/APIReference/API_DescribeServiceJob.html) 操作可以获取有关特定服务作业的全面信息，包括其当前状态、服务资源标识符和详细尝试信息。

查看有关特定作业的详细信息：

```
aws batch describe-service-job \
  --job-id a4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d
```

此命令会返回有关此作业的全面信息，包括：
+ 作业 ARN 和当前状态
+ 服务资源标识符（例如 SageMaker 训练作业 ARN）
+ 调度优先级和重试配置
+ 包含原始服务参数的服务请求有效载荷
+ 详细尝试信息，包括启动和停止时间
+ 来自目标服务的状态消息

## 监控 SageMaker 培训作业
<a name="monitor-sagemaker-training-jobs"></a>

通过监控 SageMaker 训练作业时 AWS Batch，您可以访问 AWS Batch 作业信息和基础 SageMaker 培训作业详细信息。

任务详情中的服务资源标识符包含 SageMaker 训练作业 ARN：

```
{
  "latestAttempt": {
    "serviceResourceId": {
      "name": "TrainingJobArn",
      "value": "arn:aws:sagemaker:us-east-1:123456789012:training-job/my-training-job"
    }
  }
}
```

您可以使用此 ARN 直接从以下地址获取更多详情： SageMaker

```
aws sagemaker describe-training-job \
  --training-job-name my-training-job
```

通过检查 AWS Batch 状态和 SageMaker 训练作业状态来监控作业进度。 AWS Batch 作业状态显示整个作业生命周期，而 SageMaker 训练作业状态则提供有关训练过程的特定于服务的详细信息。