

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 監控 AWS Batch 佇列中的服務任務
<a name="monitor-sagemaker-job-queue"></a>

您可以使用 `list-service-jobs`、 和 來監控 SageMaker Training 任務佇列中任務的狀態`get-job-queue-snapshot`。

檢視佇列中正在執行的任務：

```
aws batch list-service-jobs \
  --job-queue my-sm-training-fifo-jq \
  --job-status RUNNING
```

檢視佇列中等待的任務：

```
aws batch list-service-jobs \
  --job-queue my-sm-training-fifo-jq \
  --job-status RUNNABLE
```

檢視已提交至 SageMaker 但尚未執行的任務：

```
aws batch list-service-jobs \
  --job-queue my-sm-training-fifo-jq \
  --job-status SCHEDULED
```

在佇列前面取得任務的快照：

```
aws batch get-job-queue-snapshot --job-queue my-sm-training-fifo-jq
```

此命令會顯示佇列中即將到來的服務任務順序。

## 取得詳細的服務任務資訊
<a name="describe-service-job"></a>

使用 [https://docs.aws.amazon.com/batch/latest/APIReference/API_DescribeServiceJob.html](https://docs.aws.amazon.com/batch/latest/APIReference/API_DescribeServiceJob.html)操作取得特定服務任務的完整資訊，包括其目前狀態、服務資源識別符和詳細的嘗試資訊。

檢視特定任務的詳細資訊：

```
aws batch describe-service-job \
  --job-id a4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d
```

此命令會傳回任務的完整資訊，包括：
+ 任務 ARN 和目前狀態
+ 服務資源識別符 （例如 SageMaker Training 任務 ARN)
+ 排程優先順序和重試組態
+ 包含原始服務參數的服務請求承載
+ 包含開始和停止時間的詳細嘗試資訊
+ 來自目標服務的狀態訊息

## 監控 SageMaker 訓練任務
<a name="monitor-sagemaker-training-jobs"></a>

透過 監控 SageMaker Training 任務時 AWS Batch，您可以同時存取 AWS Batch 任務資訊和基礎 SageMaker Training 任務詳細資訊。

任務詳細資訊中的服務資源識別符包含 SageMaker Training 任務 ARN：

```
{
  "latestAttempt": {
    "serviceResourceId": {
      "name": "TrainingJobArn",
      "value": "arn:aws:sagemaker:us-east-1:123456789012:training-job/my-training-job"
    }
  }
}
```

您可以使用此 ARN 直接從 SageMaker 取得其他詳細資訊：

```
aws sagemaker describe-training-job \
  --training-job-name my-training-job
```

透過檢查 AWS Batch 狀態和 SageMaker Training 任務狀態來監控任務進度。 AWS Batch 任務狀態會顯示整體任務生命週期，而 SageMaker Training 任務狀態則提供訓練程序的服務特定詳細資訊。