View a markdown version of this page

Lacak pemanfaatan kapasitas kerja layanan - AWS Batch

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Lacak pemanfaatan kapasitas kerja layanan

AWS Batch menyediakan beberapa operasi API yang dapat Anda gunakan bersama untuk melacak pemanfaatan kapasitas untuk pekerjaan layanan dalam antrian. Alur kerja pemantauan tergantung pada jenis kebijakan penjadwalan yang dilampirkan ke antrian pekerjaan Anda.

Untuk antrian pekerjaan yang menggunakan kebijakan penjadwalan first-in, first-out (FIFO):

  1. Periksa pemanfaatan antrian total ()GetJobQueueSnapshot.

  2. Daftar pekerjaan berdasarkan status, seperti SCHEDULED dan RUNNING (ListServiceJobs).

  3. Periksa setiap pekerjaan yang diberikan (DescribeServiceJob).

Untuk antrian pekerjaan yang menggunakan kebijakan penjadwalan pembagian adil (FSS) atau manajemen kuota (QM):

  1. Periksa pemanfaatan antrian total ()GetJobQueueSnapshot.

  2. Lihat pemanfaatan per saham (). GetJobQueueSnapshot

  3. Buat daftar pekerjaan berdasarkan status dan saham yang secara aktif berkontribusi pada pemanfaatan, seperti SCHEDULED dan RUNNING (ListServiceJobs).

  4. Periksa setiap pekerjaan yang diberikan (DescribeServiceJob).

Bagian berikut berjalan melalui setiap langkah secara rinci.

Untuk informasi tentang melacak pemanfaatan kapasitas untuk pekerjaan komputasi ECS, EKS, dan Fargate, lihat. Lacak pemanfaatan kapasitas kerja komputasi

Periksa pemanfaatan antrian

queueUtilizationBidang dalam GetJobQueueSnapshotrespons memberikan point-in-time pandangan tentang berapa banyak kapasitas komputasi yang dikonsumsi oleh pekerjaan yang dikirim dari antrian. Kapasitas diukur dalam jumlah contoh untuk pekerjaan layanan.

Untuk antrian pekerjaan yang menggunakan kebijakan penjadwalan pembagian adil atau manajemen kuota, responsnya juga mencakup rincian per saham sehingga Anda dapat melihat bagaimana kapasitas didistribusikan di seluruh saham. Untuk informasi selengkapnya, lihat Lihat pemanfaatan per saham.

Lihat pemanfaatan kapasitas ()AWS CLI

Gunakan get-job-queue-snapshotperintah untuk mengambil snapshot dari pemanfaatan kapasitas untuk antrian pekerjaan.

aws batch get-job-queue-snapshot \ --job-queue my-job-queue

Responsnya bervariasi tergantung pada kebijakan penjadwalan yang dilampirkan pada antrian pekerjaan Anda. Pilih tab untuk jenis kebijakan penjadwalan Anda untuk melihat contoh respons.

First-in, first-out (FIFO)

Berikut ini adalah contoh respons untuk antrian pekerjaan FIFO. Karena antrian FIFO tidak menggunakan kebijakan penjadwalan, responsnya tidak termasuk pemanfaatan per saham.

{ "frontOfQueue": { "jobs": [], "lastUpdatedAt": 1700000000000 }, "queueUtilization": { "totalCapacityUsage": [ { "capacityUnit": "ml.m5.large", "quantity": 9.0 } ], "lastUpdatedAt": 1700000000000 } }

Dalam contoh ini, antrian mengkonsumsi total 9 instance di semua pekerjaan yang dikirim.

Fair-share scheduling (FSS)

Berikut ini adalah contoh respons untuk antrian pekerjaan berbagi adil. queueUtilizationObjek berisi point-in-time snapshot dari total kapasitas yang dikonsumsi oleh semua pekerjaan yang dikirim dari antrian, bersama dengan rincian per saham.

{ "frontOfQueue": { "jobs": [], "lastUpdatedAt": 1700000000000 }, "queueUtilization": { "totalCapacityUsage": [ { "capacityUnit": "NUM_INSTANCES", "quantity": 9.0 } ], "fairshareUtilization": { "activeShareCount": 2, "topCapacityUtilization": [ { "shareIdentifier": "team-a", "capacityUsage": [ { "capacityUnit": "NUM_INSTANCES", "quantity": 5.0 } ] }, { "shareIdentifier": "team-b", "capacityUsage": [ { "capacityUnit": "NUM_INSTANCES", "quantity": 4.0 } ] } ] }, "lastUpdatedAt": 1700000000000 } }

Dalam contoh ini, totalCapacityUsage bidang menunjukkan bahwa antrian mengkonsumsi total 9 instance. fairshareUtilizationObjek menunjukkan rincian per saham. Bagian team-a mengkonsumsi 5 instance dan saham team-b mengkonsumsi 4 instance.

Quota management (QM)

Berikut ini adalah contoh respons untuk antrian pekerjaan manajemen kuota. queueUtilizationObjek berisi point-in-time snapshot dari total kapasitas yang dikonsumsi oleh semua pekerjaan yang dikirim dari antrian, bersama dengan gangguan. per-quota-share frontOfQuotaSharesObjek menunjukkan RUNNABLE pekerjaan pertama per pembagian kuota.

{ "frontOfQueue": { "jobs": [], "lastUpdatedAt": 1700000000000 }, "frontOfQuotaShares": { "quotaShares": { "team-a-share": [], "team-b-share": [] }, "lastUpdatedAt": 1700000000000 }, "queueUtilization": { "totalCapacityUsage": [ { "capacityUnit": "ml.m5.large", "quantity": 9.0 } ], "quotaShareUtilization": { "topCapacityUtilization": [ { "quotaShareName": "team-a-share", "capacityUsage": [ { "capacityUnit": "ml.m5.large", "quantity": 5.0 } ] }, { "quotaShareName": "team-b-share", "capacityUsage": [ { "capacityUnit": "ml.m5.large", "quantity": 4.0 } ] } ] }, "lastUpdatedAt": 1700000000000 } }

Dalam contoh ini, totalCapacityUsage bidang menunjukkan bahwa antrian mengkonsumsi total 9 instance. quotaShareUtilizationObjek menunjukkan per-quota-share kerusakan. Pembagian kuota team-a-share mengkonsumsi 5 instans dan pembagian team-b-share kuota mengkonsumsi 4 instans. frontOfQuotaSharesObjek menunjukkan RUNNABLE pekerjaan pertama untuk setiap pembagian kuota, bersama dengan waktu paling awal pekerjaan mencapai posisi itu.

Lihat pemanfaatan per saham

Untuk antrian pekerjaan dengan kebijakan penjadwalan pembagian adil atau manajemen kuota, queueUtilization respons dari GetJobQueueSnapshot menyertakan objek pemanfaatan dengan topCapacityUtilization array yang mencantumkan saham aktif teratas berdasarkan konsumsi.

Informasi ini membantu Anda:

  • Identifikasi saham mana yang paling banyak mengkonsumsi sumber daya.

  • Verifikasi bahwa sumber daya didistribusikan di seluruh saham seperti yang diharapkan.

  • Mendeteksi saham yang mungkin jenuh atau kurang memanfaatkan alokasi mereka.

  • Tentukan apakah akan menyesuaikan konfigurasi kebijakan penjadwalan Anda.

Untuk informasi selengkapnya tentang kebijakan penjadwalan berbagi adil, lihat. Kebijakan penjadwalan saham adil

Untuk informasi selengkapnya tentang pembagian kuota, lihatSaham kuota.

Buat daftar pekerjaan layanan berdasarkan status dan bagikan

Setelah Anda mengidentifikasi antrian keseluruhan dan pemanfaatan per saham, gunakan operasi ListServiceJobsAPI untuk menemukan pekerjaan layanan yang secara aktif berkontribusi terhadap pemanfaatan. Anda dapat memfilter berdasarkan status pekerjaan untuk melihat pekerjaan yangRUNNING,SCHEDULED, atau di negara bagian lain. Untuk antrian dengan kebijakan penjadwalan pembagian adil atau manajemen kuota, Anda juga dapat memfilter berdasarkan pengenal berbagi untuk mempersempit hasil ke pembagian tertentu.

catatan

QUOTA_SHARE_NAMEFilter SHARE_IDENTIFIER dan adalah satu-satunya filter yang dapat dikombinasikan dengan jobStatus parameter. Bila Anda menggunakan filter lain, jobStatus parameter diabaikan.

List service lowongan kerja (AWS CLI)

Gunakan list-service-jobsperintah dengan --job-status parameter untuk memfilter berdasarkan status.

Lihat pekerjaan layanan yang sedang berjalan di antrian Anda:

aws batch list-service-jobs \ --job-queue my-job-queue \ --job-status RUNNING

Untuk antrian dengan kebijakan penjadwalan berbagi adil, gunakan --filters parameter dengan daftar pekerjaan SHARE_IDENTIFIER untuk pembagian tertentu. Untuk antrian dengan kebijakan penjadwalan manajemen kuota, gunakan QUOTA_SHARE_NAME untuk membuat daftar pekerjaan untuk pembagian kuota tertentu. Ini berguna ketika Anda mengidentifikasi bagian dengan konsumsi kapasitas tinggi dan ingin melihat pekerjaan mana yang bertanggung jawab.

Buat daftar hanya pekerjaan RUNNING layanan untuk berbagi dari antrean berbagi adil:

aws batch list-service-jobs \ --job-queue my-job-queue \ --job-status RUNNING \ --filters name=SHARE_IDENTIFIER,values="team-a"

Untuk antrian dengan kebijakan penjadwalan manajemen kuota, gunakan filter: QUOTA_SHARE_NAME

aws batch list-service-jobs \ --job-queue my-job-queue \ --job-status RUNNING \ --filters name=QUOTA_SHARE_NAME,values="my-quota-share"

Berikut ini adalah contoh respons untuk daftar pekerjaan layanan yang sedang berjalan yang difilter oleh pengenal berbagi dalam antrean pembagian adil.

{ "jobSummaryList": [ { "jobArn": "arn:aws:batch:us-east-1:123456789012:service-job/a4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d", "jobId": "a4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d", "jobName": "my-training-job", "serviceJobType": "SAGEMAKER_TRAINING", "status": "RUNNING", "shareIdentifier": "team-a", "createdAt": 1700000000000, "scheduledAt": 1700000060000, "startedAt": 1700000120000, "capacityUsage": [ { "capacityUnit": "ml.m5.large", "quantity": 5.0 } ], "latestAttempt": { "serviceResourceId": { "name": "TrainingJobArn", "value": "arn:aws:sagemaker:us-east-1:123456789012:training-job/my-training-job" } } } ] }

Dalam contoh ini, respons menyertakan shareIdentifier bidang yang menunjukkan pekerjaan milik team-a share, dan capacityUsage array yang menunjukkan bahwa pekerjaan tersebut menghabiskan 5 ml.m5.large instance. latestAttemptObjek berisi pengenal sumber daya layanan yang dapat Anda gunakan untuk mendapatkan detail tambahan dari layanan target.

Periksa pekerjaan layanan tertentu

Setelah Anda mengidentifikasi pekerjaan layanan yang diminati, gunakan DescribeServiceJoboperasi untuk mendapatkan informasi komprehensif tentang pekerjaan tersebut, termasuk statusnya saat ini, pengidentifikasi sumber daya layanan, dan informasi upaya terperinci.

Lihat informasi terperinci tentang pekerjaan layanan tertentu:

aws batch describe-service-job \ --job-id a4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d

Perintah ini mengembalikan informasi komprehensif tentang pekerjaan, termasuk:

  • Job ARN dan status saat ini

  • Pengidentifikasi sumber daya layanan (seperti Arn pekerjaan SageMaker Pelatihan)

  • Prioritas penjadwalan dan coba lagi konfigurasi

  • Muatan permintaan layanan yang berisi parameter layanan asli

  • Informasi percobaan terperinci dengan waktu mulai dan berhenti

  • Pesan status dari layanan target

Periksa pekerjaan SageMaker Pelatihan yang mendasarinya

Saat memantau pekerjaan SageMaker Pelatihan AWS Batch, Anda dapat mengakses informasi AWS Batch pekerjaan dan detail pekerjaan SageMaker Pelatihan yang mendasarinya.

Pengidentifikasi sumber daya layanan dalam detail pekerjaan berisi ARN pekerjaan SageMaker Pelatihan:

{ "latestAttempt": { "serviceResourceId": { "name": "TrainingJobArn", "value": "arn:aws:sagemaker:us-east-1:123456789012:training-job/my-training-job" } } }

Anda dapat menggunakan ARN ini untuk mendapatkan detail tambahan langsung dari: SageMaker

aws sagemaker describe-training-job \ --training-job-name my-training-job

Pantau kemajuan pekerjaan dengan memeriksa AWS Batch status dan status pekerjaan SageMaker Pelatihan. Status AWS Batch pekerjaan menunjukkan siklus hidup pekerjaan secara keseluruhan, sedangkan status pekerjaan SageMaker Pelatihan memberikan detail spesifik layanan tentang proses pelatihan.