Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris. # Pengajuan Tugas dengan MIG **Topics** + [Menggunakan Kubernetes YAMM](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-kubectl) + [Menggunakan HyperPod CLI](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-cli) + [Penerapan Model dengan MIG](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-deployment) + [Menggunakan HyperPod CLI](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-hyperpod-cli) ## Menggunakan Kubernetes YAMM ``` apiVersion: batch/v1 kind: Job metadata: name: mig-job namespace: default spec: template: spec: containers: - name: pytorch image: pytorch/pytorch:latest resources: requests: nvidia.com/mig-1g.5gb: 1 cpu: "100m" memory: "128Mi" limits: nvidia.com/mig-1g.5gb: 1 restartPolicy: Never ``` ## Menggunakan HyperPod CLI Gunakan HyperPod CLI untuk menyebarkan JumpStart model dengan dukungan MIG. Contoh berikut menunjukkan parameter CLI baru untuk partisi GPU: ``` # Deploy JumpStart model with MIG hyp create hyp-jumpstart-endpoint \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p5.48xlarge \ --accelerator-partition-type mig-2g.10gb \ --accelerator-partition-validation True \ --endpoint-name {{my-endpoint}} \ --tls-certificate-output-s3-uri s3://{{certificate-bucket}}/ \ --namespace default ``` ## Penerapan Model dengan MIG HyperPod Inferensi memungkinkan penerapan model pada profil MIG melalui Studio Classic, dan `kubectl` CLI. HyperPod Untuk menerapkan JumpStart Model`kubectl`, CRD memiliki bidang yang dipanggil `spec.server.acceleratorPartitionType` untuk menyebarkan model ke profil MIG yang diinginkan. Kami menjalankan validasi untuk memastikan model dapat diterapkan pada profil MIG yang dipilih di CRD. Jika Anda ingin menonaktifkan pemeriksaan validasi MIG, gunakan untuk`spec.server.validations.acceleratorPartitionValidation`. `False` ### JumpStart Model ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: JumpStartModel metadata: name: deepseek-model namespace: default spec: sageMakerEndpoint: name: deepseek-endpoint model: modelHubName: SageMakerPublicHub modelId: deepseek-llm-r1-distill-qwen-1-5b server: acceleratorPartitionType: mig-7g.40gb instanceType: ml.p4d.24xlarge ``` ### Menerapkan model dari Amazon S3 menggunakan InferenceEndpointConfig InferenceEndpointConfig memungkinkan Anda untuk menyebarkan model kustom dari Amazon S3. Untuk menerapkan model di MIG, `spec.worker.resources` sebutkan profil MIG di dan. `requests` `limits` Lihat penerapan sederhana di bawah ini: ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: s3 s3Storage: bucketName: {{my-model-bucket}} region: {{us-east-2}} modelLocation: {{model-path}} worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1 ``` ### Terapkan model dari FSx for Lustre menggunakan InferenceEndpointConfig InferenceEndpointConfig memungkinkan Anda untuk menerapkan model kustom dari FSx for Lustre. Untuk menerapkan model di MIG, `spec.worker.resources` sebutkan profil MIG di dan. `requests` `limits` Lihat penerapan sederhana di bawah ini: ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: fsx fsxStorage: fileSystemId: {{fs-xxxxx}} modelLocation: {{location-on-fsx}} worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1 ``` ### Menggunakan UI Studio Classic #### Menerapkan JumpStart Model dengan MIG 1. Buka **Studio Classic** dan navigasikan ke **JumpStart** 1. Jelajahi atau cari model yang Anda inginkan (mis., "DeepSeek“, “Llama”, dll.) 1. Klik pada kartu model dan pilih **Deploy** 1. Dalam konfigurasi penerapan: + Pilih **HyperPod**sebagai target penyebaran + Pilih MIG-enabled klaster Anda dari dropdown + Di bawah **konfigurasi Instance**: + Pilih jenis contoh (mis.,`ml.p4d.24xlarge`) + Pilih **Jenis Partisi GPU** dari opsi yang tersedia + Konfigurasikan **jumlah dan **Auto-scaling**pengaturan Instance** 1. Tinjau dan klik **Deploy** 1. Pantau kemajuan penerapan di bagian **Endpoints** #### Opsi Konfigurasi Model **Pengaturan titik akhir:** + **Nama titik akhir** - Pengidentifikasi unik untuk penerapan Anda + **Nama varian** - Varian konfigurasi (default: AllTraffic) + **Jenis instans** - Harus mendukung partisi GPU (seri p) + **Profil MIG - partisi** GPU + **Jumlah instans awal** - Jumlah instance yang akan digunakan + **Auto-scaling**- Aktifkan penskalaan dinamis berdasarkan lalu lintas **Konfigurasi Lanjutan:** + **Lokasi data model** - jalur Amazon S3 untuk model kustom + **Gambar kontainer** - Wadah inferensi kustom (opsional) + **Variabel lingkungan** - Model-specific konfigurasi + **Konfigurasi Amazon VPC - Pengaturan** isolasi jaringan #### Memantau Model yang Diterapkan 1. **Arahkan ke **Studio Classic** > **Deployment > Endpoints**** 1. Pilih titik MIG-enabled akhir Anda 1. Lihat metrik termasuk: + **Pemanfaatan MIG** - Per penggunaan partisi GPU + **Konsumsi memori** - Per partisi GPU + **Latensi inferensi** - Minta waktu pemrosesan + **Throughput** - Permintaan per detik 1. Siapkan ** CloudWatch alarm Amazon** untuk pemantauan otomatis 1. Konfigurasikan kebijakan **auto-scaling berdasarkan pemanfaatan MIG** ## Menggunakan HyperPod CLI ### JumpStart Penyebaran JumpStart Perintah HyperPod CLI mencakup dua bidang baru untuk dukungan MIG: + `--accelerator-partition-type`- Menentukan konfigurasi MIG (misalnya, mig-4g.20gb) + `--accelerator-partition-validation`- Memvalidasi kompatibilitas antara model dan profil MIG (default: true) ``` hyp create hyp-jumpstart-endpoint \ --version 1.1 \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p4d.24xlarge \ --endpoint-name js-test \ --accelerator-partition-type "mig-4g.20gb" \ --accelerator-partition-validation true \ --tls-certificate-output-s3-uri {{s3://my-bucket/certs/}} ``` ### Penerapan Endpoint Kustom Untuk menerapkan melalui titik akhir kustom, gunakan bidang yang ada `--resources-requests` dan `--resources-limits` untuk mengaktifkan fungsionalitas profil MIG: ``` hyp create hyp-custom-endpoint \ --namespace default \ --metadata-name deepseek15b-mig-10-14-v2 \ --endpoint-name deepseek15b-mig-endpoint \ --instance-type ml.p4d.24xlarge \ --model-name deepseek15b-mig \ --model-source-type s3 \ --model-location deep-seek-15b \ --prefetch-enabled true \ --tls-certificate-output-s3-uri s3://{{sagemaker-bucket}} \ --image-uri lmcache/vllm-openai:v0.3.7 \ --container-port 8080 \ --model-volume-mount-path /opt/ml/model \ --model-volume-mount-name model-weights \ --s3-bucket-name {{model-storage-123456789}} \ --s3-region us-east-2 \ --invocation-endpoint invocations \ --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \ --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \ --env '{ "OPTION_ROLLING_BATCH":"vllm", "SERVING_CHUNKED_READ_TIMEOUT":"480", "DJL_OFFLINE":"true", "NUM_SHARD":"1", "SAGEMAKER_PROGRAM":"inference.py", "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code", "MODEL_CACHE_ROOT":"/opt/ml/model", "SAGEMAKER_MODEL_SERVER_WORKERS":"1", "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600", "OPTION_TRUST_REMOTE_CODE":"true", "OPTION_ENABLE_REASONING":"true", "OPTION_REASONING_PARSER":"deepseek_r1", "SAGEMAKER_CONTAINER_LOG_LEVEL":"20", "SAGEMAKER_ENV":"1" }' ```