As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá. # Envio de tarefas com o MIG **Topics** + [Usando o Kubernetes YAML](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-kubectl) + [Usando a HyperPod CLI](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-cli) + [Implantação do modelo com MIG](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-deployment) + [Usando a HyperPod CLI](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-hyperpod-cli) ## Usando o Kubernetes YAML ``` apiVersion: batch/v1 kind: Job metadata: name: mig-job namespace: default spec: template: spec: containers: - name: pytorch image: pytorch/pytorch:latest resources: requests: nvidia.com/mig-1g.5gb: 1 cpu: "100m" memory: "128Mi" limits: nvidia.com/mig-1g.5gb: 1 restartPolicy: Never ``` ## Usando a HyperPod CLI Use a HyperPod CLI para implantar JumpStart modelos com suporte MIG. O exemplo a seguir demonstra os novos parâmetros da CLI para particionamento de GPU: ``` # Deploy JumpStart model with MIG hyp create hyp-jumpstart-endpoint \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p5.48xlarge \ --accelerator-partition-type mig-2g.10gb \ --accelerator-partition-validation True \ --endpoint-name my-endpoint \ --tls-certificate-output-s3-uri s3://certificate-bucket/ \ --namespace default ``` ## Implantação do modelo com MIG HyperPod A inferência permite implantar os modelos em perfis MIG por meio do Studio Classic e `kubectl` da CLI. HyperPod Para implantar JumpStart modelos em`kubectl`, CRDs chame os campos `spec.server.acceleratorPartitionType` para implantar o modelo no perfil MIG desejado. Executamos validações para garantir que os modelos possam ser implantados no perfil MIG selecionado no CRD. Caso queira desativar as verificações de validação do MIG, use `spec.server.validations.acceleratorPartitionValidation` para`False`. ### JumpStart Modelos ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: JumpStartModel metadata: name: deepseek-model namespace: default spec: sageMakerEndpoint: name: deepseek-endpoint model: modelHubName: SageMakerPublicHub modelId: deepseek-llm-r1-distill-qwen-1-5b server: acceleratorPartitionType: mig-7g.40gb instanceType: ml.p4d.24xlarge ``` ### Implante o modelo do Amazon S3 usando InferenceEndpointConfig InferenceEndpointConfig permite que você implante um modelo personalizado do Amazon S3. Para implantar um modelo no MIG, `spec.worker.resources` mencione o perfil MIG em e. `requests` `limits` Consulte uma implantação simples abaixo: ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: s3 s3Storage: bucketName: my-model-bucket region: us-east-2 modelLocation: model-path worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1 ``` ### Implante o modelo do FSx for Lustre usando InferenceEndpointConfig InferenceEndpointConfig permite que você implante um modelo personalizado do FSx for Lustre. Para implantar um modelo no MIG, `spec.worker.resources` mencione o perfil MIG em e. `requests` `limits` Consulte uma implantação simples abaixo: ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: fsx fsxStorage: fileSystemId: fs-xxxxx modelLocation: location-on-fsx worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1 ``` ### Usando a interface do usuário do Studio Classic #### Implantação de JumpStart modelos com o MIG 1. Abra o **Studio Classic** e navegue até **JumpStart** 1. Procure ou pesquise o modelo desejado (por exemplo, "DeepSeek“, “Llama”, etc.) 1. Clique na placa do modelo e selecione **Implantar** 1. Na configuração de implantação: + Escolha **HyperPod**como alvo de implantação + Selecione seu cluster habilitado para MIG no menu suspenso + Em **Configuração de instância**: + Selecione o tipo de instância (por exemplo,`ml.p4d.24xlarge`) + Escolha o **tipo de partição de GPU** entre as opções disponíveis + Defina as configurações de **contagem de instâncias** e **escalonamento automático** 1. Revise e clique em **Implantar** 1. Monitore o progresso da implantação na seção **Endpoints** #### Opções de configuração do modelo **Configurações do endpoint:** + **Nome do endpoint** - identificador exclusivo para sua implantação + **Nome da variante** - Variante de configuração (padrão: AllTraffic) + **Tipo de instância:** deve ser compatível com a partição GPU (série p) + **Perfil MIG - partição** GPU + **Contagem inicial de instâncias** - Número de instâncias a serem implantadas + **Escalonamento automático** - Ative o escalonamento dinâmico com base no tráfego **Configuração avançada:** + **Localização dos dados do modelo** - Caminho do Amazon S3 para modelos personalizados + **Imagem do contêiner** - contêiner de inferência personalizado (opcional) + **Variáveis de ambiente** - configurações específicas do modelo + Configuração **do Amazon VPC - Configurações de** isolamento de rede #### Monitorando modelos implantados 1. **Navegue até **Studio Classic** > **Implantações > Endpoints**** 1. Selecione seu endpoint habilitado para MIG 1. Visualize métricas, incluindo: + **Utilização de MIG - Uso por partição** de GPU + **Consumo de memória** - Por partição de GPU + **Latência de inferência - Tempo de** processamento da solicitação + **Taxa de transferência** - Solicitações por segundo 1. Configure os ** CloudWatch alarmes da Amazon** para monitoramento automatizado 1. Configure políticas **de auto-scaling** com base na utilização do MIG ## Usando a HyperPod CLI ### JumpStart Implantação O JumpStart comando HyperPod CLI inclui dois novos campos para suporte ao MIG: + `--accelerator-partition-type`- Especifica a configuração MIG (por exemplo, mig-4g.20gb) + `--accelerator-partition-validation`- Valida a compatibilidade entre modelos e perfil MIG (padrão: verdadeiro) ``` hyp create hyp-jumpstart-endpoint \ --version 1.1 \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p4d.24xlarge \ --endpoint-name js-test \ --accelerator-partition-type "mig-4g.20gb" \ --accelerator-partition-validation true \ --tls-certificate-output-s3-uri s3://my-bucket/certs/ ``` ### Implantação personalizada de endpoints Para implantar via endpoint personalizado, use os campos existentes `--resources-requests` e habilite `--resources-limits` a funcionalidade do perfil MIG: ``` hyp create hyp-custom-endpoint \ --namespace default \ --metadata-name deepseek15b-mig-10-14-v2 \ --endpoint-name deepseek15b-mig-endpoint \ --instance-type ml.p4d.24xlarge \ --model-name deepseek15b-mig \ --model-source-type s3 \ --model-location deep-seek-15b \ --prefetch-enabled true \ --tls-certificate-output-s3-uri s3://sagemaker-bucket \ --image-uri lmcache/vllm-openai:v0.3.7 \ --container-port 8080 \ --model-volume-mount-path /opt/ml/model \ --model-volume-mount-name model-weights \ --s3-bucket-name model-storage-123456789 \ --s3-region us-east-2 \ --invocation-endpoint invocations \ --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \ --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \ --env '{ "OPTION_ROLLING_BATCH":"vllm", "SERVING_CHUNKED_READ_TIMEOUT":"480", "DJL_OFFLINE":"true", "NUM_SHARD":"1", "SAGEMAKER_PROGRAM":"inference.py", "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code", "MODEL_CACHE_ROOT":"/opt/ml/model", "SAGEMAKER_MODEL_SERVER_WORKERS":"1", "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600", "OPTION_TRUST_REMOTE_CODE":"true", "OPTION_ENABLE_REASONING":"true", "OPTION_REASONING_PARSER":"deepseek_r1", "SAGEMAKER_CONTAINER_LOG_LEVEL":"20", "SAGEMAKER_ENV":"1" }' ```