Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Note di rilascio per la libreria di parallelismo dei SageMaker modelli
Consultate le seguenti note di rilascio per tenere traccia degli ultimi aggiornamenti per la libreria SageMaker Model Parallelism (SMP). Se hai altre domande sulla libreria SMP, contatta il team di assistenza SMP all’indirizzo sm-model-parallel-feedback@amazon.com.
La libreria di SageMaker parallelismo dei modelli v2.8.0
Data: 01 aprile 2025
Aggiornamenti della libreria SMP
Correzioni di bug
-
Il clipping della norma del gradiente di SMP ora supporta l’offload di attivazione.
Container Docker ed Enroot di SMP
Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se utilizzi la classe PyTorch estimator in SageMaker Python SDK e specifichi la configurazione di distribuzione per utilizzare SMP v2 SageMaker , AI preleva automaticamente i contenitori SMP Docker. Per utilizzare questa versione di SMP v2, aggiorna il tuo SageMaker Python SDK a o versioni successive. v2.243.0
Aggiornamenti sulla valuta
-
È stato aggiunto il supporto per la versione 2.5.1 PyTorch
-
Supporto CUDA aggiornato alla v12.4
-
Supporto NCCL aggiornato alla v2.23.4
-
Libreria SMDDP aggiornata alla v2.6.0
Dettagli container
-
Contenitore SMP Docker per PyTorch v2.5.1 con CUDA v12.4
658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.5.1-gpu-py311-cu124 -
Contenitore SMP Enroot per v2.5.1 con CUDA v12.4 PyTorch
https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.5.1-gpu-py311-cu124.sqsh -
Pacchetti preinstallati
-
Libreria SMP v2.8.0
-
Libreria SMDDP v2.6.0
-
CUDNN v9.4.0
-
FlashAttention v2.5.8
-
TransformerEngine v1.10
-
Megatron v0.8.0
-
Hugging Face Transformers v4.44.2
-
Libreria Hugging Face Datasets v2.19.0
-
EFA v1.36.0
-
NCCL v2.23.4
-
AWS-OFI-NCCL v1.13.2
-
Canale Conda di SMP
Il seguente bucket S3 è il canale Conda pubblico della libreria SMP ospitata dal team di assistenza SMP. Se desideri installare la libreria SMP v2 in un ambiente come SageMaker HyperPod i cluster, usa questo canale Conda per installare correttamente la libreria SMP.
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Per ulteriori informazioni sui canali Conda in generale, consulta Canali
La libreria di parallelismo dei modelli v2.7.0 SageMaker
Data: 04 dicembre 2024
Aggiornamenti della libreria SMP
Nuove funzionalità
-
Aggiunta del supporto per SageMaker HyperPod ricette.
Container Docker ed Enroot di SMP
Il team della libreria SMP distribuisce i contenitori Docker ed Enroot in sostituzione dei contenitori del framework. SageMaker PyTorch Se si utilizza la classe PyTorch estimator in SageMaker Python SDK e si specifica la configurazione di distribuzione per utilizzare SMP v2 SageMaker, preleva automaticamente i contenitori SMP Docker. Per utilizzare questa versione di SMP v2, aggiorna il tuo SageMaker Python SDK a o versioni successive. v2.237.0
Dettagli container
-
Contenitore SMP Docker per v2.4.1 con CUDA v12.1 PyTorch
658645717510.dkr.ecr.<us-west-2>.smdistributed-modelparallel:2.4.1-gpu-py311-cu121 -
Contenitore SMP Enroot per v2.4.1 con CUDA v12.1 PyTorch
https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh -
Pacchetti preinstallati
-
Libreria SMP v2.7.0
-
Libreria SMDDP v2.5.0
-
CUDNN v9.4.0
-
FlashAttention v2.5.8
-
TransformerEngine v1.10
-
Megatron v0.8.0
-
Hugging Face Transformers v4.44.2
-
Libreria Hugging Face Datasets v2.19.0
-
EFA v1.32.0
-
NCCL v2.21.5
-
Canale Conda di SMP
Il seguente bucket S3 è il canale Conda pubblico della libreria SMP ospitata dal team di assistenza SMP. Se desideri installare la libreria SMP v2 in un ambiente Conda come SageMaker HyperPod i cluster, usa questo canale Conda per installare correttamente la libreria SMP.
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Per ulteriori informazioni sui canali Conda in generale, consulta Canali
La libreria di parallelismo dei modelli v2.6.1 SageMaker
Data: 31 ottobre 2024
Aggiornamenti della libreria SMP
Correzioni di bug
-
Risoluzione di un problema
ImportErrorche si verificava durante l’utilizzo di script di addestramento precedenti con SMP v2.6.0. Questo corregge l’incompatibilità con le precedenti versioni di SMP v2.6.0. -
Aggiunta di un
DeprecationWarningpertorch.sagemaker.distributed.fsdp.checkpoint. Questo modulo diventerà obsoleto e sarà rimosso in SMP v2.7.0. Se al momento stai utilizzandotorch.sagemaker.distributed.fsdp.checkpointnel tuo codice, dovresti pianificare l’aggiornamento degli script prima del rilascio di SMP v2.7.0 per evitare problemi futuri. -
Risoluzione di un problema di compatibilità con le versioni precedenti identificato in SMP v2.6.0. Questo problema era correlato all’obsolescenza del metodo di checkpoint
USE_PG_WITH_UTILin SMP v2.6.0, che comprometteva la compatibilità con le versioni precedenti degli script di addestramento. Per risolvere questo problema, esegui nuovamente i lavori di PyTorch formazione per ritirare il contenitore SMP più recente fornito con SMP v2.6.1.
Container Docker di SMP
Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se utilizzi la classe PyTorch estimator in SageMaker Python SDK e specifichi la configurazione di distribuzione per utilizzare SMP v2 SageMaker , AI preleva automaticamente i contenitori SMP Docker.
Dettagli container
-
Contenitore SMP Docker per v2.4.1 con CUDA v12.1 PyTorch
658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 -
Pacchetti preinstallati
-
Libreria SMP v2.6.1
-
Libreria SMDDP v2.5.0
-
CUDNN v9.4.0
-
FlashAttention v2.5.8
-
TransformerEngine v1.10
-
Megatron v0.8.0
-
Hugging Face Transformers v4.44.2
-
Libreria Hugging Face Datasets v2.19.0
-
EFA v1.32.0
-
NCCL v2.21.5
-
Canale Conda di SMP
Il seguente bucket S3 è il canale Conda pubblico della libreria SMP ospitata dal team di assistenza SMP. Se desideri installare la libreria SMP v2 in un ambiente di risorse di calcolo altamente personalizzabili come SageMaker HyperPod i cluster, usa questo canale Conda per installare correttamente la libreria SMP.
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Per ulteriori informazioni sui canali Conda in generale, consulta Canali
La libreria di parallelismo dei modelli v2.6.0 SageMaker
Data: 17 ottobre 2024
Aggiornamenti della libreria SMP
Nuove funzionalità
-
Aggiunta del supporto per le seguenti configurazioni del modello LLM. Puoi iniziare a utilizzare Parallelizzazione del contesto e Parallelizzazione tensoriale.
-
Aggiunta del supporto di Parallelizzazione tensoriale per le seguenti configurazioni del modello Mixtral.
-
È stato aggiunto il supporto per un'implementazione AllGather basata sul parallelismo di contesto che utilizza il collettivo di AllGather comunicazione per ottenere la sequenza completa di tensori. key-and-value Le implementazioni disponibili sono
p2peall_gather. L'p2pimplementazione utilizza chiamate di peer-to-peer invio e ricezione per l'accumulo di tensori key-and-value (KV) durante il calcolo dell'attenzione, eseguite in modo asincrono e consentono la sovrapposizione della comunicazione con il calcolo. L’implementazioneall_gatherutilizza invece l’operazione collettiva di comunicazioneAllGatherper l’accumulo di tensori KV. Per informazioni su come applicare l’implementazione della parallelizzazione del contesto, consulta Parallelizzazione del contesto. -
Aggiunta del supporto per l’ottimizzazione del valore theta del Rotary Position Embedding (RoPE).
Correzioni di bug
-
Risoluzione di un bug che impediva la corretta inizializzazione del Rotary Position Embedding (RoPE) durante il preaddestramento quando il parametro di ritardo era abilitato.
Problemi noti
-
Transformer Engine attualmente non supporta il parallelismo contestuale o la funzionalità Sliding Window Attenzione abilitata. FP8 Pertanto, la versione SMP dei trasformatori Mistral non supporta il parallelismo di contesto o l' FP8 addestramento quando la configurazione della finestra scorrevole è impostata su un valore non nullo.
Container Docker di SMP
Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se utilizzi la classe PyTorch estimator in SageMaker Python SDK e specifichi la configurazione di distribuzione per utilizzare SMP v2 SageMaker , AI preleva automaticamente i contenitori SMP Docker.
Aggiornamenti sulla valuta
-
Aggiornato alla v2.4.1 PyTorch
-
Megatron aggiornato alla v0.8.0
-
È stata aggiornata la libreria alla v1.10 TransformerEngine
-
Transformer aggiornati alla v4.44.2
-
cuDNN aggiornato alla v9.4.0.58
Dettagli container
-
Contenitore SMP Docker per v2.4.1 con CUDA v12.1 PyTorch
658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 -
Pacchetti preinstallati
-
Libreria SMP v2.6.0
-
Libreria SMDDP v2.5.0
-
CUDNN v9.4.0
-
FlashAttention v2.5.8
-
TransformerEngine v1.10
-
Megatron v0.8.0
-
Hugging Face Transformers v4.44.2
-
Libreria Hugging Face Datasets v2.19.0
-
EFA v1.32.0
-
NCCL v2.21.5
-
Canale Conda di SMP
Il seguente bucket S3 è il canale Conda pubblico della libreria SMP ospitata dal team di assistenza SMP. Se desideri installare la libreria SMP v2 in un ambiente di risorse di calcolo altamente personalizzabili come SageMaker HyperPod i cluster, usa questo canale Conda per installare correttamente la libreria SMP.
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Per ulteriori informazioni sui canali Conda in generale, consulta Canali
La libreria di parallelismo dei modelli v2.5.0 SageMaker
Data: 28 agosto 2024
Aggiornamenti della libreria SMP
Nuove funzionalità
-
È stato aggiunto il supporto per l'addestramento a precisione mista utilizzando il formato FP8 dati su istanze P5 per il modello Mixtral.
-
Le configurazioni Mixtral supportate sono 8x7B e 8x22B. Per ulteriori informazioni, consulta Addestramento di precisione misto con nessuna istanza P5 utilizzando Transformer Engine FP8.
-
-
Aggiunta del supporto per Parallelizzazione del contesto per le seguenti configurazioni di modello.
-
Llama-v2: 7B e 70B
-
Llama-v3: 8B e 70B
-
GPT-NeoX: 20B
-
-
Aggiunta del supporto per il salvataggio asincrono dei checkpoint. Per ulteriori informazioni, consulta Checkpointing con SMP.
-
Supporto per il salvataggio diretto dei checkpoint su S3 senza utilizzare Amazon EBS o file server.
-
Correzioni di bug
-
Risoluzione di un problema che causava una perdita iniziale inaspettatamente elevata durante il fine-tuning di Llama durante il caricamento di un checkpoint del modello preaddestrato e l’utilizzo della parallelizzazione tensoriale.
Note
-
Per utilizzare il checkpoint di attivazione per Mixtral con precisione FP8 mista, dovrai controllare separatamente i livelli Attenzione ed Esperto. Per un esempio di configurazione corretta, consulta lo script di formazione di esempio
nel repository Amazon SageMaker AI Examples.
Problemi noti
-
Il tipo di bilanciamento del carico bilanciato nella configurazione MoE (torch.sagemaker.moe.moe_config.MoEConfig) è attualmente incompatibile con il checkpoint di attivazione.
-
Con la parallelizzazione del contesto, GPT-NeoX mostra una regressione delle prestazioni sia durante il preaddestramento che durante il fine-tuning.
-
Per quanto riguarda GPT-NeoX su istanze P4, il caricamento diretto dei pesi da un modello trasformato inizializzato con il parametro di ritardo in un modello di trasformatore Hugging Face comporta una discrepanza nelle perdite durante la prima fase.
Container Docker di SMP
Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se utilizzi la classe PyTorch estimator in SageMaker Python SDK e specifichi la configurazione di distribuzione per utilizzare SMP v2 SageMaker , AI preleva automaticamente i contenitori SMP Docker. Per utilizzare questa versione di SMP v2, aggiorna il tuo SageMaker Python SDK alla versione 2.224.0 o successiva.
Aggiornamenti sulla valuta
-
FlashAttention È stata aggiornata la libreria alla versione 2.5.8
-
Libreria Transformer Engine aggiornata alla v1.8
Dettagli container
-
Contenitore SMP Docker per v2.3.1 con CUDA v12.1 PyTorch
658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121Per un elenco completo delle aree supportate, vedere Regioni AWS.
-
Pacchetti preinstallati
-
Libreria SMP v2.5.0
-
Libreria SMDDP v2.3.0
-
CUDNN v8.9.7.29
-
FlashAttention v2.5.8
-
TransformerEngine v1.8
-
Megatron v0.7.0
-
Hugging Face Transformers v4.40.1
-
Libreria Hugging Face Datasets v2.19.0
-
EFA v1.32.0
-
NCCL v2.21.5
-
Canale Conda di SMP
Il seguente bucket S3 è il canale Conda pubblico della libreria SMP ospitata dal team di assistenza SMP. Se desideri installare la libreria SMP v2 in un ambiente di risorse di calcolo altamente personalizzabili come SageMaker HyperPod i cluster, usa questo canale Conda per installare correttamente la libreria SMP.
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Per ulteriori informazioni sui canali Conda in generale, consulta Canali
La libreria di parallelismo dei modelli v2.4.0 SageMaker
Data: 20 giugno 2024
Aggiornamenti della libreria SMP
Correzioni di bug
-
Correzione di un bug che causava forme di logit errate quando le etichette non venivano passate in avanti durante l’utilizzo di SMP Transformer.
Aggiornamenti sulla valuta
-
È stato aggiunto il supporto per la versione 2.3.1. PyTorch
-
Aggiunta del supporto per Python v3.11.
-
Aggiunta del supporto per la libreria Hugging Face Transformers v4.40.1.
Deprecazioni
-
Interruzione del supporto per Python v3.10.
-
Interruzione del supporto per le versioni della libreria Hugging Face Transformers precedenti alla v4.40.1.
Altre modifiche
-
Inclusione di una patch per attivare il salvataggio di tensori deduplicati in diverse classificazioni. Per saperne di più, consulta il thread di discussione nel repository.
PyTorch GitHub
Problemi noti
-
È noto che la perdita potrebbe aumentare e poi riprendere a un valore di perdita più elevato durante il fine-tuning di Llama-3 70B con la parallelizzazione tensoriale.
Container Docker di SMP
Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se utilizzi la classe PyTorch estimator in SageMaker Python SDK e specifichi la configurazione di distribuzione per utilizzare SMP v2 SageMaker , AI preleva automaticamente i contenitori SMP Docker. Per utilizzare questa versione di SMP v2, aggiorna il tuo SageMaker Python SDK alla versione 2.224.0 o successiva.
Aggiornamenti sulla valuta
-
Libreria SMDDP aggiornata alla v2.3.0.
-
Libreria NCCL aggiornata alla v2.21.5.
-
Software EFA aggiornato alla v1.32.0.
Deprecazioni
-
Interruzione dell’installazione della libreria Torch Distributed Experimental (torchdistX)
.
Dettagli container
-
Contenitore SMP Docker per v2.3.1 con CUDA v12.1 PyTorch
658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121 -
Pacchetti preinstallati
-
Libreria SMP v2.4.0
-
Libreria SMDDP v2.3.0
-
CUDNN v8.9.7.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Hugging Face Transformers v4.40.1
-
Libreria Hugging Face Datasets v2.19.0
-
EFA v1.32.0
-
NCCL v2.21.5
-
Canale Conda di SMP
Il seguente bucket S3 è il canale Conda pubblico della libreria SMP ospitata dal team di assistenza SMP. Se desideri installare la libreria SMP v2 in un ambiente di risorse di calcolo altamente personalizzabili come SageMaker HyperPod i cluster, usa questo canale Conda per installare correttamente la libreria SMP.
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Per ulteriori informazioni sui canali Conda in generale, consulta Canali
La libreria di parallelismo dei modelli v2.3.1 SageMaker
Data: 9 maggio 2024
Correzioni di bug
-
Risoluzione di un problema
ImportErrorrelativo all’utilizzo dimoe_load_balancing=balancedin torch.sagemaker.moe.moe_config.MoEConfig per la parallelizzazione degli esperti. -
Risoluzione di un problema di fine-tuning nei casi in cui la chiamata torch.sagemaker.transform generava un
KeyErrorquandoload_state_dict_from_rank0era abilitato. -
È stato corretto un errore out-of-memory (OOM) che si verificava durante il caricamento di modelli Mixture of Experts (MoE) di grandi dimensioni, come Mixtral 8x22B, per la messa a punto.
Container Docker di SMP
Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Questa versione incorpora le correzioni di bug sopra citate nella seguente immagine Docker di SMP.
-
Contenitore SMP Docker per v2.2.0 con CUDA v12.1 PyTorch
658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
La SageMaker libreria di parallelismo dei modelli v2.3.0
Data: 11 aprile 2024
Nuove funzionalità
-
Aggiunta di una nuova funzionalità di base, la parallelizzazione degli esperti, per supportare i modelli di trasformatori Mixture of Experts. Per ulteriori informazioni, consulta Parallelizzazione degli esperti.
Container Docker di SMP
Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se si utilizza la classe PyTorch estimator in SageMaker Python SDK e si specifica la configurazione di distribuzione per utilizzare SMP v2 SageMaker , preleva automaticamente i contenitori SMP Docker. Per utilizzare questa versione di SMP v2, aggiorna il tuo SageMaker Python SDK alla versione 2.214.4 o successiva.
-
Contenitore SMP Docker per v2.2.0 con CUDA v12.1 PyTorch
658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121-
Pacchetti preinstallati in questo container Docker
-
Libreria SMDDP v2.2.0
-
CUDNN v8.9.5.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Hugging Face Transformers v4.37.1
-
Libreria Hugging Face Datasets v2.16.1
-
Megatron-core 0.5.0
-
EFA v1.30.0
-
NCCL v2.19.4
-
-
La libreria di SageMaker parallelismo dei modelli v2.2.0
Data: 7 marzo 2024
Nuove funzionalità
-
È stato aggiunto il supporto per l'FP8 addestramento dei seguenti modelli di trasformatori Hugging Face su istanze P5 con integrazione Transformer Engine:
-
GPT-NeoX
-
Llama 2
-
Correzioni di bug
-
Risoluzione di un bug per cui non era garantito che i tensori fossero contigui prima della chiamata collettiva
AllGatherdurante l’addestramento per la parallelizzazione tensoriale.
Aggiornamenti valutari
-
È stato aggiunto il supporto per la PyTorch versione 2.2.0.
-
Libreria SMDDP aggiornata alla v2.2.0.
-
È stata aggiornata la FlashAttention libreria alla v2.3.3.
-
Libreria NCCL aggiornata alla v2.19.4.
Raggiunta obsolescenza
-
Interruzione del supporto per le versioni di Transformer Engine precedenti alla v1.2.0.
Problemi noti
-
La funzionalità Offload di attivazione di SMP al momento non funziona. Utilizzate invece l'offload di PyTorch attivazione nativo.
Altre modifiche
-
È stata inclusa una patch per correggere la regressione delle prestazioni discussa nel thread del problema all'indirizzo https://github.com/pytorch/pytorch/issues/117748
nel repository. PyTorch GitHub
Container Docker di SMP
Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se utilizzi la classe PyTorch estimator in SageMaker Python SDK e specifichi la configurazione di distribuzione per utilizzare SMP v2 SageMaker , AI preleva automaticamente i contenitori SMP Docker. Per utilizzare questa versione di SMP v2, aggiorna il tuo SageMaker Python SDK alla versione 2.212.0 o successiva.
-
Contenitore SMP Docker per v2.2.0 con CUDA v12.1 PyTorch
658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121-
Disponibile per istanze P4d, P4de e P5
-
Pacchetti preinstallati in questo container Docker
-
Libreria SMDDP v2.2.0
-
CUDNN v8.9.5.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Hugging Face Transformers v4.37.1
-
Libreria Hugging Face Datasets v2.16.1
-
EFA v1.30.0
-
NCCL v2.19.4
-
-
La libreria di SageMaker parallelismo dei modelli v2.1.0
Data: 6 febbraio 2024
Aggiornamenti valutari
-
È stato aggiunto il supporto per la PyTorch versione 2.1.2.
Raggiunta obsolescenza
-
Interruzione del supporto per Hugging Face Transformers v4.31.0.
Problemi noti
-
Rilevamento di un problema in cui il fine-tuning di Hugging Face Llama 2 con
attn_implementation=flash_attention_2e FSDP causa la divergenza del modello. Per riferimento, consulta il ticket di emissione nel repositoryHugging Face Transformers. GitHub Per evitare il problema della divergenza, utilizza attn_implementation=sdpa. In alternativa, utilizza l’implementazione del modello di trasformatore SMP configurandouse_smp_implementation=True.
Container Docker di SMP
Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se si utilizza la classe PyTorch estimator in SageMaker Python SDK e si specifica la configurazione di distribuzione per utilizzare SMP v2 SageMaker , preleva automaticamente i contenitori SMP Docker. Per utilizzare questa versione di SMP v2, aggiorna il tuo SageMaker Python SDK alla versione 2.207.0 o successiva.
-
Contenitore SMP Docker per v2.1.2 con CUDA v12.1 PyTorch
658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121-
Disponibile per istanze P4d, P4de e P5
-
Pacchetti preinstallati in questo container Docker
-
Libreria SMDDP v2.1.0
-
CUDNN v8.9.5.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Hugging Face Transformers v4.37.1
-
Libreria Hugging Face Datasets v2.16.1
-
EFA v1.30.0
-
-
Canale Conda di SMP
Il seguente bucket S3 è un canale Conda pubblico ospitato dal team di assistenza SMP. Se desideri installare la libreria SMP v2 in un ambiente di risorse di calcolo altamente personalizzabili come SageMaker HyperPod i cluster, usa questo canale Conda per installare correttamente la libreria SMP.
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Per ulteriori informazioni sui canali Conda in generale, consulta Canali
La libreria di parallelismo dei modelli v2.0.0 SageMaker
Data: 19 dicembre 2023
Nuove funzionalità
È stata rilasciata la libreria SageMaker Model Parallelism (SMP) v2.0.0 con le seguenti nuove offerte.
-
Un pacchetto
torch.sagemakercompletamente rinnovato rispetto al pacchettosmdistributed.modelparallel.torchprecedente di SMP v1.x. -
Support per PyTorch 2.0.1.
-
Support per PyTorch FSDP.
-
Implementazione della parallelizzazione tensoriale mediante integrazione con la libreria Transformer Engine
. -
Support sia per la SageMaker formazione che per SageMaker HyperPod.
Modifiche rivoluzionarie
-
SMP v2 ha APIs completamente rinnovato e fornisce il pacchetto.
torch.sagemakerIn generale, è sufficiente eseguire l’inizializzazione con il modulotorch.sagemaker.init()e passare i parametri di configurazione della parallelizzazione dei modelli. Questo nuovo pacchetto consente di semplificare significativamente le modifiche al codice nello script di addestramento. Per ulteriori informazioni sull’adattamento dello script di addestramento per utilizzare SMP v2, consulta Usa la libreria di parallelismo dei SageMaker modelli v2. -
Se hai addestrato i modelli Hugging Face Transformer con SMP v1 e desideri riutilizzarli in SMP v2, consulta Aggiornamento da SMP v1 a SMP v2.
-
Per la formazione PyTorch su FSDP, è necessario utilizzare SMP v2.
Problemi noti
-
Attualmente, il checkpoint di attivazione funziona solo con le policy di wrapping con FSDP indicate di seguito.
-
auto_wrap_policy = functools.partial(transformer_auto_wrap_policy, ...)
-
-
Per utilizzare Offload di attivazione, il tipo di checkpoint di attivazione FSDP deve essere REENTRANT
. -
Durante l’esecuzione con la parallelizzazione dei tensori abilitata con il grado parallelo dei dati sottoposti a sharding impostato su
1, è necessario utilizzarebackend = nccl. In questo scenario, l’opzione di backendsmddpnon è supportata. -
Transformer Engine
deve essere utilizzato PyTorch con la libreria SMP anche quando non si utilizza il parallelismo tensoriale.
Altre modifiche
-
A partire da questa versione, la documentazione per la libreria di parallelismo dei SageMaker modelli è completamente disponibile in questa Amazon SageMaker AI Developer Guide. A favore di questa guida completa per gli sviluppatori per SMP v2 nella Amazon SageMaker AI Developer Guide, il riferimento aggiuntivo per SMP v1.x
nella documentazione di SageMaker Python SDK è obsoleto. Se hai ancora bisogno della documentazione per SMP v1.x, la guida per sviluppatori per SMP v1.x è disponibile all'indirizzo (Archiviata) Libreria SageMaker Model Parallelism v1.x e il riferimento alla libreria SMP Python v1.x è disponibile nella documentazione di Python SDK v2.199.0. SageMaker
Deprecazioni
-
Supporto interrotto per. TensorFlow
-
In SMP v2 non è previsto il supporto per la parallelizzazione delle pipeline.
-
Non è disponibile alcun supporto per la DeepSpeed libreria a favore del formato PyTorch FSDP nativo.
Container Docker di SMP
Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se utilizzi la classe PyTorch estimator in SageMaker Python SDK e specifichi la configurazione di distribuzione per utilizzare SMP v2 SageMaker , AI preleva automaticamente i contenitori SMP Docker. Per utilizzare questa versione di SMP v2, aggiorna il tuo SageMaker Python SDK alla versione 2.207.0 o successiva.
-
Contenitore SMP Docker per v2.0.1 con CUDA v12.1 PyTorch
658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121