Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Optimisation des capacités, des limites et des coûts
Amazon Bedrock propose des options de capacité flexibles adaptées à vos exigences en matière de charge de travail et à votre budget. Comprendre les différences entre les niveaux à la demande (Flex, Priority, Standard), les niveaux réservés, le traitement par lots et l'inférence entre régions vous permet d'optimiser à la fois les performances et les coûts.
Options de capacité
| Type de capacité | Cas d’utilisation | Principales caractéristiques |
|---|---|---|
| À la demande : Flex | Charges de travail sporadiques et peu volumineuses |
|
| À la demande : Standard | Charges de travail de production régulières |
|
| À la demande : priorité | Applications hautement prioritaires et sensibles à la latence |
|
| Niveau réservé | Charges de travail cohérentes et volumineuses |
|
| Par lots | non-time-sensitiveTraitement à grande échelle |
|
| Inférence interrégionale | Haute disponibilité, trafic intense |
|
Limites et quotas
Limites à la demande (par niveau)
| Tier | Plage de tours par minute | Gamme TPM | Risque d'étranglement |
|---|---|---|---|
| Flex | 10 à 100 | 5 À 50 000 | Élevée |
| Standard | 100-500 | 50 À 150 000 | Moyenne |
| Priority | 500-1000+ | 150 À 300 K+ | Faible |
Capacité de rafale : disponible sur tous les niveaux pour les pointes courtes
Limites souples : augmentables via des demandes de quotas de service
Spécifique au modèle : les limites réelles varient selon le modèle de fondation
Limites des niveaux réservés
Engagement minimum : 1 unité modèle
Nombre maximum d'unités : spécifiques au compte et à la région
Limites de jetons d'entrée/sortie : basées sur les unités achetées
Aucune limitation du régime par minute dans les limites de la capacité achetée
Limites de traitement par lots
Taille du job : jusqu'à 10 000 enregistrements par lot
Taille du fichier : 200 Mo de fichier d'entrée maximum
Temps de traitement : fenêtre de traitement de 24 heures
Emplois simultanés : quotas spécifiques à la région
Inférence interrégionale
Hérite des limites de niveau à la demande par région
Aucune surcharge supplémentaire liée aux quotas
Routage automatique (aucune gestion manuelle des limites)
Optimisation des coûts
Cadre décisionnel
| Scénario | Option recommandée | Pourquoi |
|---|---|---|
| Développement/test | Flex | Coût le plus bas, acceptable pour la non-production |
| Production standard | Standard | Meilleur équilibre coût-performance |
| Applications critiques destinées aux utilisateurs | Priority | Fiabilité et performance par rapport aux coûts |
| Charge volumique élevée et constante | Niveau réservé | 30 à 50 % d'économies avec engagement |
| Traitement de données en masse | Par lots | 50 % de discount, charges de travail non urgentes |
| Temps de disponibilité critique | Inférence interrégionale | Disponibilité > coût |
Stratégies d'optimisation
Choisissez le bon niveau à la demande
Commencez par la norme pour la plupart des charges de travail
Rétrograder vers Flex pour les environnements dev/test
Passez à la priorité uniquement lorsque la limitation a un impact sur les utilisateurs
Surveillez les indicateurs d' CloudWatch accélération pour prendre des décisions éclairées
Transition vers le niveau réservé
Lorsque la charge constante dépasse 40 % des coûts à la demande
Calculez le seuil de rentabilité : (coût mensuel à la demande) ou (engagement réservé)
Utilisez un engagement d'un mois dans un premier temps
Le niveau réservé peut fonctionner parallèlement à n'importe quel niveau à la demande
Tirez parti de Batch pour
Génération de données de formation
Backlogs de modération du contenu
Génération de rapports
Pipelines d'enrichissement des données
Combinez les approches
Niveau réservé pour le trafic de base
Standard à la demande pour des rafales modérées
Priorité à la demande pendant les périodes de pointe critiques
Batch pour le traitement hors ligne
Interrégional pour le basculement uniquement
Surveillance des coûts
Comparez les coûts des niveaux : Flex < Standard < Priority
Suivez les jetons par demande (optimisez les instructions)
Utiliser CloudWatch des métriques pour l'utilisation et la régulation
Définissez des alarmes de facturation en cas de pics inattendus
Passez en revue l'utilisation des niveaux réservés tous les mois
Évaluez les mises à niveau uniquement en cas de ralentissement