Options de capacité Limites et & quotas Choisir un niveau

Capacité et performance

Amazon Bedrock propose des options de capacité flexibles adaptées à vos exigences en matière de charge de travail et à votre budget. Comprendre les différences entre les niveaux à la demande (Flex, Priority, Standard), les niveaux réservés, le traitement par lots et l'inférence entre régions vous permet d'optimiser à la fois les performances et les coûts.

Options de capacité

Type de capacité	Cas d’utilisation	Principales caractéristiques
On-Demand: Flexible	Charges de travail sporadiques et peu volumineuses	Coût le plus bas par jeton Best-effort disponibilité Peut subir un étranglement Pas de SLA
On-Demand: Norme	Charges de travail de production régulières	Équilibre entre coût et performance Garanties de débit modérées SLA standard Choix le plus courant
On-Demand: Priorité	High-priority, applications sensibles à la latence	Coût à la demande le plus élevé Allocation de débit haut de gamme SLA amélioré Risque d'étranglement réduit
Niveau réservé	Charges de travail cohérentes et volumineuses	Unités modèles réservées Capacité garantie Engagements de 1 ou 3 mois Performances prévisibles
Par lots	Large-scale, traitement non sensible au facteur temps	50 % d'économies par rapport à la demande Fenêtre de traitement de 24 heures Idéal pour les inférences en masse
Cross-Region Inférence	Haute disponibilité, trafic intense	Basculement automatique Route vers les régions les moins fréquentées Disponibilité améliorée Utilise la tarification à la

Limites et & quotas

On-Demand Limites (par niveau)

Tier	Plage de tours par minute	Gamme TPM	Risque d'étranglement
Flex	10 à 100	5 K-50K	Élevée
Standard	100-500	50 K-150K	Moyenne
Priority	500-1000+	150 K-300K +	Faible

Capacité de rafale : disponible sur tous les niveaux pour les pics courts
Limites souples : augmentables via des demandes de quotas de service
Model-specific: Les limites réelles varient selon le modèle de fondation

Limites des niveaux réservés

Engagement minimum : 1 unité modèle
Nombre maximum d'unités : spécifiques au compte et à la région
Input/output limites de jetons : basées sur les unités achetées
Aucune limitation du régime par minute dans les limites de la capacité achetée

Limites de traitement par lots

Taille du job : jusqu'à 10 000 enregistrements par lot
Taille du fichier : 200 Mo de fichier d'entrée maximum
Temps de traitement : fenêtre de traitement de 24 heures
Tâches simultanées : Region-specific quotas

Cross-Region Inférence

Hérite des limites de niveau à la demande par région
Aucune surcharge supplémentaire liée aux quotas
Routage automatique (aucune gestion manuelle des limites)

Choisir un niveau

Cadre décisionnel

Scénario	Option recommandée	Pourquoi
Development/testing	Flex	Coût le plus bas, acceptable pour la non-production
Production standard	Standard	Meilleur équilibre coût-performance
Applications critiques destinées aux utilisateurs	Priority	Fiabilité et performance par rapport aux coûts
Charge volumique élevée et constante	Niveau réservé	30 à 50 % d'économies avec engagement
Traitement de données en masse	Par lots	50 % de discount, charges de travail non urgentes
Mission-critical temps de disponibilité	Cross-Region Inférence	Disponibilité > coût

Stratégies d'optimisation

Choisissez le bon On-Demand niveau

Commencez par la norme pour la plupart des charges de travail
Rétrograder vers Flex pour les environnements dev/test
Passez à la priorité uniquement lorsque la limitation a un impact sur les utilisateurs
Surveillez les indicateurs d' CloudWatch accélération pour prendre des décisions éclairées

Transition vers le niveau réservé

Lorsque la charge constante dépasse 40 % des coûts à la demande
Calculez le seuil de rentabilité : (coût mensuel à la demande) ou (engagement réservé)
Utilisez un engagement d'un mois dans un premier temps
Le niveau réservé peut fonctionner parallèlement à n'importe quel niveau à la demande

Utilisez Batch pour

Génération de données de formation
Backlogs de modération du contenu
Génération de rapports
Pipelines d'enrichissement des données

Combinez les approches

Niveau réservé pour le trafic de base
Standard à la demande pour des rafales modérées
Priorité à la demande pendant les périodes de pointe critiques
Batch pour le traitement hors ligne
Cross-region pour le basculement uniquement

Surveillance des coûts

Comparez les coûts des niveaux : Flex < Standard < Priority
Suivez les jetons par demande (optimisez les instructions)
Utiliser CloudWatch des métriques pour l'utilisation et la régulation
Définissez des alarmes de facturation en cas de pics inattendus
Passez en revue l'utilisation du niveau réservé tous les mois
Évaluez les mises à niveau uniquement en cas de ralentissement

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Gestion de projets avec AWS CloudFormation

Niveaux réservés, standard, prioritaires et flexibles