Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra. # Capacité et performance Amazon Bedrock propose des options de capacité flexibles adaptées à vos exigences en matière de charge de travail et à votre budget. Comprendre les différences entre les niveaux à la demande (Flex, Priority, Standard), les niveaux réservés, le traitement par lots et l'inférence entre régions vous permet d'optimiser à la fois les performances et les coûts. ## Options de capacité | Type de capacité | Cas d’utilisation | Principales caractéristiques | | --- | --- | --- | | On-Demand: Flexible | Charges de travail sporadiques et peu volumineuses | [See the AWS documentation website for more details](http://docs.aws.amazon.com/fr_fr/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | On-Demand: Norme | Charges de travail de production régulières | [See the AWS documentation website for more details](http://docs.aws.amazon.com/fr_fr/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | On-Demand: Priorité | High-priority, applications sensibles à la latence | [See the AWS documentation website for more details](http://docs.aws.amazon.com/fr_fr/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | Niveau réservé | Charges de travail cohérentes et volumineuses | [See the AWS documentation website for more details](http://docs.aws.amazon.com/fr_fr/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | Par lots | Large-scale, traitement non sensible au facteur temps | [See the AWS documentation website for more details](http://docs.aws.amazon.com/fr_fr/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | | Cross-Region Inférence | Haute disponibilité, trafic intense | [See the AWS documentation website for more details](http://docs.aws.amazon.com/fr_fr/bedrock/latest/userguide/capacity-limits-cost-optimization.html) | ## Limites et & quotas ### On-Demand Limites (par niveau) | Tier | Plage de tours par minute | Gamme TPM | Risque d'étranglement | | --- | --- | --- | --- | | Flex | 10 à 100 | 5 K-50K | Élevée | | Standard | 100-500 | 50 K-150K | Moyenne | | Priority | 500-1000\+ | 150 K-300K \+ | Faible | + Capacité de rafale : disponible sur tous les niveaux pour les pics courts + Limites souples : augmentables via des demandes de quotas de service + Model-specific: Les limites réelles varient selon le modèle de fondation ### Limites des niveaux réservés + Engagement minimum : 1 unité modèle + Nombre maximum d'unités : spécifiques au compte et à la région + Input/output limites de jetons : basées sur les unités achetées + Aucune limitation du régime par minute dans les limites de la capacité achetée ### Limites de traitement par lots + Taille du job : jusqu'à 10 000 enregistrements par lot + Taille du fichier : 200 Mo de fichier d'entrée maximum + Temps de traitement : fenêtre de traitement de 24 heures + Tâches simultanées : Region-specific quotas ### Cross-Region Inférence + Hérite des limites de niveau à la demande par région + Aucune surcharge supplémentaire liée aux quotas + Routage automatique (aucune gestion manuelle des limites) ## Choisir un niveau ### Cadre décisionnel | Scénario | Option recommandée | Pourquoi | | --- | --- | --- | | Development/testing | Flex | Coût le plus bas, acceptable pour la non-production | | Production standard | Standard | Meilleur équilibre coût-performance | | Applications critiques destinées aux utilisateurs | Priority | Fiabilité et performance par rapport aux coûts | | Charge volumique élevée et constante | Niveau réservé | 30 à 50 % d'économies avec engagement | | Traitement de données en masse | Par lots | 50 % de discount, charges de travail non urgentes | | Mission-critical temps de disponibilité | Cross-Region Inférence | Disponibilité > coût | ### Stratégies d'optimisation **Choisissez le bon On-Demand niveau** + Commencez par la norme pour la plupart des charges de travail + Rétrograder vers Flex pour les environnements dev/test + Passez à la priorité uniquement lorsque la limitation a un impact sur les utilisateurs + Surveillez les indicateurs d' CloudWatch accélération pour prendre des décisions éclairées **Transition vers le niveau réservé** + Lorsque la charge constante dépasse 40 % des coûts à la demande + Calculez le seuil de rentabilité : (coût mensuel à la demande) ou (engagement réservé) + Utilisez un engagement d'un mois dans un premier temps + Le niveau réservé peut fonctionner parallèlement à n'importe quel niveau à la demande **Utilisez Batch pour** + Génération de données de formation + Backlogs de modération du contenu + Génération de rapports + Pipelines d'enrichissement des données **Combinez les approches** + Niveau réservé pour le trafic de base + Standard à la demande pour des rafales modérées + Priorité à la demande pendant les périodes de pointe critiques + Batch pour le traitement hors ligne + Cross-region pour le basculement uniquement **Surveillance des coûts** + Comparez les coûts des niveaux : Flex < Standard < Priority + Suivez les jetons par demande (optimisez les instructions) + Utiliser CloudWatch des métriques pour l'utilisation et la régulation + Définissez des alarmes de facturation en cas de pics inattendus + Passez en revue l'utilisation du niveau réservé tous les mois + Évaluez les mises à niveau uniquement en cas de ralentissement