View a markdown version of this page

Capacité et performance - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Capacité et performance

Amazon Bedrock propose des options de capacité flexibles adaptées à vos exigences en matière de charge de travail et à votre budget. Comprendre les différences entre les niveaux à la demande (Flex, Priority, Standard), les niveaux réservés, le traitement par lots et l'inférence entre régions vous permet d'optimiser à la fois les performances et les coûts.

Options de capacité

Type de capacité Cas d’utilisation Principales caractéristiques
On-Demand: Flexible Charges de travail sporadiques et peu volumineuses
  • Coût le plus bas par jeton

  • Best-effort disponibilité

  • Peut subir un étranglement

  • Pas de SLA

On-Demand: Norme Charges de travail de production régulières
  • Équilibre entre coût et performance

  • Garanties de débit modérées

  • SLA standard

  • Choix le plus courant

On-Demand: Priorité High-priority, applications sensibles à la latence
  • Coût à la demande le plus élevé

  • Allocation de débit haut de gamme

  • SLA amélioré

  • Risque d'étranglement réduit

Niveau réservé Charges de travail cohérentes et volumineuses
  • Unités modèles réservées

  • Capacité garantie

  • Engagements de 1 ou 3 mois

  • Performances prévisibles

Par lots Large-scale, traitement non sensible au facteur temps
  • 50 % d'économies par rapport à la demande

  • Fenêtre de traitement de 24 heures

  • Idéal pour les inférences en masse

Cross-Region Inférence Haute disponibilité, trafic intense
  • Basculement automatique

  • Route vers les régions les moins fréquentées

  • Disponibilité améliorée

  • Utilise la tarification à la

Limites et & quotas

On-Demand Limites (par niveau)

Tier Plage de tours par minute Gamme TPM Risque d'étranglement
Flex 10 à 100 5 K-50K Élevée
Standard 100-500 50 K-150K Moyenne
Priority 500-1000+ 150 K-300K + Faible
  • Capacité de rafale : disponible sur tous les niveaux pour les pics courts

  • Limites souples : augmentables via des demandes de quotas de service

  • Model-specific: Les limites réelles varient selon le modèle de fondation

Limites des niveaux réservés

  • Engagement minimum : 1 unité modèle

  • Nombre maximum d'unités : spécifiques au compte et à la région

  • Input/output limites de jetons : basées sur les unités achetées

  • Aucune limitation du régime par minute dans les limites de la capacité achetée

Limites de traitement par lots

  • Taille du job : jusqu'à 10 000 enregistrements par lot

  • Taille du fichier : 200 Mo de fichier d'entrée maximum

  • Temps de traitement : fenêtre de traitement de 24 heures

  • Tâches simultanées : Region-specific quotas

Cross-Region Inférence

  • Hérite des limites de niveau à la demande par région

  • Aucune surcharge supplémentaire liée aux quotas

  • Routage automatique (aucune gestion manuelle des limites)

Choisir un niveau

Cadre décisionnel

Scénario Option recommandée Pourquoi
Development/testing Flex Coût le plus bas, acceptable pour la non-production
Production standard Standard Meilleur équilibre coût-performance
Applications critiques destinées aux utilisateurs Priority Fiabilité et performance par rapport aux coûts
Charge volumique élevée et constante Niveau réservé 30 à 50 % d'économies avec engagement
Traitement de données en masse Par lots 50 % de discount, charges de travail non urgentes
Mission-critical temps de disponibilité Cross-Region Inférence Disponibilité > coût

Stratégies d'optimisation

Choisissez le bon On-Demand niveau

  • Commencez par la norme pour la plupart des charges de travail

  • Rétrograder vers Flex pour les environnements dev/test

  • Passez à la priorité uniquement lorsque la limitation a un impact sur les utilisateurs

  • Surveillez les indicateurs d' CloudWatch accélération pour prendre des décisions éclairées

Transition vers le niveau réservé

  • Lorsque la charge constante dépasse 40 % des coûts à la demande

  • Calculez le seuil de rentabilité : (coût mensuel à la demande) ou (engagement réservé)

  • Utilisez un engagement d'un mois dans un premier temps

  • Le niveau réservé peut fonctionner parallèlement à n'importe quel niveau à la demande

Utilisez Batch pour

  • Génération de données de formation

  • Backlogs de modération du contenu

  • Génération de rapports

  • Pipelines d'enrichissement des données

Combinez les approches

  • Niveau réservé pour le trafic de base

  • Standard à la demande pour des rafales modérées

  • Priorité à la demande pendant les périodes de pointe critiques

  • Batch pour le traitement hors ligne

  • Cross-region pour le basculement uniquement

Surveillance des coûts

  • Comparez les coûts des niveaux : Flex < Standard < Priority

  • Suivez les jetons par demande (optimisez les instructions)

  • Utiliser CloudWatch des métriques pour l'utilisation et la régulation

  • Définissez des alarmes de facturation en cas de pics inattendus

  • Passez en revue l'utilisation du niveau réservé tous les mois

  • Évaluez les mises à niveau uniquement en cas de ralentissement