Optimisation des capacités, des limites et des coûts - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Optimisation des capacités, des limites et des coûts

Amazon Bedrock propose des options de capacité flexibles adaptées à vos exigences en matière de charge de travail et à votre budget. Comprendre les différences entre les niveaux à la demande (Flex, Priority, Standard), les niveaux réservés, le traitement par lots et l'inférence entre régions vous permet d'optimiser à la fois les performances et les coûts.

Options de capacité

Type de capacité Cas d’utilisation Principales caractéristiques
À la demande : Flex Charges de travail sporadiques et peu volumineuses
  • Coût le plus bas par jeton

  • Disponibilité optimale

  • Peut subir un étranglement

  • Pas de SLA

À la demande : Standard Charges de travail de production régulières
  • Équilibre entre coût et performance

  • Garanties de débit modérées

  • SLA standard

  • Choix le plus courant

À la demande : priorité Applications hautement prioritaires et sensibles à la latence
  • Coût à la demande le plus élevé

  • Allocation de débit haut de gamme

  • SLA amélioré

  • Risque d'étranglement réduit

Niveau réservé Charges de travail cohérentes et volumineuses
  • Unités modèles réservées

  • Capacité garantie

  • Engagements de 1 ou 6 mois

  • Performances prévisibles

Par lots non-time-sensitiveTraitement à grande échelle
  • 50 % d'économies par rapport à la demande

  • Fenêtre de traitement de 24 heures

  • Idéal pour les inférences en masse

Inférence interrégionale Haute disponibilité, trafic intense
  • Basculement automatique

  • Route vers les régions les moins fréquentées

  • Disponibilité améliorée

  • Utilise la tarification à la

Limites et quotas

Limites à la demande (par niveau)

Tier Plage de tours par minute Gamme TPM Risque d'étranglement
Flex 10 à 100 5 À 50 000 Élevée
Standard 100-500 50 À 150 000 Moyenne
Priority 500-1000+ 150 À 300 K+ Faible
  • Capacité de rafale : disponible sur tous les niveaux pour les pointes courtes

  • Limites souples : augmentables via des demandes de quotas de service

  • Spécifique au modèle : les limites réelles varient selon le modèle de fondation

Limites des niveaux réservés

  • Engagement minimum : 1 unité modèle

  • Nombre maximum d'unités : spécifiques au compte et à la région

  • Limites de jetons d'entrée/sortie : basées sur les unités achetées

  • Aucune limitation du régime par minute dans les limites de la capacité achetée

Limites de traitement par lots

  • Taille du job : jusqu'à 10 000 enregistrements par lot

  • Taille du fichier : 200 Mo de fichier d'entrée maximum

  • Temps de traitement : fenêtre de traitement de 24 heures

  • Emplois simultanés : quotas spécifiques à la région

Inférence interrégionale

  • Hérite des limites de niveau à la demande par région

  • Aucune surcharge supplémentaire liée aux quotas

  • Routage automatique (aucune gestion manuelle des limites)

Optimisation des coûts

Cadre décisionnel

Scénario Option recommandée Pourquoi
Développement/test Flex Coût le plus bas, acceptable pour la non-production
Production standard Standard Meilleur équilibre coût-performance
Applications critiques destinées aux utilisateurs Priority Fiabilité et performance par rapport aux coûts
Charge volumique élevée et constante Niveau réservé 30 à 50 % d'économies avec engagement
Traitement de données en masse Par lots 50 % de discount, charges de travail non urgentes
Temps de disponibilité critique Inférence interrégionale Disponibilité > coût

Stratégies d'optimisation

Choisissez le bon niveau à la demande

  • Commencez par la norme pour la plupart des charges de travail

  • Rétrograder vers Flex pour les environnements dev/test

  • Passez à la priorité uniquement lorsque la limitation a un impact sur les utilisateurs

  • Surveillez les indicateurs d' CloudWatch accélération pour prendre des décisions éclairées

Transition vers le niveau réservé

  • Lorsque la charge constante dépasse 40 % des coûts à la demande

  • Calculez le seuil de rentabilité : (coût mensuel à la demande) ou (engagement réservé)

  • Utilisez un engagement d'un mois dans un premier temps

  • Le niveau réservé peut fonctionner parallèlement à n'importe quel niveau à la demande

Tirez parti de Batch pour

  • Génération de données de formation

  • Backlogs de modération du contenu

  • Génération de rapports

  • Pipelines d'enrichissement des données

Combinez les approches

  • Niveau réservé pour le trafic de base

  • Standard à la demande pour des rafales modérées

  • Priorité à la demande pendant les périodes de pointe critiques

  • Batch pour le traitement hors ligne

  • Interrégional pour le basculement uniquement

Surveillance des coûts

  • Comparez les coûts des niveaux : Flex < Standard < Priority

  • Suivez les jetons par demande (optimisez les instructions)

  • Utiliser CloudWatch des métriques pour l'utilisation et la régulation

  • Définissez des alarmes de facturation en cas de pics inattendus

  • Passez en revue l'utilisation des niveaux réservés tous les mois

  • Évaluez les mises à niveau uniquement en cas de ralentissement