View a markdown version of this page

Kapazität und Leistung - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Kapazität und Leistung

Amazon Bedrock bietet flexible Kapazitätsoptionen, die Ihren Workload-Anforderungen und Ihrem Budget entsprechen. Wenn Sie die Unterschiede zwischen On-Demand-Stufen (Flex, Priority, Standard), reserviertem Tarif, Stapelverarbeitung und regionsübergreifender Inferenz verstehen, können Sie sowohl Leistung als auch Kosten optimieren.

Kapazitätsoptionen

Art der Kapazität Anwendungsfall Wesentliche Merkmale
On-Demand: Flex Sporadische Workloads mit geringem Volumen
  • Niedrigste Kosten pro Token

  • Best-effort Verfügbarkeit

  • Es kann zu Drosselungen kommen

  • Kein SLA

On-Demand: Standard Regelmäßige Produktionsauslastung
  • Ausgewogenes Kosten- und Leistungsverhältnis

  • Moderater Durchsatz garantiert

  • Standard-SLA

  • Die häufigste Wahl

On-Demand: Priorität High-priority, latenzempfindliche Apps
  • Höchste On-Demand-Kosten

  • Erstklassige Durchsatzzuweisung

  • Verbessertes SLA

  • Reduziertes Drosselungsrisiko

Reservierte Stufe Konsistente Workloads mit hohem Volumen
  • Reservierte Modelleinheiten

  • Garantierte Kapazität

  • Verpflichtungen für 1 oder 3 Monate

  • Vorhersehbare Leistung

Batch Large-scale, nicht zeitkritische Verarbeitung
  • Kosteneinsparungen von 50% gegenüber On-Demand-Produkten

  • 24-stündiges Bearbeitungsfenster

  • Ideal für Masseninferenzen

Cross-Region Inferenz Hohe Verfügbarkeit, hoher Traffic
  • Automatisches Failover

  • Route in weniger stark frequentierte Regionen

  • Verbesserte Verfügbarkeit

  • Nutzt On-Demand-Preise

Beschränkt & Kontingente

On-Demand Limits (nach Stufen)

Stufe Drehzahlbereich TPM-Bereich Drosselungsrisiko
Flexibel 10-100 5K-50K Hoch
Standard 100-500 50 K-150K Mittel
Priorität 500-1000+ 150 + K-300K Niedrig
  • Burst-Kapazität: Für kurze Leistungsspitzen auf allen Stufen verfügbar

  • Weiche Grenzwerte: Erhöhbar durch Anfragen von Servicekontingenten

  • Model-specific: Die tatsächlichen Grenzwerte variieren je nach Foundation-Modell

Limits für reservierte Stufen

  • Mindestverpflichtung: 1 Modelleinheit

  • Maximale Anzahl an Einheiten: konto- und regionsspezifisch

  • Input/output Token-Limits: Basierend auf gekauften Einheiten

  • Keine Drehzahldrosselung innerhalb der gekauften Kapazität

Grenzwerte für die Stapelverarbeitung

  • Auftragsgröße: Bis zu 10.000 Datensätze pro Stapel

  • Dateigröße: Maximal 200 MB Eingabedatei

  • Bearbeitungszeit: 24-stündiges Abschlussfenster

  • Gleichzeitige Jobs: Region-specific Kontingente

Cross-Region Folgerung

  • Erbt die On-Demand-Kontingentlimits pro Region

  • Kein zusätzlicher Kontingentaufwand

  • Automatisches Routing (kein manuelles Limitmanagement)

Eine Stufe auswählen

Entscheidungsrahmen

Szenario Empfohlene Option Warum
Development/testing Flex Niedrigste Kosten, akzeptabel bei Nichtproduktion
Standardproduktion Standard Das beste Preis-Leistungs-Verhältnis
Kritische Apps für den Benutzer Priorität Zuverlässigkeit und Leistung sind wichtiger als Kosten
Kontinuierliche Belastung mit hohem Volumen Reservierte Stufe Einsparungen von 30 bis 50% mit verbindlicher Vereinbarung
Verarbeitung großer Datenmengen Batch 50% discount für nicht dringende Aufgaben
Mission-critical Verfügbarkeit Cross-Region Folgerung Verfügbarkeit > Kosten

Optimierungsstrategien

Wählen Sie die richtige On-Demand Stufe

  • Beginnen Sie für die meisten Workloads mit Standard

  • Downgrade auf Flex für Umgebungen dev/test

  • Führen Sie ein Upgrade auf Priority nur durch, wenn die Drosselung Auswirkungen auf Benutzer hat

  • Überwachen Sie die CloudWatch Drosselungskennzahlen, um fundierte Entscheidungen

Übergang zur reservierten Stufe

  • Wenn die konstante Auslastung 40% der On-Demand-Kosten übersteigt

  • Berechnen Sie die Gewinnschwelle: (monatliche On-Demand-Kosten) versus (Reserviertes Abonnement)

  • Verwenden Sie zunächst ein einmonatiges Abonnement

  • Der reservierte Tarif kann mit jedem On-Demand-Tarif kombiniert werden

Verwenden Sie Batch für

  • Generierung von Trainingsdaten

  • Rückstände bei der Moderation von Inhalten

  • Generierung von Berichten

  • Pipelines zur Datenanreicherung

Kombinieren Sie Ansätze

  • Reservierte Stufe für Basisverkehr

  • Standard auf Abruf für moderate Datenströme

  • Priorität auf Abruf für kritische Spitzenzeiten

  • Batch für die Offline-Verarbeitung

  • Cross-region Nur für Failover

Überwachung der Kosten

  • Vergleichen Sie die Tierkosten: Flex < Standard < Priority

  • Tokens pro Anfrage nachverfolgen (Eingabeaufforderungen optimieren)

  • Verwenden Sie CloudWatch Metriken für Nutzung und Drosselung

  • Richten Sie Abrechnungsalarme für unerwartete Spitzenwerte ein

  • Überprüfen Sie die monatliche Nutzung des reservierten Tarifs

  • Testen Sie Tier-Upgrades nur, wenn es zu einer Drosselung kommt