Kapazitätsoptionen Beschränkt & Kontingente Eine Stufe auswählen

Kapazität und Leistung

Amazon Bedrock bietet flexible Kapazitätsoptionen, die Ihren Workload-Anforderungen und Ihrem Budget entsprechen. Wenn Sie die Unterschiede zwischen On-Demand-Stufen (Flex, Priority, Standard), reserviertem Tarif, Stapelverarbeitung und regionsübergreifender Inferenz verstehen, können Sie sowohl Leistung als auch Kosten optimieren.

Kapazitätsoptionen

Art der Kapazität	Anwendungsfall	Wesentliche Merkmale
On-Demand: Flex	Sporadische Workloads mit geringem Volumen	Niedrigste Kosten pro Token Best-effort Verfügbarkeit Es kann zu Drosselungen kommen Kein SLA
On-Demand: Standard	Regelmäßige Produktionsauslastung	Ausgewogenes Kosten- und Leistungsverhältnis Moderater Durchsatz garantiert Standard-SLA Die häufigste Wahl
On-Demand: Priorität	High-priority, latenzempfindliche Apps	Höchste On-Demand-Kosten Erstklassige Durchsatzzuweisung Verbessertes SLA Reduziertes Drosselungsrisiko
Reservierte Stufe	Konsistente Workloads mit hohem Volumen	Reservierte Modelleinheiten Garantierte Kapazität Verpflichtungen für 1 oder 3 Monate Vorhersehbare Leistung
Batch	Large-scale, nicht zeitkritische Verarbeitung	Kosteneinsparungen von 50% gegenüber On-Demand-Produkten 24-stündiges Bearbeitungsfenster Ideal für Masseninferenzen
Cross-Region Inferenz	Hohe Verfügbarkeit, hoher Traffic	Automatisches Failover Route in weniger stark frequentierte Regionen Verbesserte Verfügbarkeit Nutzt On-Demand-Preise

Beschränkt & Kontingente

On-Demand Limits (nach Stufen)

Stufe	Drehzahlbereich	TPM-Bereich	Drosselungsrisiko
Flexibel	10-100	5K-50K	Hoch
Standard	100-500	50 K-150K	Mittel
Priorität	500-1000+	150 + K-300K	Niedrig

Burst-Kapazität: Für kurze Leistungsspitzen auf allen Stufen verfügbar
Weiche Grenzwerte: Erhöhbar durch Anfragen von Servicekontingenten
Model-specific: Die tatsächlichen Grenzwerte variieren je nach Foundation-Modell

Limits für reservierte Stufen

Mindestverpflichtung: 1 Modelleinheit
Maximale Anzahl an Einheiten: konto- und regionsspezifisch
Input/output Token-Limits: Basierend auf gekauften Einheiten
Keine Drehzahldrosselung innerhalb der gekauften Kapazität

Grenzwerte für die Stapelverarbeitung

Auftragsgröße: Bis zu 10.000 Datensätze pro Stapel
Dateigröße: Maximal 200 MB Eingabedatei
Bearbeitungszeit: 24-stündiges Abschlussfenster
Gleichzeitige Jobs: Region-specific Kontingente

Cross-Region Folgerung

Erbt die On-Demand-Kontingentlimits pro Region
Kein zusätzlicher Kontingentaufwand
Automatisches Routing (kein manuelles Limitmanagement)

Eine Stufe auswählen

Entscheidungsrahmen

Szenario	Empfohlene Option	Warum
Development/testing	Flex	Niedrigste Kosten, akzeptabel bei Nichtproduktion
Standardproduktion	Standard	Das beste Preis-Leistungs-Verhältnis
Kritische Apps für den Benutzer	Priorität	Zuverlässigkeit und Leistung sind wichtiger als Kosten
Kontinuierliche Belastung mit hohem Volumen	Reservierte Stufe	Einsparungen von 30 bis 50% mit verbindlicher Vereinbarung
Verarbeitung großer Datenmengen	Batch	50% discount für nicht dringende Aufgaben
Mission-critical Verfügbarkeit	Cross-Region Folgerung	Verfügbarkeit > Kosten

Optimierungsstrategien

Wählen Sie die richtige On-Demand Stufe

Beginnen Sie für die meisten Workloads mit Standard
Downgrade auf Flex für Umgebungen dev/test
Führen Sie ein Upgrade auf Priority nur durch, wenn die Drosselung Auswirkungen auf Benutzer hat
Überwachen Sie die CloudWatch Drosselungskennzahlen, um fundierte Entscheidungen

Übergang zur reservierten Stufe

Wenn die konstante Auslastung 40% der On-Demand-Kosten übersteigt
Berechnen Sie die Gewinnschwelle: (monatliche On-Demand-Kosten) versus (Reserviertes Abonnement)
Verwenden Sie zunächst ein einmonatiges Abonnement
Der reservierte Tarif kann mit jedem On-Demand-Tarif kombiniert werden

Verwenden Sie Batch für

Generierung von Trainingsdaten
Rückstände bei der Moderation von Inhalten
Generierung von Berichten
Pipelines zur Datenanreicherung

Kombinieren Sie Ansätze

Reservierte Stufe für Basisverkehr
Standard auf Abruf für moderate Datenströme
Priorität auf Abruf für kritische Spitzenzeiten
Batch für die Offline-Verarbeitung
Cross-region Nur für Failover

Überwachung der Kosten

Vergleichen Sie die Tierkosten: Flex < Standard < Priority
Tokens pro Anfrage nachverfolgen (Eingabeaufforderungen optimieren)
Verwenden Sie CloudWatch Metriken für Nutzung und Drosselung
Richten Sie Abrechnungsalarme für unerwartete Spitzenwerte ein
Überprüfen Sie die monatliche Nutzung des reservierten Tarifs
Testen Sie Tier-Upgrades nur, wenn es zu einer Drosselung kommt

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Projekte mit AWS verwalten CloudFormation

Tarife Reserviert, Standard, Priority und Flex