Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Kapazität, Grenzen und Kostenoptimierung
Amazon Bedrock bietet flexible Kapazitätsoptionen, die Ihren Workload-Anforderungen und Ihrem Budget entsprechen. Wenn Sie die Unterschiede zwischen On-Demand-Stufen (Flex, Priority, Standard), reserviertem Tarif, Stapelverarbeitung und regionsübergreifender Inferenz verstehen, können Sie sowohl Leistung als auch Kosten optimieren.
Kapazitätsoptionen
| Art der Kapazität | Anwendungsfall | Wesentliche Merkmale |
|---|---|---|
| Auf Abruf: Flex | Sporadische Workloads mit geringem Volumen |
|
| Auf Abruf: Standard | Regelmäßige Produktionsworkloads |
|
| Auf Abruf: Priorität | Apps mit hoher Priorität, die auf Latenz reagieren |
|
| Reservierte Stufe | Konsistente Workloads mit hohem Volumen |
|
| Batch | non-time-sensitiveVerarbeitung in großem Maßstab |
|
| Regionsübergreifende Inferenz | Hohe Verfügbarkeit, hoher Traffic |
|
Limits und Kontingente
Limits auf Abruf (nach Stufe)
| Stufe | RPM-Bereich | TPM-Bereich | Drosselungsrisiko |
|---|---|---|---|
| Flexibel | 10-100 | 5K-50K | Hoch |
| Standard | 100-500 | 50K-150K | Mittel |
| Priorität | 500-1000+ | 150K-300K+ | Niedrig |
Burst-Kapazität: Für kurze Leistungsspitzen auf allen Stufen verfügbar
Weiche Grenzwerte: Erhöhbar durch Anfragen von Servicekontingenten
Modellspezifisch: Die tatsächlichen Grenzwerte variieren je nach Fundamentmodell
Limits für reservierte Stufen
Mindestverpflichtung: 1 Modelleinheit
Maximale Anzahl an Einheiten: konto- und regionsspezifisch
Limits für Eingabe-/Ausgabe-Tokens: Basierend auf gekauften Einheiten
Keine Drehzahldrosselung innerhalb der gekauften Kapazität
Grenzwerte für die Stapelverarbeitung
Auftragsgröße: Bis zu 10.000 Datensätze pro Stapel
Dateigröße: Maximal 200 MB Eingabedatei
Bearbeitungszeit: 24-stündiges Abschlussfenster
Gleichzeitige Jobs: Regionsspezifische Kontingente
Regionsübergreifende Inferenz
Erbt die On-Demand-Statuslimits pro Region
Kein zusätzlicher Kontingentaufwand
Automatisches Routing (kein manuelles Limitmanagement)
Kostenoptimierung
Entscheidungsrahmen
| Szenario | Empfohlene Option | Warum |
|---|---|---|
| Entwicklung/Testen | Flex | Niedrigste Kosten, akzeptabel bei Nichtproduktion |
| Standardproduktion | Standard | Das beste Preis-Leistungs-Verhältnis |
| Kritische Apps für den Benutzer | Priorität | Zuverlässigkeit und Leistung sind wichtiger als Kosten |
| Kontinuierliche Belastung mit hohem Volumen | Reservierte Stufe | Einsparungen von 30 bis 50% mit verbindlicher Vereinbarung |
| Verarbeitung großer Datenmengen | Batch | 50% discount für nicht dringende Aufgaben |
| Geschäftskritische Verfügbarkeit | Regionsübergreifende Inferenz | Verfügbarkeit > Kosten |
Optimierungsstrategien
Wählen Sie das richtige On-Demand-Tarif
Beginnen Sie für die meisten Workloads mit Standard
Downgrade auf Flex für Umgebungen dev/test
Führen Sie ein Upgrade auf Priority nur durch, wenn die Drosselung Auswirkungen auf Benutzer hat
Überwachen Sie die CloudWatch Drosselungskennzahlen, um fundierte Entscheidungen
Übergang zur reservierten Stufe
Wenn die konstante Auslastung 40% der On-Demand-Kosten übersteigt
Berechnen Sie die Gewinnschwelle: (monatliche On-Demand-Kosten) versus (Reserviertes Abonnement)
Verwenden Sie zunächst ein einmonatiges Abonnement
Der reservierte Tarif kann mit jedem On-Demand-Tarif kombiniert werden
Nutzen Sie Batch für
Generierung von Trainingsdaten
Rückstände bei der Moderation von Inhalten
Generierung von Berichten
Pipelines zur Datenanreicherung
Kombinieren Sie Ansätze
Reservierte Stufe für Basisverkehr
Standard auf Abruf für moderate Datenströme
Priorität auf Abruf für kritische Spitzenzeiten
Batch für die Offline-Verarbeitung
Regionsübergreifend nur für Failover
Überwachung der Kosten
Vergleichen Sie die Tierkosten: Flex < Standard < Priority
Tokens pro Anfrage nachverfolgen (Eingabeaufforderungen optimieren)
Verwenden Sie CloudWatch Metriken für Auslastung und Drosselung
Richten Sie Abrechnungsalarme für unerwartete Spitzenwerte ein
Überprüfen Sie monatlich die Auslastung der reservierten Stufe
Testen Sie Tier-Upgrades nur, wenn eine Drosselung auftritt