View a markdown version of this page

Kapazität, Grenzen und Kostenoptimierung - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Kapazität, Grenzen und Kostenoptimierung

Amazon Bedrock bietet flexible Kapazitätsoptionen, die Ihren Workload-Anforderungen und Ihrem Budget entsprechen. Wenn Sie die Unterschiede zwischen On-Demand-Stufen (Flex, Priority, Standard), reserviertem Tarif, Stapelverarbeitung und regionsübergreifender Inferenz verstehen, können Sie sowohl Leistung als auch Kosten optimieren.

Kapazitätsoptionen

Art der Kapazität Anwendungsfall Wesentliche Merkmale
Auf Abruf: Flex Sporadische Workloads mit geringem Volumen
  • Niedrigste Kosten pro Token

  • Verfügbarkeit nach bestem Wissen

  • Es kann zu Drosselungen kommen

  • Kein SLA

Auf Abruf: Standard Regelmäßige Produktionsworkloads
  • Ausgewogenes Kosten- und Leistungsverhältnis

  • Moderater Durchsatz garantiert

  • Standard-SLA

  • Die häufigste Wahl

Auf Abruf: Priorität Apps mit hoher Priorität, die auf Latenz reagieren
  • Höchste On-Demand-Kosten

  • Erstklassige Durchsatzzuweisung

  • Verbessertes SLA

  • Reduziertes Drosselungsrisiko

Reservierte Stufe Konsistente Workloads mit hohem Volumen
  • Reservierte Modelleinheiten

  • Garantierte Kapazität

  • Verpflichtungen für 1 oder 6 Monate

  • Vorhersehbare Leistung

Batch non-time-sensitiveVerarbeitung in großem Maßstab
  • Kosteneinsparungen von 50% gegenüber On-Demand-Lösungen

  • 24-Stunden-Bearbeitungsfenster

  • Ideal für Masseninferenzen

Regionsübergreifende Inferenz Hohe Verfügbarkeit, hoher Traffic
  • Automatisches Failover

  • Route in weniger stark frequentierte Regionen

  • Verbesserte Verfügbarkeit

  • Nutzt On-Demand-Preise

Limits und Kontingente

Limits auf Abruf (nach Stufe)

Stufe RPM-Bereich TPM-Bereich Drosselungsrisiko
Flexibel 10-100 5K-50K Hoch
Standard 100-500 50K-150K Mittel
Priorität 500-1000+ 150K-300K+ Niedrig
  • Burst-Kapazität: Für kurze Leistungsspitzen auf allen Stufen verfügbar

  • Weiche Grenzwerte: Erhöhbar durch Anfragen von Servicekontingenten

  • Modellspezifisch: Die tatsächlichen Grenzwerte variieren je nach Fundamentmodell

Limits für reservierte Stufen

  • Mindestverpflichtung: 1 Modelleinheit

  • Maximale Anzahl an Einheiten: konto- und regionsspezifisch

  • Limits für Eingabe-/Ausgabe-Tokens: Basierend auf gekauften Einheiten

  • Keine Drehzahldrosselung innerhalb der gekauften Kapazität

Grenzwerte für die Stapelverarbeitung

  • Auftragsgröße: Bis zu 10.000 Datensätze pro Stapel

  • Dateigröße: Maximal 200 MB Eingabedatei

  • Bearbeitungszeit: 24-stündiges Abschlussfenster

  • Gleichzeitige Jobs: Regionsspezifische Kontingente

Regionsübergreifende Inferenz

  • Erbt die On-Demand-Statuslimits pro Region

  • Kein zusätzlicher Kontingentaufwand

  • Automatisches Routing (kein manuelles Limitmanagement)

Kostenoptimierung

Entscheidungsrahmen

Szenario Empfohlene Option Warum
Entwicklung/Testen Flex Niedrigste Kosten, akzeptabel bei Nichtproduktion
Standardproduktion Standard Das beste Preis-Leistungs-Verhältnis
Kritische Apps für den Benutzer Priorität Zuverlässigkeit und Leistung sind wichtiger als Kosten
Kontinuierliche Belastung mit hohem Volumen Reservierte Stufe Einsparungen von 30 bis 50% mit verbindlicher Vereinbarung
Verarbeitung großer Datenmengen Batch 50% discount für nicht dringende Aufgaben
Geschäftskritische Verfügbarkeit Regionsübergreifende Inferenz Verfügbarkeit > Kosten

Optimierungsstrategien

Wählen Sie das richtige On-Demand-Tarif

  • Beginnen Sie für die meisten Workloads mit Standard

  • Downgrade auf Flex für Umgebungen dev/test

  • Führen Sie ein Upgrade auf Priority nur durch, wenn die Drosselung Auswirkungen auf Benutzer hat

  • Überwachen Sie die CloudWatch Drosselungskennzahlen, um fundierte Entscheidungen

Übergang zur reservierten Stufe

  • Wenn die konstante Auslastung 40% der On-Demand-Kosten übersteigt

  • Berechnen Sie die Gewinnschwelle: (monatliche On-Demand-Kosten) versus (Reserviertes Abonnement)

  • Verwenden Sie zunächst ein einmonatiges Abonnement

  • Der reservierte Tarif kann mit jedem On-Demand-Tarif kombiniert werden

Nutzen Sie Batch für

  • Generierung von Trainingsdaten

  • Rückstände bei der Moderation von Inhalten

  • Generierung von Berichten

  • Pipelines zur Datenanreicherung

Kombinieren Sie Ansätze

  • Reservierte Stufe für Basisverkehr

  • Standard auf Abruf für moderate Datenströme

  • Priorität auf Abruf für kritische Spitzenzeiten

  • Batch für die Offline-Verarbeitung

  • Regionsübergreifend nur für Failover

Überwachung der Kosten

  • Vergleichen Sie die Tierkosten: Flex < Standard < Priority

  • Tokens pro Anfrage nachverfolgen (Eingabeaufforderungen optimieren)

  • Verwenden Sie CloudWatch Metriken für Auslastung und Drosselung

  • Richten Sie Abrechnungsalarme für unerwartete Spitzenwerte ein

  • Überprüfen Sie monatlich die Auslastung der reservierten Stufe

  • Testen Sie Tier-Upgrades nur, wenn eine Drosselung auftritt