Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Servicekontingente und Drosselung
Der Assistent verwendet On-Demand-Inferenz, die den Servicekontingenten Ihres Kontos unterliegt. Die beiden wichtigsten Einschränkungen sind:
-
Anfragen pro Minute (RPM) — Die Anzahl der pro Minute zulässigen Modellaufrufanforderungen.
-
Tokens per Minute (TPM) — Die Gesamtzahl der pro Minute verarbeiteten Eingabe- und Ausgabetokens.
Die Standardkontingente variieren je nach Region. In einigen Regionen gelten niedrigere Standardgrenzwerte (bis zu 20 U/min), was bei intensiver Nutzung des Assistenten zu Drosselungen führen kann.
Beantragen einer Kontingenterhöhung
Wenn bei der Verwendung des Assistenten Drosselungsfehler auftreten, können Sie eine Erhöhung des Servicekontingents beantragen:
So fordern Sie eine Kontingenterhöhung an
-
Öffnen Sie die Service Quotas-Konsole
. -
Wählen Sie im Navigationsbereich AWS Dienste und anschließend aus.
-
Suchen Sie das Kontingent für das vom Assistenten verwendete Modell (suchen Sie nach Kontingenten,
InvokeModelWithResponseStreamdie sich auf das entsprechende Modell beziehen). -
Wählen Sie den Kontingentnamen und anschließend Erhöhung auf Kontoebene beantragen aus.
-
Geben Sie den gewünschten Kontingentwert ein und senden Sie die Anfrage ab.
Weitere Informationen finden Sie unter Beantragen einer Kontingenterhöhung im Service-Quotas-Benutzerhandbuch.
Anmerkung
Wenn in Ihrer Region regionsübergreifende Inferenzen verwendet werden, gelten auch die Servicekontingenten in den Zielregionen. Cross-region Inferenzprofile unterstützen mindestens 200 U/min, was dazu beitragen kann, die Drosselung in Regionen mit niedrigeren Grenzwerten für einzelne Regionen zu verringern.
Überwachung der Kontingentnutzung
Sie können Ihre Kontingentnutzung anhand von CloudWatch Kennzahlen überwachen. Richten Sie CloudWatch Alarme für Drosselungskennzahlen ein, um proaktiv zu erkennen, wann Sie sich Ihren Kontingentgrenzen nähern. Weitere Informationen finden Sie unter Überwachung von im -Benutzerhandbuch.