View a markdown version of this page

Optimierte generative KI-Inferenzempfehlungen - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Optimierte generative KI-Inferenzempfehlungen

Amazon SageMaker AI unterstützt jetzt Inferenzempfehlungen, eine Funktion, die manuelle Optimierung und Benchmarking überflüssig macht, um eine optimale Inferenzleistung zu erzielen. Anstatt Kombinationen von GPU-Instance-Typen, Serving-Containern, Parallelitätsstrategien und Optimierungstechniken manuell zu testen, geben Sie Ihre Modell- und Workload-Anforderungen an, und SageMaker KI gibt validierte, einsatzbereite Konfigurationen mit echten Leistungskennzahlen zurück.

Inferenzempfehlungen analysieren die Architektur Ihres Modells, schränken den Konfigurationsraum ein und wenden zielgerichtete Optimierungen an, wie z. B. spekulative Dekodierung für den Durchsatz und Kernel-Tuning für Latenz. Durch die Evaluierung mehrerer Instance-Typen können Sie die preisgünstigste Option für Ihren Workload auswählen. Jede Konfiguration wird anhand einer echten GPU-Infrastruktur verglichen, sodass Sie die Implementierung mit Zuversicht durchführen und Ihre Inferenzausgaben richtig einschätzen können.

Funktionsweise

Der Einstieg mit Inferenzempfehlungen ist unkompliziert, sei es über SageMaker AI Studio oder die KI-APIs. SageMaker In den folgenden Schritten wird der Arbeitsablauf beschrieben.

  1. Bereiten Sie Ihr Modell vor. Zeigen Sie auf Modellartefakte in Amazon S3 oder der SageMaker AI Model Registry. Inference Recommendations unterstützt das HuggingFace Checkpoint-Format mit SafeTensor Gewichtungen, einschließlich Basismodellen und benutzerdefinierten oder fein abgestimmten Modellen.

  2. Definieren Sie Ihre Arbeitslast. Beschreiben Sie Ihre erwarteten Datenverkehrsmuster, einschließlich der Verteilung der Eingabe- und Ausgabe-Tokens und der Parallelitätsstufen. Sie können Inline-Spezifikationen oder einen repräsentativen Datensatz von Amazon S3 verwenden.

  3. Setze dein Ziel. Wählen Sie ein einziges Leistungsziel: Optimieren Sie die Kosten, minimieren Sie die Latenz oder maximieren Sie den Durchsatz. Wählen Sie bis zu drei Instance-Typen aus, um sie zu vergleichen.

  4. Überprüfen Sie die Ergebnisse. SageMaker KI gibt validierte Konfigurationen mit echten Leistungskennzahlen zurück: Time to First Token (TTFT), Latenz zwischen Token, Latenz bei Anfragen P50/P90/P99, Durchsatz und Kosten pro Konfiguration. Jede Konfiguration ist einsatzbereit.

  5. Bereitstellen. Stellen Sie die gewählte Konfiguration mit einer einzigen Aktion von SageMaker SageMaker AI Studio oder programmgesteuert über die API auf einem KI-Inferenzendpunkt bereit.

Sie können auch bestehende Produktionsendpunkte vergleichen, um die aktuelle Leistung zu überprüfen oder sie mit neuen Konfigurationen zu vergleichen.

Anwendungsfälle

Im Folgenden sind gängige Anwendungsfälle für Inferenzempfehlungen aufgeführt.

  • Pre-deployment Validierung. Optimieren und bewerten Sie ein neues Modell, bevor Sie sich für eine Produktionsbereitstellung entscheiden. Überprüfen Sie die Leistung des Modells, bevor Sie in die Skalierung investieren.

  • Regressionstests nach Aktualisierungen. Überprüfen Sie die Leistung nach einem Container-Update, einem Framework-Upgrade oder einer Serving-Bibliotheksversion. Vergewissern Sie sich, dass Ihre Konfiguration immer noch optimal ist, bevor Sie mit der Produktion beginnen.

  • Right-sizing wenn sich die Bedingungen ändern. Wenn sich die Verkehrsmuster ändern oder neue Instance-Typen verfügbar werden, sollten Sie die Inferenzempfehlungen innerhalb von Stunden erneut ausführen, anstatt einen wochenlangen manuellen Prozess neu zu starten.

  • Vergleich der Modelle. Vergleichen Sie die Leistung und die Kosten verschiedener Modellvarianten für die verschiedenen Instanztypen, um vor der Bereitstellung in der Produktion eine fundierte Auswahl zu treffen.

  • Kostenoptimierung Vergleichen Sie bestehende Produktionsendpunkte, um eine übermäßig bereitgestellte Infrastruktur zu identifizieren. Nutzen Sie die Ergebnisse, um die richtige Größe zu bestimmen und die Ausgaben für wiederkehrende Inferenzen zu reduzieren.

Preisgestaltung

Für Inference Recommendations fallen keine zusätzlichen Servicegebühren an. Sie können bestehende ML-Reservierungen (flexible Schulungspläne) ohne zusätzliche Rechenkosten nutzen oder On-Demand-Rechenleistung nutzen, die automatisch bereitgestellt wird.

Unterstützte Regionen

Inference Recommendations ist in den folgenden AWS Regionen verfügbar:

  • USA Ost (Nord-Virginia)

  • USA Ost (Ohio)

  • USA West (Oregon)

  • Asien-Pazifik (Singapur)

  • Asien-Pazifik (Tokio)

  • Europe (Frankfurt)

  • Europa (Irland)