

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Model Hosting – Häufig gestellte Fragen
<a name="hosting-faqs"></a>

In den folgenden FAQs finden Sie Antworten auf häufig gestellte Fragen zu SageMaker AI Inference Hosting.

## Allgemeines Hosting
<a name="hosting-faqs-general"></a>

In den folgenden FAQs werden häufig gestellte allgemeine Fragen zu SageMaker AI Inference beantwortet.

### F: Welche Bereitstellungsoptionen bietet Amazon SageMaker AI?
<a name="hosting-faqs-general-1"></a>

A: Nachdem Sie Modelle erstellt und trainiert haben, bietet Amazon SageMaker AI vier Optionen für deren Bereitstellung, sodass Sie mit der Erstellung von Prognosen beginnen können. Real-Time Inference eignet sich für Workloads mit Latenzanforderungen im Millisekundenbereich, Nutzlastgrößen von bis zu 25 MB und Verarbeitungszeiten von bis zu 60 Sekunden für reguläre Antworten und 8 Minuten für Streaming-Antworten. Batch Transform ist ideal für Offline-Vorhersagen für große Datenmengen, die im Voraus verfügbar sind. Asynchrone Inferenz wurde für Workloads entwickelt, für die keine Latenz von weniger als einer Sekunde erforderlich ist, für Payload-Größen von bis zu 1 GB und Verarbeitungszeiten von bis zu 60 Minuten. Mit Serverless Inference können Sie schnell Modelle für Machine Learning für Inferenz bereitstellen, ohne die zugrunde liegende Infrastruktur konfigurieren oder verwalten zu müssen, und Sie zahlen nur für die Rechenkapazität, die für die Verarbeitung von Inferenzanforderungen verwendet wird, was ideal für intermittierende Workloads ist.

### F: Wie wähle ich eine Option für die Modellbereitstellung in KI aus? SageMaker
<a name="hosting-faqs-general-2"></a>

Wenn Sie Anfragen in Batches verarbeiten möchten, sollten Sie Batch Transform wählen. Andernfalls, wenn Sie für jede Anfrage an Ihr Modell Inferenz erhalten möchten, sollten Sie Asynchrone Inferenz, Serverlose Inferenz oder Inferenz wählen. Real-Time Sie können Asynchrone Inferenz wählen, wenn Sie lange Verarbeitungszeiten oder große Nutzlasten haben und Anfragen in eine Warteschlange stellen möchten. Sie können Serverlose Inference wählen, wenn Ihr Workload unvorhersehbaren oder intermittierenden Datenverkehr aufweist. Sie können Real-Time Inference wählen, wenn Sie anhaltenden Traffic haben und für Ihre Anfragen eine geringere und konsistente Latenz benötigen.

### F: Ich habe gehört, dass SageMaker KI Inference teuer ist. Was ist der beste Weg, um meine Kosten beim Hosten von Modellen zu optimieren?
<a name="hosting-faqs-general-3"></a>

A: Um Ihre Kosten mit SageMaker AI Inference zu optimieren, sollten Sie die richtige Hosting-Option für Ihren Anwendungsfall wählen. Sie können auch Inferenzfunktionen wie [Amazon SageMaker AI Savings Plans](https://aws.amazon.com/savingsplans/ml-pricing/), Modelloptimierung mit [SageMaker Neo](https://docs.aws.amazon.com/sagemaker/latest/dg/neo.html), [Multi-Model Endpoints and [Multi-Container Endpoints](https://docs.aws.amazon.com/sagemaker/latest/dg/multi-container-endpoints.html)](https://docs.aws.amazon.com/sagemaker/latest/dg/multi-model-endpoints.html) oder Autoscaling verwenden. Tipps zur Optimierung Ihrer Inferenzkosten finden Sie unter [Bewährte Methoden zur Optimierung von Inference-Kosten](inference-cost-optimization.md).

### F: Warum sollte ich Amazon SageMaker Inference Recommender verwenden?
<a name="hosting-faqs-general-4"></a>

A: Sie sollten Amazon SageMaker Inference Recommender verwenden, wenn Sie Empfehlungen für die richtige Endpunktkonfiguration benötigen, um die Leistung zu verbessern und die Kosten zu senken. Bisher mussten Datenwissenschaftler, die ihre Modelle einsetzen wollten, manuelle Benchmarks durchführen, um die richtige Endpunktkonfiguration auszuwählen. Zuerst mussten sie den richtigen Instance-Typ für Machine Learning aus mehr als 70 verfügbaren Instance-Typen auswählen, basierend auf den Ressourcenanforderungen ihrer Modelle und Beispielnutzlasten, und dann das Modell optimieren, um unterschiedliche Hardware zu berücksichtigen. Anschließend mussten sie umfangreiche Lasttests durchführen, um zu überprüfen, ob die Latenz- und Durchsatzanforderungen erfüllt wurden und die Kosten niedrig waren. Inference Recommender beseitigt diese Komplexität, indem er Sie bei Folgendem unterstützt: 
+ Mit einer Instance-Empfehlung können Sie in wenigen Minuten loslegen.
+ Führen Sie Lasttests für alle Instance-Typen durch, um innerhalb weniger Stunden Empfehlungen für Ihre Endpunktkonfiguration zu erhalten. 
+ Passen Sie Container- und Model-Serverparameter automatisch an und führen Sie Modelloptimierungen für einen bestimmten Instance-Typ durch.

### F: Was ist ein Modellserver?
<a name="hosting-faqs-general-5"></a>

A: SageMaker KI-Endpunkte sind HTTP-REST-Endpunkte, die einen containerisierten Webserver verwenden, zu dem auch ein Modellserver gehört. Diese Container sind dafür verantwortlich, Anfragen für ein Machine-Learning-Modell zu laden und zu bearbeiten. Container implementieren einen Webserver, der auf `/invocations` und `/ping` auf Port 8080 antwortet.

Zu den gängigen Modellservern gehören TensorFlow Serving TorchServe und Multi Model Server. SageMaker In KI-Framework-Containern sind diese Modellserver integriert.

### F: Was ist Bring Your Own Container with Amazon SageMaker AI?
<a name="hosting-faqs-general-6"></a>

A: Alles in SageMaker AI Inference ist containerisiert. SageMaker KI bietet verwaltete Container für beliebte Frameworks wie TensorFlow SkLearn und. HuggingFace Eine umfassende, aktualisierte Liste dieser Bilder finden Sie unter [Verfügbare Bilder](https://github.com/aws/deep-learning-containers/blob/master/available_images.md).

 Manchmal gibt es benutzerdefinierte Frameworks, für die Sie möglicherweise einen Container erstellen müssen. Dieser Ansatz ist als *Bring Your Own Container* oder *BYOC* bekannt. Beim BYOC-Ansatz stellen Sie das Docker-Image zur Einrichtung Ihres Frameworks oder Ihrer Bibliothek bereit. Anschließend übertragen Sie das Image an Amazon Elastic Container Registry (Amazon ECR), sodass Sie das Image mit SageMaker KI verwenden können.

Anstatt ein Image von Grund auf neu zu erstellen, können Sie alternativ einen Container erweitern. Sie können eines der von SageMaker AI bereitgestellten Basis-Images verwenden und Ihre Abhängigkeiten darüber in Ihrem Dockerfile hinzufügen.

### F: Muss ich meine Modelle auf SageMaker KI trainieren, um sie auf SageMaker KI-Endpunkten zu hosten?
<a name="hosting-faqs-general-7"></a>

A: SageMaker KI bietet die Möglichkeit, Ihr eigenes trainiertes Framework-Modell, das Sie außerhalb von SageMaker KI trainiert haben, mitzubringen und es auf einer der SageMaker KI-Hosting-Optionen einzusetzen.

SageMaker KI erfordert, dass Sie das Modell in einer `model.tar.gz` Datei verpacken und über eine bestimmte Verzeichnisstruktur verfügen. Jedes Framework hat seine eigene Modellstruktur (Beispielstrukturen finden Sie in der folgenden Frage). Weitere Informationen finden Sie in der SageMaker Python-SDK-Dokumentation für [TensorFlow[PyTorch](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/using_pytorch.html#bring-your-own-model)](https://sagemaker.readthedocs.io/en/stable/frameworks/tensorflow/deploying_tensorflow_serving.html#deploying-directly-from-model-artifacts), und [MXNet](https://sagemaker.readthedocs.io/en/stable/frameworks/mxnet/using_mxnet.html#deploy-endpoints-from-model-data).

Sie können zwar aus vorgefertigten Framework-Images wie TensorFlow,, und MXNet wählen PyTorch, um Ihr trainiertes Modell zu hosten, aber Sie können auch Ihren eigenen Container erstellen, um Ihre trainierten Modelle auf SageMaker KI-Endpunkten zu hosten. Eine exemplarische Vorgehensweise finden Sie im Beispiel eines Jupyter Notebooks: [Erstellen Sie Ihren eigenen Algorithmus-Container](https://github.com/aws/amazon-sagemaker-examples/blob/main/advanced_functionality/scikit_bring_your_own/scikit_bring_your_own.ipynb).

### F: Wie sollte ich mein Modell strukturieren, wenn ich es auf KI einsetzen, aber nicht auf SageMaker KI trainieren möchte? SageMaker
<a name="hosting-faqs-general-8"></a>

A: SageMaker KI erfordert, dass Ihre Modellartefakte in einer `.tar.gz` Datei oder einem *Tarball* komprimiert sind. SageMaker AI extrahiert diese `.tar.gz` Datei automatisch in das `/opt/ml/model/` Verzeichnis in Ihrem Container. Der Tarball sollte keine symbolischen Links oder überflüssige Dateien enthalten. Wenn Sie einen der Framework-Container wie, oder MXNet verwenden TensorFlow PyTorch, erwartet der Container, dass Ihre TAR-Struktur wie folgt aussieht: 

**TensorFlow**

```
model.tar.gz/
             |--[model_version_number]/
                                       |--variables
                                       |--saved_model.pb
            code/
                |--inference.py
                |--requirements.txt
```

**PyTorch**

```
model.tar.gz/
             |- model.pth
             |- code/
                     |- inference.py
                     |- requirements.txt  # only for versions 1.3.1 and higher
```

**MXNet**

```
model.tar.gz/
            |- model-symbol.json
            |- model-shapes.json
            |- model-0000.params
            |- code/
                    |- inference.py
                    |- requirements.txt # only for versions 1.6.0 and higher
```

### F: Wenn ich einen SageMaker AI-Endpunkt aufrufe, kann ich einen MIME-Typ angeben `ContentType`und `ihn akzeptieren`. Welcher wird verwendet, um den Datentyp zu identifizieren, der gesendet und empfangen wird?
<a name="hosting-faqs-general-10"></a>

A: `ContentType` ist der MIME-Typ der Eingabedaten im Anfragetext (der MIME-Typ der Daten, die Sie an Ihren Endpunkt senden). Der Modellserver verwendet den `ContentType`, um festzustellen, ob er den angegebenen Typ verarbeiten kann oder nicht.

`Accept` ist der MIME-Typ der Inferenzantwort (der MIME-Typ der Daten, die Ihr Endpunkt zurückgibt). Der Modellserver bestimmt anhand des `Accept` Typs, ob er die Rückgabe des angegebenen Typs verarbeiten kann oder nicht.

Zu den gängigen MIME-Typen gehören `text/csv`, `application/json` und `application/jsonlines`.

### F: Welche Datenformate werden für SageMaker AI Inference unterstützt?
<a name="hosting-faqs-general-12"></a>

A: SageMaker KI leitet jede Anfrage ohne Änderung an den Modellcontainer weiter. Der Container muss die Logik zur Deserialisierung der Anfrage enthalten. Informationen zu den für integrierte Algorithmen definierten Formaten finden Sie unter [Allgemeine Datenformate für Inferenz](https://docs.aws.amazon.com/sagemaker/latest/dg/cdf-inference.html). Wenn Sie Ihren eigenen Container erstellen oder einen SageMaker AI Framework-Container verwenden, können Sie die Logik zur Annahme eines Anforderungsformats Ihrer Wahl einbeziehen.

In ähnlicher Weise gibt SageMaker KI auch die Antwort ohne Änderung zurück, und dann muss der Client die Antwort deserialisieren. Im Fall der integrierten Algorithmen geben sie Antworten in bestimmten Formaten zurück. Wenn Sie Ihren eigenen Container erstellen oder einen SageMaker AI Framework-Container verwenden, können Sie die Logik zur Rückgabe einer Antwort in dem von Ihnen gewählten Format einbeziehen.

### F: Wie rufe ich meinen Endpunkt mit Binärdaten wie Videos oder Bildern auf?
<a name="hosting-faqs-general-11"></a>

Verwenden Sie den [Invoke Endpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html)-API-Aufruf, um Rückschlüsse auf Ihren Endpunkt zu ziehen.

Wenn Sie Ihre Eingabe als Nutzlast an die `InvokeEndpoint`-API übergeben, müssen Sie den richtigen Typ von Eingabedaten angeben, den Ihr Modell erwartet. Bei der Übergabe einer Nutzlast im `InvokeEndpoint`-API-Aufruf werden die Anforderungsbytes direkt an den Modellcontainer weitergeleitet. Für ein Bild können Sie beispielsweise `application/jpeg` für den `ContentType` verwenden und sicherstellen, dass Ihr Modell Rückschlüsse auf diese Art von Daten ziehen kann. Dies gilt für JSON, CSV, Video oder jede andere Art von Eingabe, mit der Sie es möglicherweise zu tun haben.

Ein weiterer zu berücksichtigender Faktor sind die Größenbeschränkungen für Nutzlasten. Die Nutzlast-Limits liegen bei 25 MB für Echtzeit-Endpunkte und bei 4 MB für Serverless-Endpunkte. Sie können Ihr Video in mehrere Frames aufteilen und den Endpunkt mit jedem Frame einzeln aufrufen. Wenn Ihr Anwendungsfall dies zulässt, können Sie alternativ das gesamte Video in der Payload über einen asynchronen Endpunkt senden, der Payloads von bis zu 1 GB unterstützt.

In diesem [Blogbeitrag](https://aws.amazon.com/blogs/machine-learning/run-computer-vision-inference-on-large-videos-with-amazon-sagemaker-asynchronous-endpoints/) finden Sie ein Beispiel, das zeigt, wie Sie Computer-Vision-Inferenz für große Videos mit asynchroner Inferenz ausführen können.

## Real-Time Inferenz
<a name="hosting-faqs-real-time"></a>

Die folgenden FAQs beantworten häufig gestellte Fragen zu SageMaker AI Real-Time Inference.

### F: Wie erstelle ich einen SageMaker KI-Endpunkt?
<a name="hosting-faqs-real-time-1"></a>

A: Sie können einen SageMaker KI-Endpunkt mithilfe von Tools AWS wie den AWS SDKs, dem SageMaker Python-SDK, dem, und dem AWS-Managementkonsole erstellen. AWS CloudFormation AWS Cloud Development Kit (AWS CDK)

Bei der Endpunkterstellung gibt es drei Schlüsseleinheiten: ein SageMaker KI-Modell, eine SageMaker KI-Endpunktkonfiguration und einen SageMaker KI-Endpunkt. Das SageMaker KI-Modell zeigt auf die Modelldaten und das Bild, das Sie verwenden. Die Endpunktkonfiguration definiert Ihre Produktionsvarianten, die den Instance-Typ und die Anzahl der Instances beinhalten können. Sie können dann entweder den API-Aufruf [create\_endpoint](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html#SageMaker.Client.create_endpoint) oder den Aufruf [.deploy ()](https://sagemaker.readthedocs.io/en/stable/api/inference/model.html) für SageMaker KI verwenden, um mithilfe der Metadaten aus Ihrem Modell und Ihrer Endpunktkonfiguration einen Endpunkt zu erstellen.

### F: Muss ich das SageMaker Python-SDK für create/invoke Endgeräte verwenden?
<a name="hosting-faqs-real-time-2"></a>

A: Nein, Sie können die verschiedenen AWS SDKs verwenden (siehe [Invoke](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html#API_runtime_InvokeEndpoint_SeeAlso)/[Create](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpoint.html#API_CreateEndpoint_SeeAlso) für verfügbare SDKs) oder sogar die entsprechenden Web-APIs direkt aufrufen.

### F: Was ist der Unterschied zwischen Multi-Model Endpoints (MME) und Multi Model Server (MMS)?
<a name="hosting-faqs-real-time-3"></a>

A: Ein Multi-Model Endpunkt ist eine Real-Time Inferenzoption, die SageMaker KI bereitstellt. Mit Multi-Model Endpoints können Sie Tausende von Modellen hinter einem Endpunkt hosten. [Multi Model Server](https://github.com/awslabs/multi-model-server) ist ein Open-Source-Framework für die Bereitstellung von Modellen für Machine Learning. Es stellt die HTTP-Frontend- und Modellverwaltungsfunktionen bereit, die von Multimodell-Endpunkten benötigt werden, um mehrere Modelle in einem einzigen Container zu hosten, Modelle dynamisch in den Container zu laden und Modelle daraus zu entladen und Inferenzen auf ein spezifiziertes geladenes Modell auszuführen.

### F: Welche verschiedenen Modellbereitstellungsarchitekturen werden von Real-Time Inference unterstützt?
<a name="hosting-faqs-real-time-4"></a>

A: SageMaker AI Real-Time Inference unterstützt verschiedene Modellbereitstellungsarchitekturen wie Multi-Model Endpunkte, Multi-Container Endpunkte und serielle Inferenz-Pipelines. 

[Multi-Model Endpoints (MME) — MME](https://docs.aws.amazon.com/sagemaker/latest/dg/multi-model-endpoints.html) ermöglicht es Kunden, Tausende von hyperpersonalisierten Modellen auf kostengünstige Weise bereitzustellen. Alle Modelle werden in einer Flotte mit gemeinsam genutzten Ressourcen eingesetzt. MME funktioniert am besten, wenn die Modelle eine ähnliche Größe und Latenz haben und demselben ML-Framework angehören. Diese Endpunkte sind ideal, wenn Sie nicht immer dasselbe Modell aufrufen müssen. Sie können die entsprechenden Modelle dynamisch auf den SageMaker KI-Endpunkt laden, um Ihre Anfrage zu bearbeiten.

[Multi-ContainerEndpoints (MCE)](https://docs.aws.amazon.com/sagemaker/latest/dg/multi-container-endpoints.html) — MCE ermöglicht es Kunden, 15 verschiedene Container mit unterschiedlichen ML-Frameworks und -Funktionen ohne Kaltstarts bereitzustellen und dabei nur einen Endpunkt zu verwenden. SageMaker Sie können diese Container direkt aufrufen. MCE eignet sich am besten, wenn Sie alle Modelle im Speicher behalten möchten.

[Serial Inferenz Pipelines (SIP)](https://docs.aws.amazon.com/sagemaker/latest/dg/inference-pipelines.html) – Sie können SIP verwenden, um 2–15 Container auf einem einzigen Endpunkt miteinander zu verketten. SIP eignet sich vor allem für die Kombination von Vorverarbeitung und Modellinferenz an einem Endpunkt sowie für Operationen mit geringer Latenz.

## Serverlose Inferenz
<a name="hosting-faqs-serverless"></a>

Die folgenden FAQs beantworten häufig gestellte Fragen zu Amazon SageMaker Serverless Inference.

### F: Was ist Amazon SageMaker Serverless Inference?
<a name="hosting-faqs-serverless-1"></a>

A: [Bereitstellen von Modellen mit Amazon SageMaker Serverless Inference](serverless-endpoints.md) ist eine speziell entwickelte Option zur serverlosen Bereitstellung von Modellen, mit der ML-Modelle einfach bereitgestellt und skaliert werden können. Serverlose Inferenzendpunkte starten automatisch Rechenressourcen und skalieren sie je nach Datenverkehr ein- und wieder heraus, sodass Sie sich nicht mehr für den Instance-Typ entscheiden, die bereitgestellte Kapazität ausführen oder die Skalierung verwalten müssen. Optional können Sie die Speicheranforderungen für Ihren serverlosen Endpunkt angeben. Sie zahlen nur für die Dauer der Ausführung des Inferenzcodes und die Menge der verarbeiteten Daten, nicht für Leerlaufzeiten.

### F: Weshalb sollte ich Serverlose Inferenz verwenden?
<a name="hosting-faqs-serverless-2"></a>

A: Serverlose Inferenz vereinfacht das Entwicklererlebnis, da die Notwendigkeit entfällt, Kapazität im Voraus bereitzustellen und Skalierungsrichtlinien zu verwalten. Serverlose Inferenz kann je nach Nutzungsmuster innerhalb von Sekunden sofort von Zehntausenden auf Tausende von Inferenzen skaliert werden und eignet sich somit ideal für ML-Anwendungen mit intermittierendem oder unvorhersehbarem Datenverkehr. Beispielsweise verzeichnet ein Chatbot-Dienst, der von einem Unternehmen für die Gehaltsabrechnung genutzt wird, am Ende des Monats einen Anstieg der Anfragen, während der Verkehr für den Rest des Monats unterbrochen ist. Die Bereitstellung von Instances für den gesamten Monat ist in solchen Szenarien nicht kosteneffektiv, da Sie am Ende für Leerlaufzeiten zahlen müssen.

Serverlose Inferenz hilft bei der Bewältigung dieser Art von Anwendungsfällen, indem es Ihnen eine automatische und schnelle Skalierung ermöglicht, ohne dass Sie den Datenverkehr im Voraus prognostizieren oder Skalierungsrichtlinien verwalten müssen. Darüber hinaus zahlen Sie nur für die Rechenzeit, die für die Ausführung Ihres Inferenzcodes und für die Datenverarbeitung erforderlich ist. Somit eignet sich die Lösung ideal für Workloads mit intermittierendem Datenverkehr.

### F: Wie wähle ich die richtige Speichergröße für meinen serverlosen Endpunkt?
<a name="hosting-faqs-serverless-3"></a>

A: Ihr serverloser Endpunkt hat eine minimale RAM-Größe von 1024 MB (1 GB), und die maximale RAM-Größe, die Sie wählen können, beträgt 6144 MB (6 GB). Die Speichergrößen, die Sie wählen können, sind 1024 MB, 2048 MB, 3096 MB, 5120 MB oder 6144 MB. Serverlose Inferenz weist Rechenressourcen automatisch proportional zum ausgewählten Speicher zu. Wenn Sie eine größere Speichergröße wählen, hat Ihr Container Zugriff auf mehr vCPUs.

Wählen Sie die Speichergröße Ihres Endpunkts entsprechend Ihrer Modellgröße. Im Allgemeinen sollte die Speichergröße mindestens so groß sein wie Ihre Modellgröße. Möglicherweise müssen Sie einen Benchmark durchführen, um die richtige Speicherauswahl für Ihr Modell auf der Grundlage Ihrer Latenz-SLAs auszuwählen. Die Speichergrößenstufen haben unterschiedliche Preise. Weitere Informationen finden Sie auf der [ SageMaker Amazon-Preisseite](https://aws.amazon.com/sagemaker/pricing/).

## Batch-Transformation
<a name="hosting-faqs-batch"></a>

Die folgenden FAQs beantworten häufig gestellte Fragen zu SageMaker AI Batch Transform.

### F: Wie teilt Batch-Transformation meine Daten auf?
<a name="hosting-faqs-batch-1"></a>

A: Für bestimmte Dateiformate wie CSV, RecordIO und TFRecord kann SageMaker KI Ihre Daten in Mini-Batches mit einem Datensatz oder mehreren Datensätzen aufteilen und diese als Nutzlast an Ihren Modellcontainer senden. Wenn der Wert von `[BatchStrategy](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#sagemaker-CreateTransformJob-request-BatchStrategy)` ist`MultiRecord`, sendet SageMaker KI die maximale Anzahl von Datensätzen in jeder Anfrage bis zum Limit. `MaxPayloadInMB` Wenn der Wert von `BatchStrategy` gleich ist`SingleRecord`, sendet SageMaker KI in jeder Anfrage einzelne Datensätze.

### F: Was ist das maximale Timeout für Batch-Transformation und das Payload-Limit für einen einzelnen Datensatz?
<a name="hosting-faqs-batch-2"></a>

A: Das maximale Timeout für Batch-Transformation beträgt 3600 Sekunden. Die [maximale Payload-Größe](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#sagemaker-CreateTransformJob-request-MaxPayloadInMB) für einen Datensatz (pro Mini-Batch) beträgt 100 MB.

### F: Wie beschleunige ich einen Batch-Transformationsauftrag?
<a name="hosting-faqs-batch-3"></a>

Wenn Sie die `[CreateTransformJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html)`-API verwenden, können Sie die Batch-Transformationsaufträge schneller abschließen, indem Sie optimale Werte für Parameter wie `[MaxPayloadInMB](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#SageMaker-CreateTransformJob-request-MaxPayloadInMB)`, `[MaxConcurrentTransforms](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#SageMaker-CreateTransformJob-request-MaxConcurrentTransforms)`, oder `[BatchStrategy](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTransformJob.html#SageMaker-CreateTransformJob-request-BatchStrategy)` verwenden. Der ideale Wert für `MaxConcurrentTransforms` entspricht der Anzahl der Rechenarbeiter im Batch-Transformationsauftrag. Wenn Sie die SageMaker AI-Konsole verwenden, können Sie diese optimalen Parameterwerte im Abschnitt **Zusätzliche Konfiguration auf der Konfigurationsseite** **für Batch-Transformationsaufträge** angeben. SageMaker KI findet automatisch die optimalen Parametereinstellungen für integrierte Algorithmen. Für benutzerdefinierte Algorithmen müssen Sie diese Werte über einen [execution-parameters](https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-batch-code.html#your-algorithms-batch-code-how-containe-serves-requests)-Endpunkt angeben.

### F: Welche Datenformate werden von Batch-Transformation nativ unterstützt?
<a name="hosting-faqs-batch-4"></a>

A: Batch-Transformation unterstützt CSV und JSON.

## Asynchrone Inferenz
<a name="hosting-faqs-async"></a>

Die folgenden FAQs beantworten häufig gestellte allgemeine Fragen zu SageMaker AI Asynchronous Inference.

### F: Was ist Amazon SageMaker Asynchronous Inference?
<a name="hosting-faqs-async-1"></a>

A: Asynchrone Inferenz stellt eingehende Anfragen in eine Warteschlange und verarbeitet sie asynchron. Diese Option ist ideal für Anfragen mit großen Nutzlasten oder langen Verarbeitungszeiten, die bei ihrem Eingang verarbeitet werden müssen. Optional können Sie Einstellungen für die automatische Skalierung konfigurieren, um die Anzahl der Instances auf Null zu reduzieren, wenn Anfragen nicht aktiv verarbeitet werden. 

### F: Wie skaliere ich meine Endpunkte auf 0, wenn es keinen Verkehr gibt?
<a name="hosting-faqs-async-2"></a>

A: Amazon SageMaker AI unterstützt die automatische Skalierung (Autoscaling) Ihres asynchronen Endpunkts. Autoscaling passt die Anzahl der Instances, die für ein Modell als Reaktion auf Änderungen Ihres Workloads bereitgestellt wurden, dynamisch an. Im Gegensatz zu anderen gehosteten Modellen, die SageMaker KI unterstützt, können Sie mit Asynchronous Inference auch Ihre asynchronen Endpunkt-Instances auf Null herunterskalieren. Anfragen, die eingehen, wenn keine Instances vorhanden sind, werden zur Verarbeitung in die Warteschlange gestellt, sobald der Endpunkt hochskaliert wird. Weitere Informationen finden Sie unter [Automatisches Skalieren eines asynchronen Endpunkts.](https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference-autoscale.html)

Amazon SageMaker Serverless Inference wird außerdem automatisch auf Null herunterskaliert. Sie werden das nicht sehen, weil SageMaker KI die Skalierung Ihrer serverlosen Endpunkte verwaltet. Wenn Sie jedoch keinen Datenverkehr haben, gilt dieselbe Infrastruktur.