

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# K-Means Algorithmus
<a name="k-means"></a>

K-means ist ein Algorithmus für unbeaufsichtigtes Lernen. Es versucht, diskrete Gruppierungen innerhalb von Daten zu finden, wobei Mitglieder einer Gruppe sich so ähnlich wie möglich sein sollen und sich so stark wie möglich von Mitgliedern anderer Gruppen unterscheiden sollen. Sie definieren die Attribute, die der Algorithmus zum Ermitteln der Ähnlichkeit verwenden soll. 

Amazon SageMaker AI verwendet eine modifizierte Version des webbasierten K-Means-Clustering-Algorithmus. Im Vergleich zur Originalversion des Algorithmus ist die von Amazon SageMaker AI verwendete Version genauer. Sie ist, wie der ursprüngliche Algorithmus, für riesige Datensätze skalierbar und bringt Verbesserungen hinsichtlich der Trainingszeit. Zu diesem Zweck streamt die von Amazon SageMaker AI verwendete Version Mini-Batches (kleine, zufällige Teilmengen) der Trainingsdaten. [Weitere Informationen zu Mini-Batch-K-Means finden Sie unter K-Means-Clustering. Web-scale ](https://dl.acm.org/doi/10.1145/1772690.1772862)

Der k-Means-Algorithmus erwartet tabellarische Daten, wobei die Zeilen die Beobachtungen darstellen, die Sie clustern möchten, und die Spalten die Attribute der Beobachtungen. Die *n* Attribute in den einzelnen Zeilen stellen einen Punkt im *n*-dimensionalen Raum dar. Der euklidisch Abstand zwischen diesen Punkten stellt die Ähnlichkeit der entsprechenden Beobachtungen dar. Der Algorithmus gruppiert die Beobachtungen mit ähnlichen Attributen (die Punkte, die diesen Beobachtungen entsprechen, sind näher beieinander). Weitere Informationen zur Funktionsweise von k-means in Amazon SageMaker AI finden Sie unter[Wie K-Means funktioniert Clustering](algo-kmeans-tech-notes.md).

**Topics**
+ [Input/Output Schnittstelle für den Algorithmus K-Means](#km-inputoutput)
+ [Empfehlung für eine EC2-Instanz für den Algorithmus K-Means](#km-instances)
+ [K-Means Beispiel-Notebooks](#kmeans-sample-notebooks)
+ [Wie K-Means funktioniert Clustering](algo-kmeans-tech-notes.md)
+ [K-Means Hyperparameter](k-means-api-config.md)
+ [Optimieren Sie ein K-Means Modell](k-means-tuning.md)
+ [K-Means Antwortformate](km-in-formats.md)

## Input/Output Schnittstelle für den Algorithmus K-Means
<a name="km-inputoutput"></a>

Für das Training nimmt der k-Means-Algorithmus an, dass die Daten in einem *Trainingskanal* (empfohlen `S3DataDistributionType=ShardedByS3Key`), mit einem optionalen *Testkanal* (empfohlen `S3DataDistributionType=FullyReplicated`) bereitgestellt werden, für den die Daten bewertet werden. Die Formate `recordIO-wrapped-protobuf` und `CSV` werden beide für das Training unterstützt. Sie können entweder den Datei- oder den Pipe-Modus verwenden, um Modelle mit Daten, die als `recordIO-wrapped-protobuf` oder `CSV` formatiert sind, zu trainieren.

Für Inferenz werden `text/csv`, `application/json` und `application/x-recordio-protobuf` unterstützt. k-Means gibt eine `closest_cluster`-Bezeichnung und die `distance_to_cluster` für jede Beobachtung zurück.

Weitere Informationen über die Eingabe- und Ausgabedateiformate finden Sie unter [K-Means Antwortformate](km-in-formats.md) für Inferenz und unter [K-Means Beispiel-Notebooks](#kmeans-sample-notebooks). Der k-Means-Algorithmus unterstützt kein Mehrfach-Instance-Lernen, bei dem der Trainingssatz aus gekennzeichneten „Data Bags” besteht, von denen jede eine Sammlung von nicht gekennzeichneten Instances ist.

## Empfehlung für eine EC2-Instanz für den Algorithmus K-Means
<a name="km-instances"></a>

Wir empfehlen, k-Means-Algorithmen auf CPU-Instances zu trainieren. Sie können auf GPU-Instances trainieren, sollten aber das GPU-Training auf Single-GPU-Instances (wie ml.g4dn.xlarge) beschränken, da nur eine GPU pro Instance verwendet wird. Der k-means-Algorithmus unterstützt P2-, P3-, G4dn- und G5-Instances für Training und Inferenz.

## K-Means Beispiel-Notebooks
<a name="kmeans-sample-notebooks"></a>

Ein Beispielnotizbuch, das den SageMaker K-means KI-Algorithmus verwendet, um die Bevölkerung von Landkreisen in den Vereinigte Staaten nach Attributen zu segmentieren, die mithilfe der Hauptkomponentenanalyse identifiziert wurden, finden Sie unter [Analysieren von US-Volkszählungsdaten zur Bevölkerungssegmentierung](https://sagemaker-examples.readthedocs.io/en/latest/introduction_to_applying_machine_learning/US-census_population_segmentation_PCA_Kmeans/sagemaker-countycensusclustering.html) mit Amazon AI. SageMaker Anweisungen zum Erstellen und Zugreifen auf Jupyter-Notebook-Instances, mit denen Sie das Beispiel in KI ausführen können, finden Sie unter. SageMaker [SageMaker Amazon-Notebook-Instanzen](nbi.md) Nachdem Sie eine Notebook-Instanz erstellt und geöffnet haben, wählen Sie den Tab **SageMaker KI-Beispiele** aus, um eine Liste aller KI-Beispiele zu sehen. SageMaker Zum Öffnen eines Notebooks klicken Sie auf die Registerkarte **Use (Verwenden)** und wählen Sie **Create copy (Kopie erstellen)** aus.