

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# K-Means algoritmo
<a name="k-means"></a>

K-means é um algoritmo de aprendizado não supervisionado. Ele tenta encontrar agrupamentos distintos dentro dos dados, em que os membros de um grupo sejam o mais semelhantes possível entre eles e o mais diferentes possível dos membros de outros grupos. Você define os atributos a ser usados para determinar similaridade. 

A Amazon SageMaker AI usa uma versão modificada do algoritmo de agrupamento k-means em escala web. Em comparação com a versão original do algoritmo, a versão usada pela Amazon SageMaker AI é mais precisa. Como o algoritmo original, ele pode ser dimensionado para grandes conjuntos de dados e fornece melhorias no tempo de treinamento. Para fazer isso, a versão usada pela Amazon SageMaker AI transmite minilotes (pequenos subconjuntos aleatórios) dos dados de treinamento. Para obter mais informações sobre mini-batch k-means, consulte [Web-scale k-means](https://dl.acm.org/doi/10.1145/1772690.1772862) Clustering.

O algoritmo k-means espera dados tabulares, em que as linhas representam as observações a ser agrupadas, e as colunas, os atributos das observações. Os atributos *n* em cada linha representam um ponto no espaço *n*-dimensional. A distância euclidiana entre esses pontos representa a similaridade das observações correspondentes. O algoritmo agrupa as observações com valores de atributo semelhantes (em que os pontos correspondentes a essas observações são mais próximos). Para obter mais informações sobre como o k-means funciona na Amazon SageMaker AI, consulte[Como funciona o K-Means clustering](algo-kmeans-tech-notes.md).

**Topics**
+ [Input/Output Interface para o K-Means algoritmo](#km-inputoutput)
+ [Recomendação de instância do EC2 para o algoritmo K-Means](#km-instances)
+ [K-Means Amostras de cadernos](#kmeans-sample-notebooks)
+ [Como funciona o K-Means clustering](algo-kmeans-tech-notes.md)
+ [K-Means Hiperparâmetros](k-means-api-config.md)
+ [Ajustar um K-Means modelo](k-means-tuning.md)
+ [K-Means Formatos de resposta](km-in-formats.md)

## Input/Output Interface para o K-Means algoritmo
<a name="km-inputoutput"></a>

Para treinamento, o algoritmo k-means espera que os dados sejam fornecidos no canal de *treinamento* (`S3DataDistributionType=ShardedByS3Key` recomendado), com um canal de *teste* opcional (`S3DataDistributionType=FullyReplicated` recomendado) nos quais pontuar os dados. Ambos os formatos `recordIO-wrapped-protobuf` e `CSV` têm suporte para treinamento. É possível usar o modo de Arquivo ou de Pipe para treinar modelos em dados formatados como `recordIO-wrapped-protobuf` ou `CSV`.

Para a inferência, `text/csv`, `application/json` e `application/x-recordio-protobuf` são compatíveis. O k-means retorna um rótulo `closest_cluster` e o `distance_to_cluster` para cada observação.

Para obter mais informações sobre formatos de arquivo de entrada e saída, consulte [K-Means Formatos de resposta](km-in-formats.md) para inferência e os [K-Means Amostras de cadernos](#kmeans-sample-notebooks). O algoritmo k-means não oferece suporte ao aprendizado de várias instâncias, em que o conjunto de treinamento consiste em “bolsas” rotuladas, sendo que cada uma delas é uma coleção de instâncias não rotuladas.

## Recomendação de instância do EC2 para o algoritmo K-Means
<a name="km-instances"></a>

Recomendamos o treinamento do k-means em instâncias de CPU. Você pode treiná-lo em instâncias de GPU, mas deve limitar o treinamento de GPU às instâncias de GPU única (como ml.g4dn.xlarge), porque apenas uma GPU é usada por instância. O algoritmo k-means oferece suporte às instâncias de P2, P3, G4dn e G5 para treinamento e inferência.

## K-Means Amostras de cadernos
<a name="kmeans-sample-notebooks"></a>

Para um exemplo de caderno que usa o K-means algoritmo de SageMaker IA para segmentar a população de condados nos Estados Unidos da América por atributos identificados usando a análise de componentes principais, [consulte Analisar dados do censo dos EUA para segmentação](https://sagemaker-examples.readthedocs.io/en/latest/introduction_to_applying_machine_learning/US-census_population_segmentation_PCA_Kmeans/sagemaker-countycensusclustering.html) populacional usando Amazon AI. SageMaker Para obter instruções sobre como criar e acessar instâncias do notebook Jupyter que você pode usar para executar o exemplo em SageMaker IA, consulte. [Instâncias de SageMaker notebook da Amazon](nbi.md) Depois de criar uma instância do notebook e abri-la, selecione a guia **Exemplos de SageMaker IA** para ver uma lista de todas as amostras de SageMaker IA. Para abrir um caderno, clique em sua guia **Uso** e selecione **Criar cópia**.