

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Refinación de datos durante el entrenamiento con Amazon SageMaker Smart Sifting
<a name="train-smart-sifting"></a>

SageMaker El tamizado inteligente es una capacidad de SageMaker entrenamiento que ayuda a mejorar la eficiencia de los conjuntos de datos de entrenamiento y a reducir el tiempo y el costo total del entrenamiento.

Los modelos de aprendizaje profundo modernos, como los modelos de lenguaje grandes (LLM) o los modelos de transformador de visión, suelen requerir conjuntos de datos masivos para lograr una exactitud aceptable. Por ejemplo, los LLM suelen requerir billones de fichas o petabytes de datos para converger. El tamaño creciente de los conjuntos de datos de entrenamiento, junto con el tamaño de los modelos más avanzados, pueden aumentar el tiempo de computación y el costo del entrenamiento de los modelos.

De manera invariable, las muestras de un conjunto de datos no contribuyen por igual al proceso de aprendizaje durante el entrenamiento del modelo. Una proporción importante de los recursos computacionales aprovisionados durante el entrenamiento podría dedicarse a procesar muestras sencillas que no contribuyen de manera considerable a la exactitud general de un modelo. Lo ideal sería que los conjuntos de datos de entrenamiento solo incluyeran muestras que realmente mejoren la convergencia del modelo. El filtrado de los datos menos útiles puede reducir el tiempo de entrenamiento y los costos de computación. Sin embargo, la identificación de los datos menos útiles puede resultar difícil y arriesgado. Es prácticamente difícil identificar qué ejemplos son menos informativos antes del entrenamiento, y la exactitud del modelo puede verse afectada si se excluyen ejemplos incorrectos o demasiados ejemplos.

El filtrado inteligente de los datos con Amazon SageMaker AI puede ayudar a reducir el tiempo y los costes de formación al mejorar la eficiencia de los datos. El algoritmo de filtrado SageMaker inteligente evalúa el valor de pérdida de cada dato durante la fase de carga de datos de un trabajo de formación y excluye las muestras que son menos informativas para el modelo. Al utilizar datos refinados para el entrenamiento, se reducen el tiempo y el costo totales del entrenamiento del modelo, ya que se eliminan las transferencias innecesarias hacia adelante y hacia atrás de los datos que no mejoran. Por lo tanto, el impacto en la exactitud del modelo es mínimo o nulo.

SageMaker El filtrado inteligente está disponible a través de SageMaker Training Deep Learning Containers (DLC) y admite PyTorch cargas de trabajo a través del. PyTorch `DataLoader` Solo se necesitan unas pocas líneas de código para implementar el tamizado SageMaker inteligente y no es necesario cambiar los flujos de trabajo actuales de formación o procesamiento de datos.

**Topics**
+ [Cómo funciona el tamizado SageMaker inteligente](train-smart-sifting-how-it-works.md)
+ [Marcos compatibles y AWS Regions](train-smart-sifting-what-is-supported.md)
+ [SageMaker selección inteligente dentro de tu guion de entrenamiento](train-smart-sifting-apply-to-script.md)
+ [Resolución de problemas](train-smart-sifting-best-prac-considerations-troubleshoot.md)
+ [Seguridad en el tamizado inteligente SageMaker](train-smart-sifting-security.md)
+ [SageMaker referencia del SDK de Python para tamizado inteligente](train-smart-sifting-pysdk-reference.md)
+ [SageMaker notas de publicación sobre el tamizado inteligente](train-smart-sifting-release-notes.md)