View a markdown version of this page

Por que você deve usar MLOps? - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Por que você deve usar MLOps?

À medida que você passa da execução de projetos individuais de inteligência artificial e aprendizado de máquina (AI/ML) para o uso AI/ML para transformar seus negócios em grande escala, a disciplina de operações de ML (MLOps) pode ajudar. O MLOps considera os aspectos exclusivos dos AI/ML projetos em gerenciamento de projetos e garantia de qualidade CI/CD, ajudando você a melhorar o tempo de entrega, reduzir defeitos e tornar a ciência de dados mais produtiva. MLOps se refere a uma metodologia baseada na aplicação de DevOps práticas às cargas de trabalho de aprendizado de máquina. Para uma discussão sobre os DevOps princípios, consulte o white paper Introdução a DevOps on AWS. Para saber mais sobre a implementação usando AWS serviços, consulte Praticando CI/CD AWS e Infraestrutura como Código.

Por exemplo DevOps, o MLOps se baseia em uma abordagem colaborativa e simplificada do ciclo de vida de desenvolvimento do aprendizado de máquina, em que a interseção de pessoas, processos e tecnologias otimiza as atividades completas necessárias para desenvolver, criar e operar cargas de trabalho de aprendizado de máquina.

O MLOps se concentra na interseção da ciência de dados e da engenharia de dados em combinação com DevOps as práticas existentes para agilizar a entrega de modelos em todo o ciclo de vida de desenvolvimento do aprendizado de máquina. O MLOps é a disciplina de integrar cargas de trabalho de ML ao gerenciamento de versões e às operações. CI/CD As MLOps requerem a integração de desenvolvimento de software, operações, engenharia de dados e ciência de dados.

Desafios com as MLOps

Embora as MLOps possam fornecer ferramentas valiosas para ajudá-lo a expandir seus negócios, você pode enfrentar alguns problemas ao integrar as MLOps às suas workloads de machine learning.

Gerenciamento de projetos

  • Os projetos de ML envolvem cientistas de dados, uma função relativamente nova e que nem sempre é integrada a equipes multifuncionais. Esses novos membros da equipe geralmente falam uma linguagem técnica muito diferente da dos proprietários de produtos e engenheiros de software, agravando o problema usual de traduzir requisitos comerciais em requisitos técnicos.

Comunicação e colaboração

  • Criar visibilidade em projetos de ML e permitir a colaboração entre diferentes partes interessadas, como engenheiros de dados, cientistas de dados, engenheiros de ML, DevOps está se tornando cada vez mais importante para garantir resultados bem-sucedidos.

Tudo é código

  • O uso de dados de produção em atividades de desenvolvimento, os ciclos de vida de experimentação mais longos, as dependências em pipelines de dados, o retreinamento de pipelines de implantação e as métricas exclusivas na avaliação do desempenho de um modelo.

  • Os modelos geralmente têm um ciclo de vida independente das aplicações e sistemas que integram com esses modelos.

  • Todo o sistema de ponta a ponta é reproduzível por meio de código versionado e artefatos. DevOps os projetos usam Infrastructure-as-Code (IaC) e Configuration-as-Code (CAc) para criar ambientes e Pipelines-as-Code (PAc) para garantir padrões consistentes. CI/CD Os pipelines precisam se integrar aos fluxos de trabalho de treinamento de Big Data e ML. Isso geralmente significa que o pipeline é uma combinação de uma CI/CD ferramenta tradicional e outro mecanismo de fluxo de trabalho. Há questões políticas importantes em muitos projetos de ML, portanto, o pipeline também pode precisar aplicar essas políticas. Dados de entrada tendenciosos produzem resultados tendenciosos, uma preocupação crescente para investidores empresariais.

CI/CD

  • Em MLOps, os dados fonte são uma entrada de primeira classe, junto com o código-fonte. É por isso que as MLOps exigem o controle de versão dos dados fonte e o início das execuções do pipeline quando os dados fonte ou de inferência são alterados.

  • Os pipelines também devem criar uma versão dos modelos de ML, junto com as entradas e outras saídas, a fim de fornecer rastreabilidade.

  • Os testes automatizados devem incluir a validação adequada do modelo de ML durante as fases de criação e quando o modelo estiver em produção.

  • As fases de criação podem incluir treinamento e retreinamento de modelos, um processo demorado e que consome muitos recursos. Os pipelines devem ser granulares o suficiente para realizar um ciclo completo de treinamento somente quando os dados fonte ou o código de ML forem alterados, não quando os componentes relacionados mudarem.

  • Como o código de machine learning geralmente é uma pequena parte de uma solução geral, um pipeline de implantação também pode incorporar as etapas adicionais necessárias para empacotar um modelo para consumo como uma API por outras aplicações e sistemas.

Monitoramento e registro

  • As fases de engenharia de atributos e treinamento de modelos necessárias para capturar métricas de treinamento de modelos, bem como experimentos com modelos. O ajuste de um modelo de ML requer a manipulação da forma dos dados de entrada, bem como dos hiperparâmetros do algoritmo, e a captura sistemática desses experimentos. O rastreamento de experimentos ajuda os cientistas de dados a trabalhar com mais eficiência e fornece um snapshot reproduzível de seu trabalho.

  • Os modelos de ML implantados exigem o monitoramento dos dados passados ao modelo para inferência, junto com as métricas padrão de estabilidade e performance do endpoint. O sistema de monitoramento também deve capturar a qualidade da saída do modelo, conforme avaliada por uma métrica de ML apropriada.

Benefícios das MLOps

A adoção das práticas de MLOps proporciona um tempo mais rápido de colocação de projetos de ML no mercado, oferecendo os seguintes benefícios:

  • Produtividade: fornecer aos ambientes de autoatendimento acesso a conjuntos de dados selecionados permite que engenheiros e cientistas de dados se avancem mais rapidamente e percam menos tempo com dados perdidos ou inválidos.

  • Repetibilidade: automatizar todas as etapas do MLDC ajuda a garantir um processo repetível, incluindo como o modelo é treinado, avaliado, versionado e implantado.

  • Confiabilidade: a incorporação de CI/CD práticas permite não apenas implantar rapidamente, mas com maior qualidade e consistência.

  • Auditabilidade: o controle de versão de todas as entradas e saídas, desde experimentos de ciência de dados até dados fonte e modelo treinado, significa que podemos demonstrar exatamente como o modelo foi construído e onde foi implantado.

  • Qualidade dos dados e do modelo: as MLOps nos permitem aplicar políticas que protegem contra o desvio do modelo e rastreiam as alterações nas propriedades estatísticas dos dados e na qualidade do modelo ao longo do tempo.