Desafios com as MLOps Benefícios das MLOps

Por que você deve usar MLOps?

À medida que você passa da execução de projetos individuais de inteligência artificial e aprendizado de máquina (AI/ML) para o uso AI/ML para transformar seus negócios em grande escala, a disciplina de operações de ML (MLOps) pode ajudar. O MLOps considera os aspectos exclusivos dos AI/ML projetos em gerenciamento de projetos e garantia de qualidade CI/CD, ajudando você a melhorar o tempo de entrega, reduzir defeitos e tornar a ciência de dados mais produtiva. MLOps se refere a uma metodologia baseada na aplicação de DevOps práticas às cargas de trabalho de aprendizado de máquina. Para uma discussão sobre os DevOps princípios, consulte o white paper Introdução a DevOps on AWS. Para saber mais sobre a implementação usando AWS serviços, consulte Praticando CI/CD AWS e Infraestrutura como Código.

Por exemplo DevOps, o MLOps se baseia em uma abordagem colaborativa e simplificada do ciclo de vida de desenvolvimento do aprendizado de máquina, em que a interseção de pessoas, processos e tecnologias otimiza as atividades completas necessárias para desenvolver, criar e operar cargas de trabalho de aprendizado de máquina.

O MLOps se concentra na interseção da ciência de dados e da engenharia de dados em combinação com DevOps as práticas existentes para agilizar a entrega de modelos em todo o ciclo de vida de desenvolvimento do aprendizado de máquina. O MLOps é a disciplina de integrar cargas de trabalho de ML ao gerenciamento de versões e às operações. CI/CD As MLOps requerem a integração de desenvolvimento de software, operações, engenharia de dados e ciência de dados.

Desafios com as MLOps

Embora as MLOps possam fornecer ferramentas valiosas para ajudá-lo a expandir seus negócios, você pode enfrentar alguns problemas ao integrar as MLOps às suas workloads de machine learning.

Gerenciamento de projetos

Os projetos de ML envolvem cientistas de dados, uma função relativamente nova e que nem sempre é integrada a equipes multifuncionais. Esses novos membros da equipe geralmente falam uma linguagem técnica muito diferente da dos proprietários de produtos e engenheiros de software, agravando o problema usual de traduzir requisitos comerciais em requisitos técnicos.

Comunicação e colaboração

Criar visibilidade em projetos de ML e permitir a colaboração entre diferentes partes interessadas, como engenheiros de dados, cientistas de dados, engenheiros de ML, DevOps está se tornando cada vez mais importante para garantir resultados bem-sucedidos.

Tudo é código

O uso de dados de produção em atividades de desenvolvimento, os ciclos de vida de experimentação mais longos, as dependências em pipelines de dados, o retreinamento de pipelines de implantação e as métricas exclusivas na avaliação do desempenho de um modelo.
Os modelos geralmente têm um ciclo de vida independente das aplicações e sistemas que integram com esses modelos.
Todo o sistema de ponta a ponta é reproduzível por meio de código versionado e artefatos. DevOps os projetos usam Infrastructure-as-Code (IaC) e Configuration-as-Code (CAc) para criar ambientes e Pipelines-as-Code (PAc) para garantir padrões consistentes. CI/CD Os pipelines precisam se integrar aos fluxos de trabalho de treinamento de Big Data e ML. Isso geralmente significa que o pipeline é uma combinação de uma CI/CD ferramenta tradicional e outro mecanismo de fluxo de trabalho. Há questões políticas importantes em muitos projetos de ML, portanto, o pipeline também pode precisar aplicar essas políticas. Dados de entrada tendenciosos produzem resultados tendenciosos, uma preocupação crescente para investidores empresariais.

CI/CD

Em MLOps, os dados fonte são uma entrada de primeira classe, junto com o código-fonte. É por isso que as MLOps exigem o controle de versão dos dados fonte e o início das execuções do pipeline quando os dados fonte ou de inferência são alterados.
Os pipelines também devem criar uma versão dos modelos de ML, junto com as entradas e outras saídas, a fim de fornecer rastreabilidade.
Os testes automatizados devem incluir a validação adequada do modelo de ML durante as fases de criação e quando o modelo estiver em produção.
As fases de criação podem incluir treinamento e retreinamento de modelos, um processo demorado e que consome muitos recursos. Os pipelines devem ser granulares o suficiente para realizar um ciclo completo de treinamento somente quando os dados fonte ou o código de ML forem alterados, não quando os componentes relacionados mudarem.
Como o código de machine learning geralmente é uma pequena parte de uma solução geral, um pipeline de implantação também pode incorporar as etapas adicionais necessárias para empacotar um modelo para consumo como uma API por outras aplicações e sistemas.

Monitoramento e registro

As fases de engenharia de atributos e treinamento de modelos necessárias para capturar métricas de treinamento de modelos, bem como experimentos com modelos. O ajuste de um modelo de ML requer a manipulação da forma dos dados de entrada, bem como dos hiperparâmetros do algoritmo, e a captura sistemática desses experimentos. O rastreamento de experimentos ajuda os cientistas de dados a trabalhar com mais eficiência e fornece um snapshot reproduzível de seu trabalho.
Os modelos de ML implantados exigem o monitoramento dos dados passados ao modelo para inferência, junto com as métricas padrão de estabilidade e performance do endpoint. O sistema de monitoramento também deve capturar a qualidade da saída do modelo, conforme avaliada por uma métrica de ML apropriada.

Benefícios das MLOps

A adoção das práticas de MLOps proporciona um tempo mais rápido de colocação de projetos de ML no mercado, oferecendo os seguintes benefícios:

Produtividade: fornecer aos ambientes de autoatendimento acesso a conjuntos de dados selecionados permite que engenheiros e cientistas de dados se avancem mais rapidamente e percam menos tempo com dados perdidos ou inválidos.
Repetibilidade: automatizar todas as etapas do MLDC ajuda a garantir um processo repetível, incluindo como o modelo é treinado, avaliado, versionado e implantado.
Confiabilidade: a incorporação de CI/CD práticas permite não apenas implantar rapidamente, mas com maior qualidade e consistência.
Auditabilidade: o controle de versão de todas as entradas e saídas, desde experimentos de ciência de dados até dados fonte e modelo treinado, significa que podemos demonstrar exatamente como o modelo foi construído e onde foi implantado.
Qualidade dos dados e do modelo: as MLOps nos permitem aplicar políticas que protegem contra o desvio do modelo e rastreiam as alterações nas propriedades estatísticas dos dados e na qualidade do modelo ao longo do tempo.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Implementar MLOps

Experimentos