Diferenças de dados entre IA generativa e ML tradicional

O cenário da inteligência artificial é marcado por uma distinção fundamental entre as abordagens tradicionais de aprendizado de máquina e os sistemas modernos de IA generativa, principalmente na forma como eles processam e utilizam dados. Essa análise abrangente explora três dimensões principais dessa evolução tecnológica: as diferenças estruturais entre os tipos de dados, seus requisitos de processamento e as diversas modalidades de dados que os sistemas modernos de IA podem manipular. Também destaca como os dados sintéticos criados pela IA generativa estão surgindo como uma nova fonte de dados de treinamento. Os dados sintéticos possibilitam a implementação de casos de uso tradicionais de ML que antes eram limitados pela escassez de dados e pelas restrições de privacidade dos dados. Compreender essas distinções é crucial para as organizações, pois ajuda você a navegar pelas complexidades do gerenciamento de dados, do treinamento de modelos e das aplicações práticas em vários setores.

Dados estruturados e não estruturados

Os modelos tradicionais de ML e os sistemas modernos de IA generativa divergem significativamente em seus requisitos de dados e na natureza dos dados que manipulam.

O ML tradicional usa dados organizados em tabelas ou esquemas fixos ou conjuntos de dados de imagem e áudio selecionados com anotações. Os exemplos incluem modelos preditivos que analisam dados tabulares ou visão computacional clássica. Esses sistemas geralmente dependem de conjuntos de dados estruturados e rotulados. Para o aprendizado supervisionado, cada ponto de dados geralmente vem com um rótulo ou destino explícito, como uma imagem rotulada cat ou uma linha de dados de vendas com um valor alvo.

Por outro lado, os modelos generativos de IA prosperam em dados não estruturados ou semiestruturados. Isso inclui modelos de linguagem grandes (LLMs) e modelos de visão generativa ou de áudio. Eles não exigem rótulos explícitos para o pré-treinamento, que é quando aprendem a compreensão geral do idioma a partir de um conjunto de dados enorme e diversificado. Essa distinção é fundamental: os modelos geradores podem ingerir e aprender com grandes quantidades de texto ou imagens sem rotulagem manual. Isso é algo que o ML supervisionado tradicional não pode fazer.

Para se destacarem em tarefas ou domínios específicos, esses pré-treinados LLMs exigem treinamento específico para tarefas, que geralmente é chamado de ajuste fino. Envolve o treinamento adicional do modelo pré-treinado em um conjunto de dados menor e especializado com instruções ou pares de conclusão. Dessa forma, o ajuste fino de um modelo generativo de IA é como o processo de treinamento supervisionado para um modelo de ML tradicional.

Diversas modalidades de dados

Os modelos generativos modernos de IA processam e produzem uma ampla variedade de tipos de dados: texto, código, imagens, áudio, vídeo e até combinações, conhecidas como dados multimodais. Por exemplo, modelos básicos, como o Anthropic Claude, são treinados em dados textuais (páginas da web, livros, artigos) e até em grandes repositórios de código. Modelos de visão generativa, como Amazon Nova Canvas ou Stable Diffusion, aprendem com imagens que geralmente são combinadas com texto (legendas ou rótulos). Os modelos de áudio generativo podem consumir dados de ondas sonoras ou transcrições para gerar fala ou música.

Os sistemas generativos de IA são cada vez mais multimodais. Esses sistemas podem processar e produzir combinações de texto, imagens e áudio, com a capacidade de lidar com texto e mídia não estruturados em grande escala. Eles podem aprender as nuances de linguagem, visão e som que o ML tradicional de dados estruturados não consegue. Essa flexibilidade contrasta com os modelos de ML típicos, que geralmente se especializam em um tipo de dados por vez. Por exemplo, um modelo classificador de imagens não pode gerar texto, ou um modelo de processamento de linguagem natural (PNL) treinado para análise de sentimentos não pode criar imagens.

Até LLMs têm limites. Quando se trata de processar dados tabulares, como arquivos CSV, LLMs enfrentamos desafios notáveis durante a inferência. O estudo Uncovering Limitations of Large Language Models in Information Seeking from Tables destaca que LLMs muitas vezes é difícil entender as estruturas das tabelas e extrair informações com precisão. A pesquisa descobriu que o desempenho dos modelos variou de marginalmente satisfatório a inadequado, revelando uma compreensão deficiente das estruturas das mesas. O design inerente do LLMs contribui para essas limitações. Eles são treinados principalmente em dados de texto sequenciais, o que os capacita a prever e gerar conteúdo baseado em texto. No entanto, esse treinamento não se traduz perfeitamente na interpretação de dados tabulares, onde entender as relações entre linhas e colunas é crucial. Como resultado, LLMs pode interpretar mal o contexto ou a importância dos dados numéricos nas tabelas, levando a análises imprecisas.

Em essência, uma estratégia de dados corporativos para IA generativa deve considerar muito mais conteúdo não estruturado do que antes. As organizações precisam avaliar seu corpo de texto (documentos, e-mails, bases de conhecimento), repositórios de código, arquivos de áudio e vídeo e outras fontes de dados não estruturadas — não apenas as tabelas bem organizadas em seu data warehouse.

Síntese de dados para ML tradicional

A IA generativa pode superar algumas barreiras de longa data enfrentadas pelo aprendizado de máquina tradicional, particularmente aquelas relacionadas à escassez de dados e restrições de privacidade. Ao usar modelos básicos para gerar dados sintéticos — conjuntos de dados artificiais que imitam de perto as distribuições do mundo real — as organizações agora podem desvendar casos de uso de ML que antes estavam fora de alcance devido à escassez de dados, questões de privacidade e aos altos custos associados à coleta e anotação de grandes conjuntos de dados.

Na área da saúde, por exemplo, imagens médicas sintéticas têm sido usadas para aumentar os conjuntos de dados existentes. Isso pode aprimorar os modelos de diagnóstico e, ao mesmo tempo, proteger a confidencialidade do paciente. No setor financeiro, dados sintéticos podem ajudá-lo a simular cenários de mercado, o que ajuda na avaliação de riscos e na negociação algorítmica sem expor informações confidenciais. Dados sintéticos que simulam diversas condições de direção beneficiam o desenvolvimento de veículos autônomos. Ele facilita o treinamento de sistemas de visão computacional em cenários difíceis de capturar na vida real. Ao usar modelos básicos para geração de dados sintéticos, as organizações podem aprimorar o desempenho do modelo de ML, cumprir os regulamentos de privacidade de dados e desbloquear novos casos de uso em vários setores.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Introdução

Ciclo de vida dos dados