Différences de données entre l'IA générative et le ML traditionnel

Le paysage de l'intelligence artificielle est marqué par une distinction fondamentale entre les approches traditionnelles d'apprentissage automatique et les systèmes modernes d'IA générative, en particulier dans la manière dont ils traitent et utilisent les données. Cette analyse complète explore trois dimensions clés de cette évolution technologique : les différences structurelles entre les types de données, leurs exigences de traitement et les diverses modalités de traitement des données que les systèmes d'IA modernes peuvent gérer. Il montre également comment les données synthétiques créées par l'IA générative sont en train de devenir une nouvelle source de données d'entraînement. Les données synthétiques permettent de mettre en œuvre des cas d'utilisation traditionnels du ML qui étaient auparavant limités par la rareté des données et les contraintes de confidentialité des données. Comprendre ces distinctions est essentiel pour les entreprises, car cela vous permet de vous y retrouver dans les complexités de la gestion des données, de la formation des modèles et des applications pratiques dans différents secteurs.

Cette section contient les rubriques suivantes :

Données structurées et non structurées
Diverses modalités de données
Synthèse de données pour le ML traditionnel

Données structurées et non structurées

Les modèles ML traditionnels et les systèmes modernes d'IA générative divergent considérablement en ce qui concerne leurs exigences en matière de données et la nature des données qu'ils traitent.

Le ML traditionnel utilise des données organisées sous forme de tableaux ou de schémas fixes ou de jeux de données audio et d'images sélectionnés contenant des annotations. Les exemples incluent les modèles prédictifs qui analysent les données tabulaires ou la vision par ordinateur classique. Ces systèmes s'appuient souvent sur des ensembles de données structurés et étiquetés. Pour l'apprentissage supervisé, chaque point de données est généralement accompagné d'une étiquette ou d'une cible explicite, telle qu'une image étiquetée cat ou une ligne de données de vente comportant une valeur cible.

En revanche, les modèles d'IA générative s'appuient sur des données non structurées ou semi-structurées. Cela inclut les grands modèles de langage (LLMs) et les modèles de vision générative ou audio. Ils n'ont pas besoin d'étiquettes explicites pour la pré-formation, c'est-à-dire lorsqu'ils apprennent la compréhension générale du langage à partir d'un ensemble de données massif et diversifié. Cette distinction est essentielle : les modèles génératifs peuvent assimiler et apprendre de grandes quantités de texte ou d'images sans étiquetage manuel. C'est quelque chose que le ML traditionnel supervisé ne peut pas faire.

Pour exceller dans des tâches ou des domaines spécifiques, les personnes préformées LLMs nécessitent une formation spécifique à la tâche, souvent appelée ajustement fin. Cela implique de poursuivre l'entraînement du modèle préentraîné sur un ensemble de données spécialisé plus petit avec des instructions ou des paires de complétion. De cette façon, affiner un modèle d'IA générative s'apparente au processus de formation supervisée pour un modèle de machine learning traditionnel.

Diverses modalités de données

Les modèles modernes d'IA générative traitent et produisent un large éventail de types de données : texte, code, images, audio, vidéo et même des combinaisons, appelées données multimodales. Par exemple, les modèles de base tels qu'Anthropic Claude sont entraînés sur des données textuelles (pages Web, livres, articles) et même sur de grands référentiels de code. Les modèles de vision générative, tels qu'Amazon Nova Canvas ou Stable Diffusion, apprennent à partir d'images souvent associées à du texte (légendes ou étiquettes). Les modèles audio génératifs peuvent utiliser des données d'ondes sonores ou des transcriptions pour générer de la parole ou de la musique.

Les systèmes d'IA générative sont de plus en plus multimodaux. Ces systèmes peuvent traiter et produire des combinaisons de texte, d'images et d'audio, tout en étant capables de gérer du texte et des médias non structurés à grande échelle. Ils peuvent apprendre les nuances du langage, de la vision et du son que le ML traditionnel à données structurées ne peut pas maîtriser. Cette flexibilité contraste avec les modèles ML classiques, qui se spécialisent généralement dans un type de données à la fois. Par exemple, un modèle de classificateur d'images ne peut pas générer de texte, ou un modèle de traitement du langage naturel (NLP) entraîné pour l'analyse des sentiments ne peut pas créer d'images.

J' LLMs ai même des limites. Lorsqu'il s'agit de traiter des données tabulaires, telles que les fichiers CSV, les inférences se LLMs heurtent à des défis considérables. L'étude Uncovering Limits of Large Language Models in Information Seeking from Tables met en évidence les LLMs difficultés rencontrées pour comprendre les structures des tables et extraire des informations avec précision. L'étude a révélé que les performances des modèles variaient de légèrement satisfaisantes à inadéquates, révélant une mauvaise compréhension des structures des tables. La conception inhérente de LLMs contribue à ces limites. Ils sont principalement formés sur des données textuelles séquentielles, ce qui leur permet de prévoir et de générer du contenu textuel. Cependant, cette formation ne se traduit pas parfaitement par l'interprétation des données tabulaires, où il est essentiel de comprendre les relations entre les lignes et les colonnes. Par conséquent, le contexte ou la signification des données numériques dans les tableaux LLMs peuvent être mal interprétés, ce qui peut entraîner des analyses inexactes.

Essentiellement, une stratégie de données d'entreprise pour l'IA générative doit prendre en compte bien plus de contenus non structurés qu'auparavant. Organisations doivent évaluer le corps de leur texte (documents, e-mails, bases de connaissances), leurs référentiels de code, leurs archives audio et vidéo et leurs autres sources de données non structurées, et pas seulement les tableaux bien organisés de leur entrepôt de données.

Synthèse de données pour le ML traditionnel

L'IA générative peut surmonter certains obstacles de longue date auxquels se heurte l'apprentissage automatique traditionnel, en particulier ceux liés à la rareté des données et aux contraintes de confidentialité. En utilisant des modèles de base pour générer des données synthétiques, c'est-à-dire des ensembles de données artificiels qui imitent étroitement les distributions du monde réel, les entreprises peuvent désormais découvrir des cas d'utilisation du machine learning qui étaient auparavant hors de portée en raison de la rareté des données, des problèmes de confidentialité et des coûts élevés associés à la collecte et à l'annotation de grands ensembles de données.

Dans le secteur de la santé, par exemple, des images médicales synthétiques ont été utilisées pour compléter les ensembles de données existants. Cela peut améliorer les modèles de diagnostic tout en préservant la confidentialité des patients. Dans le secteur financier, les données synthétiques peuvent vous aider à simuler des scénarios de marché, ce qui facilite l'évaluation des risques et le trading algorithmique sans exposer d'informations sensibles. Les données synthétiques simulant diverses conditions de conduite favorisent le développement de véhicules autonomes. Il facilite la formation des systèmes de vision par ordinateur dans des scénarios difficiles à saisir dans la vie réelle. En utilisant des modèles de base pour la génération de données synthétiques, les entreprises peuvent améliorer les performances des modèles de machine learning, se conformer aux réglementations en matière de confidentialité des données et découvrir de nouveaux cas d'utilisation dans différents secteurs.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Introduction

Cycle de vie des données