生成 AI と従来の ML のデータの違い

人工知能のランドスケープは、従来の機械学習アプローチと最新の生成 AI システムとの根本的な違い、特にデータの処理と利用方法によって特徴付けられています。この包括的な分析では、この技術進化の 3 つの主要な側面、データ型間の構造的な違い、処理要件、最新の AI システムが処理できるデータの多様なモダリティについて調べます。また、生成 AI によって作成された合成データが、トレーニングデータの新しいソースとしてどのように出現しているかについても説明します。合成データを使用すると、以前はデータ不足やデータプライバシーの制約によって制限されていた従来の ML ユースケースを実装できます。これらの違いを理解することは、さまざまな業界のデータ管理、モデルトレーニング、実用的なアプリケーションの複雑さをナビゲートするのに役立つため、組織にとって不可欠です。

構造化データと非構造化データ

従来の ML モデルと最新の生成 AI システムは、データ要件と処理するデータの性質に大きく異なります。

従来の ML では、テーブルまたは固定スキーマ、または注釈付きのキュレートされた画像およびオーディオデータセットに整理されたデータを使用します。例としては、表形式データや従来のコンピュータビジョンを分析する予測モデルなどがあります。これらのシステムは、多くの場合、構造化されたラベル付きデータセットに依存しています。教師あり学習の場合、各データポイントには通常、ラベル付きのイメージやターゲット値を持つ販売データの行など、明示的なラベルcatまたはターゲットが付属しています。

対照的に、生成 AI モデルは非構造化データまたは半構造化データに依存します。これには、大規模言語モデル (LLMsと生成ビジョンまたはオーディオモデルが含まれます。事前トレーニングには明示的なラベルは必要ありません。これは、大規模で多様なデータセットから一般的な言語理解を学ぶ場合です。この区別が重要です。生成モデルは、手動ラベル付けなしで大量のテキストや画像を取り込んで学習できます。これは、従来の教師あり ML ではできないことです。

特定のタスクまたはドメインに優れているために、これらの事前トレーニング済みの LLMs にはタスク固有のトレーニングが必要です。これは多くの場合、ファインチューニングと呼ばれます。これには、指示または完了ペアを使用して、より小さく特殊なデータセットで事前トレーニング済みのモデルをさらにトレーニングする必要があります。このように、生成 AI モデルの微調整は、従来の ML モデルの教師ありトレーニングのプロセスに似ています。

多様なデータモダリティ

最新の生成 AI モデルは、テキスト、コード、画像、オーディオ、ビデオ、さらにはマルチモーダルデータと呼ばれる組み合わせなど、さまざまなデータ型を処理し、生成します。たとえば、Anthropic Claude などの基盤モデルは、テキストデータ (ウェブページ、書籍、記事) や大規模なコードリポジトリでトレーニングされます。Amazon Nova Canvas や Stable Diffusion などの生成ビジョンモデルは、テキスト (字幕やラベル) と組み合わせることが多いイメージから学習します。生成オーディオモデルは、音声や音楽を生成するために音波データやトランスクリプトを消費する可能性があります。

生成 AI システムはますますマルチモーダルになっています。これらのシステムは、テキスト、画像、オーディオの組み合わせを処理および生成でき、非構造化テキストとメディアを大規模に処理できます。従来の構造化データ ML ではできない言語、ビジョン、サウンドのニュアンスを学習できます。この柔軟性は、通常一度に 1 つのデータ型を専門とする一般的な ML モデルとは対照的です。たとえば、イメージ分類子モデルはテキストを生成できないか、感情分析用にトレーニングされた自然言語処理 (NLP) モデルはイメージを作成できません。

LLMs にも制限があります。CSV ファイルなどの表形式のデータを処理する場合、LLMs推論中に顕著な課題に直面します。「テーブルから情報を求める大規模言語モデルの制限の発見」の研究では、LLMsテーブル構造を理解し、情報を正確に抽出するのに苦労することがよくあることを強調しています。調査では、モデルのパフォーマンスがわずかに満足できるものから不十分なものまでの範囲にあり、テーブル構造の把握が不十分であることがわかりました。LLMsに寄与します。これらは主にシーケンシャルテキストデータでトレーニングされ、テキストベースのコンテンツを予測して生成できるようにします。ただし、このトレーニングは、行と列の関係を理解することが重要な表形式のデータの解釈にシームレスに変換されません。その結果、LLMsテーブル内の数値データのコンテキストや重要性を誤って解釈し、不正確な分析につながる可能性があります。

本質的に、生成 AI のエンタープライズデータ戦略は、以前よりもはるかに構造化されていないコンテンツを考慮する必要があります。組織は、データウェアハウス内の整理されたテーブルだけでなく、テキストの本文 (ドキュメント、E メール、ナレッジベース）、コードリポジトリ、オーディオおよびビデオアーカイブ、その他の非構造化データソースを評価する必要があります。

従来の ML のデータ合成

生成 AI は、従来の機械学習が直面する長期的な障壁、特にデータ不足やプライバシーの制約に関連する障壁を克服できます。基盤モデルを使用して、実際のディストリビューションを模倣した人工データセットである合成データを生成することで、組織は、データ不足、プライバシーの懸念、大規模なデータセットの収集と注釈付けに関連する高いコストが原因で、以前は到達できなかった ML ユースケースを解放できるようになりました。

たとえば、医療では、合成医療画像を使用して既存のデータセットを補強しています。これにより、患者の機密性を保護しながら、診断モデルを強化できます。金融部門では、合成データは市場シナリオをシミュレートするのに役立ちます。これは、機密情報を公開することなくリスク評価やアルゴリズム取引に役立ちます。多様な運転条件をシミュレートする合成データは、自動運転車の開発にメリットがあります。これにより、実際の環境でのキャプチャが困難なシナリオでのコンピュータビジョンシステムのトレーニングが容易になります。合成データ生成に基盤モデルを使用することで、組織は ML モデルのパフォーマンスを向上させ、データプライバシー規制に準拠し、さまざまな業界で新しいユースケースを開拓できます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

序章

データライフサイクル