

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Data Wrangler でのデータ処理の仕組み
<a name="canvas-data-processing"></a>

Amazon SageMaker Data Wrangler データフローでデータをインタラクティブに操作している間、Amazon SageMaker Canvas ではサンプルデータセットにのみ変換を適用し、プレビューできるようにします。SageMaker Canvas でデータフローが完了したら、すべてのデータを処理して、機械学習ワークフローに適した場所に保存できます。

Data Wrangler でのデータの変換が終了した後の手順として、次のいくつかのオプションがあります。
+ [モデルを作成する](canvas-processing-export-model.md)。Canvas モデルを作成できます。ここでは、準備したデータを使用してモデルの作成を直接開始します。データセット全体を処理した後、または Data Wrangler で操作したサンプルデータのみをエクスポートすることで、モデルを作成できます。処理されたデータ (データセット全体またはサンプルデータ) は Canvas データセットとして保存されます。

  サンプルデータを使用して迅速な反復を行うことをお勧めしますが、最終モデルをトレーニングする場合はデータ全体を使用することをお勧めします。表形式モデルを構築する場合、5 GB を超えるデータセットは自動的に 5 GB にダウンサンプリングされます。時系列予測モデルの場合、30 GB を超えるデータセットは 30 GB にダウンサンプリングされます。

  モデルの作成の詳細については、「[カスタムモデルの仕組み](canvas-build-model.md)」を参照してください。
+ [データをエクスポートする](canvas-export-data.md)。データをエクスポートして、機械学習ワークフローで使用できます。データをエクスポートすることを選択した場合には、いくつかのオプションがあります。
  + データをデータセットとして Canvas アプリケーションに保存できます。Canvas データセットでサポートされているファイルの種類と、Canvas にデータをインポートする際の追加要件の詳細については、「[データセットの作成](canvas-import-dataset.md)」を参照してください。
  + データを Amazon S3 に保存できます。Canvas メモリの可用性に応じて、データはアプリケーション内で処理され、Amazon S3 にエクスポートされます。データセットのサイズが Canvas で処理できるサイズを超える場合、デフォルトでは、Canvas は EMR Serverless ジョブを使用して複数のコンピューティングインスタンスにスケールし、完全なデータセットを処理した後、Amazon S3 にエクスポートします。SageMaker Processing ジョブを手動で設定して、データの処理に使用されるコンピューティングリソースをより詳細に制御することもできます。
+ [データフローをエクスポートする](canvas-export-data-flow.md)。Canvas の外部で変換を変更または実行できるように、データフローのコードを保存することもできます。Canvas には、データフロー変換を Jupyter Notebook に Python コードとして保存するためのオプションがあります。このフローは Amazon S3 にエクスポートして、機械学習ワークフローの他の場所で使用することができます。

データをデータフローからエクスポートし、Canvas データセットとして、または Amazon S3 に保存すると、データフローに新しい送信先ノードが作成されます。これは、処理されたデータが保存されている場所を示す最後のノードです。複数のエクスポート操作を実行する場合は、追加の送信先ノードをフローに追加できます。例えば、データフロー内の異なる時点からデータをエクスポートして、変換の一部のみを適用したり、変換したデータを異なる Amazon S3 ロケーションにエクスポートしたりできます。送信先ノードを追加または編集する方法の詳細については、「[宛先ノードの追加](canvas-destination-nodes-add.md)」および「[宛先ノードを編集する](canvas-destination-nodes-edit.md)」を参照してください。

Amazon EventBridge でスケジュールを設定して、スケジュールに従ってデータを自動的に処理およびエクスポートする方法の詳細については、「[新しいデータを自動的に処理するスケジュールを作成する](canvas-data-export-schedule-job.md)」を参照してください。