

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# データのインポート
<a name="canvas-importing-data"></a>

Amazon SageMaker Canvas は、表形式、画像、およびドキュメントデータのインポートをサポートしています。ローカルマシン、Amazon S3 や Amazon Redshift などの Amazon サービス、および外部データソースからデータセットをインポートできます。Amazon S3 からデータセットをインポートするときは、任意のサイズのデータセットを取り込むことができます。インポートしたデータセットを使用して、モデルの構築や他のデータセットの予測を行えます。

カスタムモデルを構築できる各ユースケースでは、それぞれ異なるタイプの入力を受け入れます。例えば、単一ラベルの画像分類モデルを構築する場合は、画像データをインポートする必要があります。さまざまなモデルタイプとそれらが受け入れるデータの詳細については、「[カスタムモデルの仕組み](canvas-build-model.md)」を参照してください。SageMaker Canvas では、次のデータ型のデータをインポートして、カスタムモデルを構築できます。
+ **表形式** (CSV、Parquet、または表)
  + カテゴリ — カテゴリデータを使用して、2 つ以上のカテゴリ予測と 3 つ以上のカテゴリ予測用のカスタムカテゴリ予測モデルを構築します。
  + 数値 — 数値データを使用して数値予測カスタムモデルを構築します。
  + テキスト — テキストデータを使用して、マルチカテゴリのテキスト予測カスタムモデルを構築します。
  + 時系列 — 時系列データを使用して時系列予測カスタムモデルを構築します。
+ **画像** (JPG または PNG) — 画像データを使用して単一ラベル画像予測カスタムモデルを構築します。
+ **ドキュメント** (PDF、JPG、PNG、TIFF) — ドキュメントデータは SageMaker Canvas の Ready-to-use モデルでのみサポートされています。ドキュメントデータの予測を行う Ready-to-use モデルの詳細については、「[Ready-to-use モデル](canvas-ready-to-use-models.md)」を参照してください。

Canvas には、以下のデータソースからデータをインポートできます。
+ コンピュータ上のローカルファイル
+ Amazon S3 バケット
+ Amazon Redshift でプロビジョニングされたクラスター (Amazon Redshift Serverless ではない)
+ AWS Glue Data Catalog Amazon Athena 経由
+ Amazon Aurora
+ Amazon Relational Database Service (Amazon RDS)
+ Salesforce Data Cloud
+ Snowflake
+ Databricks、SQLServer、MariaDB、およびその他の一般的なデータベース (JDBC コネクタを使用)
+ SAP OData などの 40 以上の外部 SaaS プラットフォーム

インポート元となるデータソースの完全なリストについては、次の表を参照してください。


| ソース | タイプ | サポートされているデータ型 | 
| --- | --- | --- | 
| ローカルファイルのアップロード | ローカル | 表形式、画像、ドキュメント | 
| Amazon Aurora | Amazon 内部 | 表形式 | 
| Amazon S3 バケット | Amazon 内部 | 表形式、画像、ドキュメント | 
| Amazon RDS | Amazon 内部 | 表形式 | 
| Amazon Redshift でプロビジョニングされたクラスター (Redshift Serverless ではない) | Amazon 内部 | 表形式 | 
| AWS Glue Data Catalog (Amazon Athena 経由) | Amazon 内部 | 表形式 | 
| [Databricks](https://www.databricks.com/) | 外部 | 表形式 | 
| Snowflake | 外部 | 表形式 | 
| [Salesforce Data Cloud](https://www.salesforce.com/products/genie/overview/) | 外部 | 表形式 | 
| SQLServer | 外部 | 表形式 | 
| MySQL | 外部 | 表形式 | 
| [PostgreSQL] | 外部 | 表形式 | 
| MariaDB | 外部 | 表形式 | 
| [Amplitude](https://docs.aws.amazon.com/appflow/latest/userguide/amplitude.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [CircleCI](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-circleci.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [DocuSign Monitor](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-docusign-monitor.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Domo](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-domo.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Datadog](https://docs.aws.amazon.com/appflow/latest/userguide/datadog.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Dynatrace](https://docs.aws.amazon.com/appflow/latest/userguide/dynatrace.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Facebook 広告](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-facebook-ads.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Facebook Page Insights](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-facebook-page-insights.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Google 広告](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-ads.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Google Analytics 4](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-analytics-4.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Google 検索コンソール](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-search-console.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [GitHub](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-github.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [GitLab](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-gitlab.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Infor Nexus](https://docs.aws.amazon.com/appflow/latest/userguide/infor-nexus.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Instagram 広告](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-instagram-ads.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Jira Cloud](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-jira-cloud.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [LinkedIn 広告](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-linkedin-ads.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [LinkedIn 広告](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-linkedin-ads.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Mailchimp](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-mailchimp.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Marketo](https://docs.aws.amazon.com/appflow/latest/userguide/marketo.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Microsoft Teams](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-microsoft-teams.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Mixpanel](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-mixpanel.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Okta](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-okta.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Salesforce](https://docs.aws.amazon.com/appflow/latest/userguide/salesforce.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Salesforce Marketing Cloud](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-salesforce-marketing-cloud.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Salesforce Pardot](https://docs.aws.amazon.com/appflow/latest/userguide/pardot.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [SAP OData](https://docs.aws.amazon.com/appflow/latest/userguide/sapodata.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [SendGrid](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-sendgrid.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [ServiceNow](https://docs.aws.amazon.com/appflow/latest/userguide/servicenow.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Singular](https://docs.aws.amazon.com/appflow/latest/userguide/singular.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Slack](https://docs.aws.amazon.com/appflow/latest/userguide/slack.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Stripe](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-stripe.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Trend Micro](https://docs.aws.amazon.com/appflow/latest/userguide/trend-micro.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Typeform](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-typeform.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Veeva](https://docs.aws.amazon.com/appflow/latest/userguide/veeva.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Zendesk](https://docs.aws.amazon.com/appflow/latest/userguide/zendesk.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Zendesk Chat](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-chat.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Zendesk Sell](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-sell.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Zendesk Sunshine](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-sunshine.html) | 外部 SaaS プラットフォーム | 表形式 | 
| [Zoom Meetings](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zoom.html) | 外部 SaaS プラットフォーム | 表形式 | 

データのインポート方法や、画像の最大ファイルサイズなどの入力データの要件に関する情報については、「[データセットの作成](canvas-import-dataset.md)」を参照してください。

また、Canvas をすぐに使用できるように、サンプルデータセットもいくつか用意されています。SageMaker AI が提供する実験可能なサンプルデータセットの詳細については、「[サンプルデータセットを使用する](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-sample-datasets.html)」を参照してください。

データセットを Canvas にインポートした後は、いつでもデータセットを更新できます。手動で更新することも、データセットを自動更新するスケジュールを設定することもできます。詳細については、「[データセットを更新する](canvas-update-dataset.md)」を参照してください。

各データセットの詳細については、以下のセクションを参照してください。

**表形式**

外部データソース (Snowflake データベースや SaaS プラットフォームなど) からデータをインポートするには、認証後に Canvas アプリケーションでデータソースに接続する必要があります。詳細については、「[データソースに接続する](canvas-connecting-external.md)」を参照してください。

5 GB を超えるデータセットを Amazon S3 から Canvas にインポートする場合は、Amazon Athena を使用して Amazon S3 からデータのクエリとサンプリングを行うことで、より高速なサンプリングを実現できます。

Canvas でデータセットを作成したら、Data Wrangler のデータ準備機能を使用してデータを準備および変換できます。Data Wrangler を使用すると、欠損値の処理、特徴量の変換、1 つのデータセットへの複数のデータセットの結合などができます。詳細については、「[データ準備](canvas-data-prep.md)」を参照してください。

**ヒント**  
データが表形式である限り、Amazon Redshift、Amazon Athena、Snowflake など、さまざまなソースのデータセットを結合できます。

**画像**

画像データセットを編集し、ラベルの割り当てや再割り当て、画像の追加や削除などのタスクを実行する方法については、「[画像データセットを編集する](canvas-edit-image.md)」を参照してください。

# データセットの作成
<a name="canvas-import-dataset"></a>

**注記**  
5 GB を超えるデータセットを Amazon SageMaker Canvas にインポートする場合は、Canvas の [Data Wrangler 機能](canvas-data-prep.md)を使用してデータフローを作成することをお勧めします。Data Wrangler は、データの[結合](canvas-transform.md#canvas-transform-join)や[連結](canvas-transform.md#canvas-transform-concatenate)などの高度なデータ準備機能をサポートしています。データフローを作成したら、データフローを Canvas データセットとしてエクスポートして、モデルの構築を開始できます。詳細については、「[エクスポートしてモデルを作成する](canvas-processing-export-model.md)」を参照してください。

以下のセクションでは、Amazon SageMaker Canvas でデータセットを作成する方法について説明します。カスタムモデルでは、表形式データと画像データ用のデータセットを作成できます。Ready-to-use モデルでは、表形式データセット、画像データセット、ドキュメントデータセットを使用できます。以下の情報を参照して、ワークフローを選択してください。
+ カテゴリ、数値、テキスト、時系列データについては、「[表形式データをインポートする](#canvas-import-dataset-tabular)」を参照してください。
+ 画像データについては、「[画像データをインポートする](#canvas-import-dataset-image)」を参照してください。
+ ドキュメントデータについては、「[ドキュメントデータをインポートする](#canvas-ready-to-use-import-document)」を参照してください。

データセットは複数のファイルで構成できます。例えば、CSV 形式のインベントリデータのファイルが複数ある場合があります。ファイルのスキーマ (または列名とデータ型) が一致している場合、これらのファイルをデータセットとしてまとめてアップロードできます。

Canvas は、データセットの複数のバージョンの管理もサポートしています。データセットを作成すると、最初のバージョンには「`V1`」というラベルが付けられます。データセットを更新することで、データセットの新しいバージョンを作成できます。手動で更新することも、データセットを新しいデータで自動更新するスケジュールを設定することもできます。詳細については、「[データセットを更新する](canvas-update-dataset.md)」を参照してください。

データを Canvas にインポートする際は、データが以下の表の要件を満たしていることを確認する必要があります。制限は、作成するモデルのタイプによって異なります。


| 制限 | 2 カテゴリモデル、3\$1 カテゴリモデル、数値モデル、時系列モデル | テキスト予測モデル | 画像予測モデル | \$1Ready-to-use モデル用のドキュメントデータ | 
| --- | --- | --- | --- | --- | 
| サポートされているファイルタイプ |  CSV および Parquet (ローカルアップロード、Amazon S3、またはデータベース) JSON (データベース)  |  CSV および Parquet (ローカルアップロード、Amazon S3、またはデータベース) JSON (データベース)  | JPG、PNG | PDF、JPG、PNG、TIFF | 
| 最大ファイルサイズ |  ローカルアップロード: 5 GB データソース: PB  |  ローカルアップロード: 5 GB データソース: PB  | 1 画像あたり 30 MB | 1 ドキュメントあたり 5 MB | 
| 一度にアップロードできるファイルの最大数 | 30 | 30 | 該当なし | 該当なし | 
| 列の最大数 | 1,000 | 1,000 | 該当なし | 該当なし | 
| **クイックビルド**の最大エントリ数 (行、画像、またはドキュメント) | 該当なし | 7500 行 | 5000 画像 | 該当なし | 
| **標準ビルド**の最大エントリ数 (行、画像、またはドキュメント) | 該当なし | 150,000 行 | 180,000 画像 | 該当なし | 
| **クイックビルド**の最小エントリ数 (行) |  2 つのカテゴリ: 500 行 3\$1 カテゴリ、数値、時系列: 該当なし  | 該当なし | 該当なし | 該当なし | 
| **標準ビルド**の最小エントリ数 (行、画像、またはドキュメント) | 250 行 | 50 行 | 50 画像 | 該当なし | 
|  1 ラベルあたりの最小エントリ数 (行または画像) | 該当なし | 25 行 | 25 行 | 該当なし | 
| ラベルの最小数 |  2 カテゴリ: 2 3\$1 カテゴリ: 3 数値、時系列: 該当なし  | 2 | 2 | 該当なし | 
|  ランダムサンプリングの最小サンプルサイズ | 500 | 該当なし | 該当なし | 該当なし | 
|  ランダムサンプリングの最大サンプルサイズ | 200,000 件の | 該当なし | 該当なし | 該当なし | 
| ラベルの最大数 |  2 カテゴリ: 2 3\$1 カテゴリ、数値、時系列: 該当なし  | 1,000 | 1,000 | 該当なし | 

\$1ドキュメントデータは現在、ドキュメントデータを受け入れる [Ready-to-use](canvas-ready-to-use-models.md) モデルでのみサポートされています。ドキュメントデータを使用してカスタムモデルを構築することはできません。

以下の制限があることにも注意してください。
+ Amazon S3 バケットからデータをインポートする場合は、Amazon S3 バケット名に `.` が含まれていないことを確認してください。バケット名に `.` が含まれている場合、Canvas にデータをインポートしようとするとエラーが発生する可能性があります。
+ 表形式のデータの場合、Canvas では、ローカルアップロードと Amazon S3 インポートの両方で、.csv、.parquet、.parq、.pqt 以外の拡張子を持つファイルを選択できません。CSV ファイルにはカンマまたはカスタム区切り記号を使用でき、新しい行を示す場合以外、改行文字を含めることはできません。
+ Parquet ファイルを使用する表形式のデータについては、次の点に注意してください。
  + Parquet ファイルには、マップやリストのような複雑なタイプを含めることはできません。
  + Parquet ファイルの列名にはスペースを含めることはできません。
  + 圧縮を使用する場合、Parquet ファイルには gzip または snappy の圧縮タイプを使用する必要があります。こられの圧縮タイプの詳細については、[gzip ドキュメント](https://www.gzip.org/)および [snappy ドキュメント](https://github.com/google/snappy)を参照してください。
+ ラベルの付いていない画像データには、モデルを構築する前にラベルを付ける必要があります。Canvas アプリケーション内で画像にラベルを割り当てる方法については、「[画像データセットを編集する](canvas-edit-image.md)」を参照してください。
+ データセットの自動更新または自動バッチ予測設定を行う場合、Canvas アプリケーションで作成できる設定の合計は最大 20 個です。詳細については、「[自動化の管理方法](canvas-manage-automations.md)」を参照してください。

データセットをインポートした後は、**[データセット]** ページでいつでもデータセットを確認できます。

## 表形式データをインポートする
<a name="canvas-import-dataset-tabular"></a>

表形式のデータセットを使用すると、カテゴリ、数値、時系列予測、テキスト予測の各モデルを構築できます。上記の「**データセットをインポートする**」セクションの制限表で、データが表形式データの要件を満たしていることを確認してください。

表敬式のデータセットを Canvas にインポートするには、次の手順に従います。

1. SageMaker Canvas アプリケーションを開きます。

1. 左のナビゲーションペインの **[Dataset]** (データセット) を選択します。

1. **[データをインポート]** を選択します。

1. ドロップダウンメニューで、**[表形式]** を選択します。

1. ポップアップダイアログボックスの **[データセット名]** フィールドに、データセットの名前を入力して、**[作成]** を選択します。

1. **[表形式データセットの作成]** ページで、**[データソース]** ドロップダウンメニューを開きます。

1. データソースを選択します。
   + コンピュータからファイルをアップロードするには、**[ローカルアップロード]** を選択します。
   + Amazon S3 バケットや Snowflake データベースなど、他のソースからデータをインポートするには、**[検索データソースバー]** でデータソースを検索します。その後、インポートするデータソースのタイルを選択します。
**注記**  
データは接続が有効になっているタイルからのみインポートできます。利用できないデータソースに接続する場合は、管理者に連絡してください。管理者の方は、「[データソースに接続する](canvas-connecting-external.md)」を参照してください。

   次のスクリーンショットは、**[データソース]** ドロップダウンメニューを示しています。  
![\[[データソース] ドロップダウンメニュー、および検索バーでのデータソース検索のスクリーンショット。\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/studio/canvas/import-data-choose-source.png)

1. (オプション) Amazon Redshift または Snowflake データベースに初めて接続する場合、接続を作成するためのダイアログボックスが表示されます。ダイアログボックスに認証情報を入力し、**[接続の作成]** を選択します。既に接続がある場合は、接続を選択します。

1. データソースでインポートするファイルを選択します。ローカルアップロードと Amazon S3 からのインポートでは、ファイルを選択できます。Amazon S3 のみの場合、バケットまたは S3 アクセスポイントの S3 URI、エイリアス、または ARN を **[入力 S3 エンドポイント]** フィールドに直接入力してから、インポートするファイルを選択するオプションもあります。データベースソースの場合、左側のナビゲーションペインからデータテーブルをドラッグアンドドロップできます。

1. (オプション) SQL クエリをサポートする表形式のデータソース (Amazon Redshift、Amazon Athena、Snowflake など) では、**[SQL で編集]** を選択し、インポート前に SQL クエリを作成できます。

   次のスクリーンショットは、Amazon Athena データソースの **[SQL の編集]** ビューを示しています。  
![\[Amazon Athena データの [SQL の編集] ビューの SQL クエリを示すスクリーンショット。\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/studio/canvas/import-data-edit-sql.png)

1. インポート前に **[データセットのプレビュー]** を選択してデータをプレビューできます。

1. **[インポートの設定]** で、**[データセット名]** を入力するか、デフォルトのデータセット名を使用します。

1. (オプション) Amazon S3 からインポートするデータには、**[詳細]** 設定が表示され、次のフィールドに入力できます。

   1. データセットの最初の行を列名として使用する場合は、**[最初の行をヘッダーとして使用する]** オプションをオンに切り替えます。複数のファイルを選択した場合、これは各ファイルに適用されます。

   1. CSV ファイルをインポートする場合は、**ファイルエンコーディング (CSV)** ドロップダウンでデータセットファイルのエンコーディングを選択します。 デフォルトは `UTF-8` です。

   1. **[区切り記号]** ドロップダウンで、データ内の各セルを区切る区切り記号を選択します。デフォルトの区切り記号は `,` です。カスタム区切り記号を指定することもできます。

   1. Canvas でデータセット全体を複数行のセル用に手動で解析する場合は、**[複数行の検出]** を選択します。デフォルトでは、このオプションは選択されず、Canvas はデータのサンプルを取得して、複数行のサポートを使用するかどうかを判断します。ただし、Canvas はサンプル内の複数行のセルを検出しない場合があります。複数行のセルがある場合は、**[複数行の検出]** オプションを選択して、Canvas にデータセット全体の複数行のセルを確認させることをお勧めします。

1. データをインポートする準備ができたら、**[データセットを作成]** を選択します。

データセットを Canvas にインポートしている間、**[データセット]** ページのリストにデータセットが表示されます。このページからは、[データセットの詳細を表示する](#canvas-view-dataset-details) を行えます。

データセットの **[ステータス]** に `Ready` と表示されたら、Canvas にデータが正常にインポートされ、[モデルの構築](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-build-model.html)を続行できます。

Amazon Redshift データベースや SaaS コネクタなどのデータソースに接続している場合は、その接続に戻ることができます。Amazon Redshift と Snowflake の場合、別のデータセットを作成して **[データのインポート]** ページに戻り、その接続の **[データソース]** タイルを選択することで、別の接続を追加できます。ドロップダウンメニューで前の接続を開くか、**[接続を追加]** を選択します。

**注記**  
SaaS プラットフォームでは、データソースごとに 1 つの接続しか使用できません。

## 画像データをインポートする
<a name="canvas-import-dataset-image"></a>

画像データセットを使用すると、画像のラベルを予測する単一ラベルの画像予測カスタムモデルを構築できます。上記の「**データセットをインポートする**」セクションの制限表を確認して、画像データセットが画像データの要件を満たしていることを確認してください。

**注記**  
画像データセットは、ローカルファイルのアップロードまたは Amazon S3 バケットからのみインポートできます。また画像データセットでは、1 つのラベルにつき少なくとも 25 個の画像が必要です。

画像データセットを Canvas にインポートするには、次の手順に従います。

1. SageMaker Canvas アプリケーションを開きます。

1. 左のナビゲーションペインの **[Dataset]** (データセット) を選択します。

1. **[データをインポート]** を選択します。

1. ドロップダウンメニューで、**[画像]** を選択します。

1. ポップアップダイアログボックスの **[データセット名]** フィールドに、データセットの名前を入力して、**[作成]** を選択します。

1. **[インポート]** ページで、**[データソース]** ドロップダウンメニューを開きます。

1.  データソースを選択します。コンピュータからファイルをアップロードするには、**[ローカルアップロード]** を選択します。Amazon S3 からファイルをインポートするには、**[Amazon S3]** を選択します。

1. コンピュータまたは Amazon S3 バケットで、アップロードする画像または画像フォルダを選択します。

1. データをインポートする準備ができたら、**[データをインポート]** を選択します。

データセットを Canvas にインポートしている間、**[データセット]** ページのリストにデータセットが表示されます。このページからは、[データセットの詳細を表示する](#canvas-view-dataset-details) を行えます。

データセットの **[ステータス]** に `Ready` と表示されたら、Canvas にデータが正常にインポートされ、[モデルの構築](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-build-model.html)を続行できます。

モデルの構築中は、画像データセットの編集、ラベルの割り当てや再割り当て、画像の追加、データセットからの画像の削除を行うことができます。画像データセットの編集方法の詳細については、「[画像データセットを編集する](canvas-edit-image.md)」を参照してください。

## ドキュメントデータをインポートする
<a name="canvas-ready-to-use-import-document"></a>

経費分析、身分証明書分析、ドキュメント分析、ドキュメントクエリ用の Ready-to-use モデルは、ドキュメントデータをサポートします。ドキュメントデータを使用してカスタムモデルを構築することはできません。

ドキュメントデータセットを使用すると、経費分析、身分証明書分析、ドキュメント分析、ドキュメントクエリを Ready-to-use モデルで実行できます。「[データセットの作成](#canvas-import-dataset)」セクションの制限表を確認して、ドキュメントデータセットがドキュメントデータの要件を満たしていることを確認してください。

**注記**  
ドキュメントデータセットは、ローカルファイルのアップロードまたは Amazon S3 バケットからのみインポートできます。

ドキュメントデータセットを Canvas にインポートするには、次の手順に従います。

1. SageMaker Canvas アプリケーションを開きます。

1. 左のナビゲーションペインの **[Dataset]** (データセット) を選択します。

1. **[データをインポート]** を選択します。

1. ドロップダウンメニューで、**[ドキュメント]** を選択します。

1. ポップアップダイアログボックスの **[データセット名]** フィールドに、データセットの名前を入力して、**[作成]** を選択します。

1. **[インポート]** ページで、**[データソース]** ドロップダウンメニューを開きます。

1.  データソースを選択します。コンピュータからファイルをアップロードするには、**[ローカルアップロード]** を選択します。Amazon S3 からファイルをインポートするには、**[Amazon S3]** を選択します。

1. コンピュータまたは Amazon S3 バケットで、アップロードするドキュメントファイルを選択します。

1. データをインポートする準備ができたら、**[データをインポート]** を選択します。

データセットを Canvas にインポートしている間、**[データセット]** ページのリストにデータセットが表示されます。このページからは、[データセットの詳細を表示する](#canvas-view-dataset-details) を行えます。

データセットの **[ステータス]** が `Ready` と表示されたら、データが Canvas に正常にインポートされたことを示します。

**[データセット]** ページでは、データセットを選択してプレビューできます。プレビューでは、データセットの最初の 100 件のドキュメントが表示されます。

## データセットの詳細を表示する
<a name="canvas-view-dataset-details"></a>



各データセットでは、データセット内のすべてのファイル、データセットのバージョン履歴、およびデータセットの自動更新設定を確認できます。**[データセット]** ページから、[データセットを更新する](canvas-update-dataset.md) や [カスタムモデルの仕組み](canvas-build-model.md) などのアクションを開始することもできます。

データセットの詳細を表示するには、次の手順に従います。

1. SageMaker Canvas アプリケーションを開きます。

1. 左のナビゲーションペインの **[Dataset]** (データセット) を選択します。

1. データセットリストで、データセットを選択します。

**[データ]** タブにデータのプレビューが表示されます。**[データセットの詳細]** を選択すると、データセットに含まれるすべてのファイルが表示されます。ファイルを選択すると、選択したファイルのデータのみがプレビューに表示されます。画像データセットのプレビューでは、データセットの最初の 100 個の画像のみが表示されます。

**[バージョン履歴]** タブには、データセットのすべてのバージョンのリストが表示されます。データセットを更新するたびに、新しいバージョンが作成されます。データセットの更新の詳細については、「[データセットを更新する](canvas-update-dataset.md)」を参照してください。次のスクリーンショットは、Canvas アプリケーションの **[バージョン履歴]** タブを示しています。

![\[データセットの [バージョン履歴] タブとデータセットのバージョン一覧のスクリーンショット。\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/studio/canvas/canvas-version-history.png)


**[自動更新]** タブでは、データセットの自動更新を有効にして、データセットの定期的な更新を設定できます。データセットの自動更新の詳細については、「[データセットの自動更新を設定する](canvas-update-dataset-auto.md)」を参照してください。次のスクリーンショットは、自動更新が有効になっている **[自動更新]** タブと、データセットに対して実行された自動更新ジョブのリストを示しています。

![\[自動更新が有効になっており、自動更新ジョブのリストを示しているデータセットの [自動更新] タブ。\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/studio/canvas/canvas-auto-updates.png)


# データセットを更新する
<a name="canvas-update-dataset"></a>

最初のデータセットを Amazon SageMaker Canvas にインポートした後で、データセットへの追加のデータがある場合があります。例えば、データセットに追加するインベントリデータを毎週末に受け取る場合があります。データを複数回インポートする代わりに、既存のデータセットを更新してファイルの追加や削除を行うことができます。

**注記**  
更新できるデータセットは、ローカルアップロードまたは Amazon S3 を通じてインポートしたデータセットのみです。

データセットは手動または自動で更新できます。データセットの自動更新の詳細については、「[データセットの自動更新を設定する](canvas-update-dataset-auto.md)」を参照してください。

データセットを更新するたびに、Canvas はデータセットの新しいバージョンを作成します。モデルの構築や予測の生成には、データセットの最新バージョンのみを使用できます。データセットのバージョン履歴の表示方法の詳細については、「[データセットの詳細を表示する](canvas-import-dataset.md#canvas-view-dataset-details)」を参照してください。

データセットの更新を自動バッチ予測と併用することもできます。自動バッチ予測は、データセットを更新するたびにバッチ予測ジョブを開始します。詳細については、「[SageMaker Canvas でのバッチ予測](canvas-make-predictions-batch.md)」を参照してください。

以下のセクションでは、データセットの手動更新を行う方法について説明します。

## データセットを手動で更新する
<a name="canvas-update-dataset-manual"></a>

手動で更新するには、次の手順に従います。

1. SageMaker Canvas アプリケーションを開きます。

1. 左のナビゲーションペインの **[Dataset]** (データセット) を選択します。

1. データセットのリストで、更新するデータセットを選択します。

1. **[データセットの更新]** ドロップダウンメニューを選択して、**[手動更新]** を選択します。データのインポートワークフローが表示されます。

1. **[データソース]** ドロップダウンメニューで、**[ローカルアップロード]** または **[Amazon S3]** を選択します。

1. このページには、データのプレビューが表示されます。このページで、データセットへのファイルの追加、またはデータセットからのファイルの削除を行えます。表形式データをインポートする場合、新しいファイルのスキーマ (列名とデータ型) は既存のファイルのスキーマと一致する必要があります。また新しいファイルは、データセットの最大サイズまたはファイルサイズを超えることはできません。これらの制限の詳細については、「[Import a dataset](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-import-dataset.html)」を参照してください。
**注記**  
データセット内の既存のファイルと同じ名前のファイルを追加すると、新しいファイルで古いバージョンのファイルが上書きされます。

1. 変更を保存する準備ができたら、**[データセットの更新]** を選択します。

これで、新しいバージョンのデータセットが完成しました。

**[データセット]** ページで **[バージョン履歴]** タブを選択すると、データセットのすべてのバージョンと行った手動更新と自動更新の両方の履歴が表示されます。

# データセットの自動更新を設定する
<a name="canvas-update-dataset-auto"></a>

最初のデータセットを Amazon SageMaker Canvas にインポートした後で、データセットへの追加のデータがある場合があります。例えば、データセットに追加するインベントリデータを毎週末に受け取る場合があります。データを複数回インポートする代わりに、既存のデータセットを更新してファイルの追加や削除を行うことができます。

**注記**  
更新できるデータセットは、ローカルアップロードまたは Amazon S3 を通じてインポートしたデータセットのみです。

データセットの自動更新では、指定した頻度で Canvas がファイルをチェックする場所を指定します。更新中に新しいファイルをインポートする場合、ファイルのスキーマは既存のデータセットと完全に一致する必要があります。

データセットを更新するたびに、Canvas はデータセットの新しいバージョンを作成します。モデルの構築や予測の生成には、データセットの最新バージョンのみを使用できます。データセットのバージョン履歴の表示方法の詳細については、「[データセットの詳細を表示する](canvas-import-dataset.md#canvas-view-dataset-details)」を参照してください。

データセットの更新を自動バッチ予測と併用することもできます。自動バッチ予測は、データセットを更新するたびにバッチ予測ジョブを開始します。詳細については、「[SageMaker Canvas でのバッチ予測](canvas-make-predictions-batch.md)」を参照してください。

以下のセクションでは、データセットの自動更新を行う方法について説明します。

自動更新では、データセットを特定の頻度で更新するように Canvas を設定します。データセットに定期的に追加する新しいデータファイルがある場合は、このオプションを使用することをお勧めします。

自動更新設定を行う際は、ファイルをアップロードする Amazon S3 の場所、および Canvas が場所を確認してファイルをインポートする頻度を指定します。データセットを更新する Canvas の各インスタンスは、*ジョブ*と呼ばれます。各ジョブで、Canvas は Amazon S3 ロケーションにあるすべてのファイルをインポートします。データセット内の既存のファイルと同じ名前のファイルを追加すると、Canvas は新しいファイルで古いバージョンのファイルを上書きします。

データセットを自動更新では、Canvas はスキーマの検証を行いません。自動更新中にインポートされたファイルのスキーマが既存のファイルのスキーマと一致しないか、サイズ制限を超えている場合 (ファイルサイズ制限の表については、「[データセットをインポートする](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-import-dataset.html)」を参照)、ジョブの実行時にエラーが発生します。

**注記**  
Canvas アプリケーションで設定できる自動更新は最大 20 件までです。また、Canvas は ユーザーが Canvas アプリケーションにログインしている間のみ自動更新を行います。Canvas アプリケーションからログアウトすると、ログインし直すまで自動更新は一時停止します。

データセットの自動更新を設定するには、次の手順に従います。

1. SageMaker Canvas アプリケーションを開きます。

1. 左のナビゲーションペインの **[Dataset]** (データセット) を選択します。

1. データセットのリストで、更新するデータセットを選択します。

1. **[データセットの更新]** ドロップダウンメニューを選択して、**[自動更新]** を選択します。データセットの **[自動更新]** タブが表示されます。

1. **[自動更新を有効化** トグルを有効にします。

1. **[データソースの指定]** に、定期的にファイルをアップロードするフォルダへの Amazon S3 パスを入力します。

1. **[頻度の選択]** で、**[毎時]**、**[毎週]**、または **[毎日]** を選択します。

1. **[開始時刻の指定]** で、カレンダーとタイムピッカーを使用して、最初の自動更新ジョブを開始する時刻を選択します。

1. 自動更新設定を作成する準備ができたら、**[保存]** を選択します。

Canvas は、指定された開始時間に自動更新ケイデンスの最初のジョブを開始します。

# データセットの自動更新ジョブを表示する
<a name="canvas-update-dataset-auto-view"></a>

Amazon SageMaker Canvas でデータセットの自動更新ジョブ履歴を表示するには、データセットの詳細ページで **[自動更新]** タブを選択します。

データセットの各自動更新ジョブは、**[ジョブ履歴]** セクションの **[自動更新]** タブに表示されます。それぞれのジョブでは、次の操作を行えます。
+ **ジョブの作成日時** — Canvas がデータセットの更新を開始した際のタイムスタンプ。
+ **ファイル** — データセット内のファイル数。
+ **セル (列 x 行)** — データセット内の列と行の数。
+ **ステータス** — 更新後のデータセットのステータス。ステータスが **[準備完了]** の場合、ジョブは正常に完了しています。何らかの理由でジョブが失敗した場合、ステータスは **[失敗]** になります。ステータスにカーソルを合わせると詳細が表示されます。

# データセットの自動更新設定を編集する
<a name="canvas-update-dataset-auto-edit"></a>

更新頻度の変更など、データセットの自動更新設定を変更する場合があります。また、自動更新設定を無効にして、データセットの更新を一時停止する場合もあります。

データセットの自動更新設定を変更するには、データセットの **[自動更新]** タブに移動して、**[編集]** を選択します。

データセットの更新を一時停止するには、自動設定を無効にします。自動更新を無効にするには、データセットの **[自動更新]** タブに移動して、**[自動更新の有効化]** トグルを無効にします。このトグルを有効に戻すと、いつでも更新スケジュールを再開できます。

設定の削除方法については、「[自動設定を削除する](canvas-manage-automations-delete.md)」を参照してください。

# データソースに接続する
<a name="canvas-connecting-external"></a>

Amazon SageMaker Canvas では、JDBC コネクタを使用して、 AWS サービス、SaaS プラットフォーム、またはその他のデータベースを通じて、ローカルファイルシステム外の場所からデータをインポートできます。例えば、Amazon Redshift のデータウェアハウスから表をインポートする場合や、Google Analytics データをインポートする場合があります。

**インポート**ワークフローを実行して Canvas アプリケーションにデータをインポートする場合、データソースを選択してから、インポートするデータを選択します。Snowflake や Amazon Redshift などの特定のデータソースでは、認証情報を指定し、データソースへの接続を追加する必要があります。

次のスクリーンショットは、使用可能なすべてのデータソースが強調表示されている**インポート**ワークフローのデータソースツールバーを示しています。使用可能なデータソースからのみデータをインポートできます。希望するデータソースが利用できない場合は、管理者に問い合わせてください。

![\[Canvas の [インポート] ページの [データソース] ドロップダウンメニュー。\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/studio/canvas/data-sources.png)


以下のセクションでは、外部データソースとの接続の確立、および外部データソースからのデータのインポートについて説明します。まず、次のセクションを確認して、データソースからデータをインポートするのに必要な権限を決定してください。

## 権限
<a name="canvas-connecting-external-permissions"></a>

次の情報を確認して、データソースからデータをインポートするのに必要な権限があることを確認してください。
+ **Amazon S3:** ユーザーがバケットにアクセスする権限を持っている場合、Amazon S3 バケットからデータをインポートできます。 AWS IAM を使用して Amazon S3 バケットへのアクセスを制御する方法の詳細については、「Amazon [Amazon S3 ユーザーガイド」の「Amazon S3 での Identity and Access Management](https://docs.aws.amazon.com/AmazonS3/latest/userguide/s3-access-control.html)」を参照してください。 *Amazon S3 *
+ **Amazon Athena:** [AmazonSageMakerFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerFullAccess.html) ポリシーと [AmazonSageMakerCanvasFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasFullAccess.html) ポリシーがユーザーの実行ロールにアタッチされている場合は、Amazon Athena AWS Glue Data Catalog で をクエリできます。Athena ワークグループに参加している場合は、Canvas ユーザーがデータに対して Athena クエリを実行する権限を持っていることを確認してください。詳細については、「Amazon Athena ユーザーガイド」の「[クエリを実行するためのワークグループの使用](https://docs.aws.amazon.com/athena/latest/ug/workgroups.html)」を参照してください。**
+ **Amazon DocumentDB:** データベースに接続するための認証情報 (ユーザー名とパスワード) があり、ユーザーの実行ロールに最低限の Canvas 基本権限がアタッチされている限り、任意の Amazon DocumentDB データベースからデータをインポートできます。Canvas の権限の詳細については、「[Amazon SageMaker Canvas を設定するための前提条件](canvas-getting-started.md#canvas-prerequisites)」を参照してください。
+ **Amazon Redshift:** Amazon Redshift からデータをインポートするために必要なアクセス権限を自分に付与するには、「[Grant Users Permissions to Import Amazon Redshift Data](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-redshift-permissions.html)」を参照してください。
+ **Amazon RDS:** ユーザーの実行ロールに [AmazonSageMakerCanvasFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasFullAccess.html) ポリシーがアタッチされている場合、Canvas から Amazon RDS データベースにアクセスできます。
+ **SaaS プラットフォーム:** ユーザーの実行ロールに [AmazonSageMakerFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerFullAccess.html) ポリシーと [AmazonSageMakerCanvasFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasFullAccess.html) ポリシーがアタッチされている場合は、SaaS プラットフォームからデータをインポートするために必要な権限が付与されています。特定の SaaS コネクタへの接続の詳細については、「[Canvas で SaaS コネクタを使用する](#canvas-connecting-external-appflow)」を参照してください。
+ **JDBC コネクタ:** Databricks、MySQL、または MariaDB などのデータベースソースでは、Canvas から接続する前に、ソースデータベースでユーザー名とパスワードの認証を有効にする必要があります。Databricks データベースに接続する場合は、必要な認証情報を含む JDBC URL が必要です。

## に保存されているデータベースに接続する AWS
<a name="canvas-connecting-internal-database"></a>

保存したデータをインポートできます AWS。Amazon S3 からデータをインポートしたり、Amazon Athena を使用して 内のデータベースをクエリしたり AWS Glue Data Catalog、[Amazon RDS](https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/Welcome.html) からデータをインポートしたり、プロビジョニングされた Amazon Redshift データベース (Redshift Serverless ではない) に接続したりできます。

Amazon Redshift への複数の接続を作成することができます。Amazon Athena では、[AWS Glue Data Catalog](https://docs.aws.amazon.com/prescriptive-guidance/latest/serverless-etl-aws-glue/aws-glue-data-catalog.html) にあるすべてのデータベースにアクセスできます。Amazon S3 では、必要な権限がある限り、バケットからデータをインポートできます。

詳細については、以下のセクションを参照してください。

### Amazon S3、Amazon Athena、または Amazon RDS のデータに接続する
<a name="canvas-connecting-internal-database-s3-athena"></a>

Amazon S3 では、バケットへのアクセス権限を持っているユーザーは、Amazon S3 バケットからデータをインポートできます。

Amazon Athena では、Amazon Athena ワークグループを通じてアクセス許可を持っている AWS Glue Data Catalog 限り、 のデータベースにアクセスできます。 [Amazon Athena ](https://docs.aws.amazon.com/athena/latest/ug/manage-queries-control-costs-with-workgroups.html)

Amazon RDS では、ロールに [AmazonSageMakerCanvasFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasFullAccess.html) ポリシーがアタッチされているユーザーは、Amazon RDS データベースから Canvas にデータをインポートできます。

Amazon S3 バケットからのデータのインポート、または Amazon Athena でクエリを実行したデータテーブルのインポートについては、「[データセットの作成](canvas-import-dataset.md)」を参照してください。Amazon Athena からは表形式のデータのみをインポートでき、Amazon S3 からは表形式データと画像データをインポートできます。

### Amazon DocumentDB データベースに接続する
<a name="canvas-connecting-docdb"></a>

Amazon DocumentDB は、フルマネージド型のサーバーレスドキュメントデータベースサービスです。Amazon DocumentDB データベースに保存されている非構造化ドキュメントデータを表形式データセットとして SageMaker Canvas にインポートし、そのデータを使用して機械学習モデルを構築できます。

**重要**  
Amazon DocumentDB に接続を追加するには、SageMaker AI ドメインを **[VPC のみ]** モードで設定する必要があります。アクセスできるのは、Canvas アプリケーションと同じ Amazon VPC 内の Amazon DocumentDB クラスターのみです。また、Canvas は TLS 対応の Amazon DocumentDB クラスターにのみ接続できます。**[VPC のみ]** モードで Canvas を設定する方法の詳細については、「[インターネットにアクセスせずに VPC で Amazon SageMaker Canvas を設定する](canvas-vpc.md)」を参照してください。

Amazon DocumentDB データベースからデータをインポートするには、データベース接続を作成するときに Amazon DocumentDB データベースにアクセスし、ユーザー名とパスワードを指定するための認証情報が必要です。Amazon DocumentDB ユーザーのアクセス許可を変更すると、より詳細なアクセス許可を設定し、アクセスを制限することができます。Amazon DocumentDB でのアクセスコントロールの詳細については、*Amazon DocumentDB デベロッパーガイド*の「[Database Access Using Role-Based Access Control](https://docs.aws.amazon.com/documentdb/latest/developerguide/role_based_access_control.html)」を参照してください。

Amazon DocumentDB からインポートする際、Canvas ではフィールドをテーブル内の列にマッピングすることで、非構造化データを表形式データセットに変換します。データ内の複合フィールド (またはネストされた構造) ごとに追加のテーブルが作成されます。列は複合フィールドのサブフィールドに対応します。このプロセスの詳細とスキーマ変換の例については、「[Amazon DocumentDB JDBC Driver Schema Discovery](https://github.com/aws/amazon-documentdb-jdbc-driver/blob/develop/src/markdown/schema/schema-discovery.md)」GitHub ページを参照してください。

Canvas では、Amazon DocumentDB の 1 つのデータベースにのみ接続できます。別のデータベースからデータをインポートするには、新しい接続を作成する必要があります。

Amazon DocumentDB から Canvas にデータをインポートするには、次の方法を使用します。
+ [データセットの作成](canvas-import-dataset.md)。Amazon DocumentDB データをインポートし、Canvas で表形式のデータセットを作成します。この方法を選択した場合は、「[表形式データをインポートする](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-import-dataset.html#canvas-import-dataset-tabular)」手順に従ってください。
+ [データセットを作成する](canvas-data-flow.md)。Canvas でデータ準備パイプラインを作成し、Amazon DocumentDB データベースをデータソースとして追加します。

データのインポートを続行するには、前のリストでリンクされたいずれかの方法の手順に従います。

ワークフローでデータソースを選択するステップ (データセットを作成するためのステップ 6、またはデータフローを作成するためのステップ 8)に到達したら、以下を実行します。

1. **[データソース]** でドロップダウンメニューを開いて、**[DocumentDB]** を選択します。

1. **[接続を追加]** を選択します。

1. ダイアログボックスで、Amazon DocumentDB の認証情報を指定します。

   1. **[接続名]** を入力します。この名前は Canvas でこの接続を識別するために使用されます。

   1. **[クラスター]** では、データを保存する Amazon DocumentDB でクラスターを選択します。Canvas によって、Canvas アプリケーションと同じ VPC 内の Amazon DocumentDB クラスターがドロップダウンメニューに自動的に入力されます。

   1. Amazon DocumentDB クラスターの **[ユーザー名]** を入力します。

   1. Amazon DocumentDB クラスターの **[パスワード]** を入力します。

   1. 接続先の **[データベース]** の名前を入力します。

   1. **[読み込み設定]** オプションは、Canvas がクラスターでデータを読み取るインスタンスのタイプを決定します。次のいずれかを選択します。
      + **セカンダリ優先** — Canvas はデフォルトでクラスターのセカンダリインスタンスから読み取るように設定されていますが、セカンダリインスタンスが使用不可の場合は、プライマリインスタンスから読み取られます。
      + **セカンダリ** – Canvas はクラスターのセカンダリインスタンスからのみ読み取ります。これにより、読み取りオペレーションがクラスターの通常の読み取りおよび書き込み操作に干渉するのを防止できます。

   1. **[接続を追加]** を選択します。次の図は、Amazon DocumentDB 接続のための前述のフィールドを含むダイアログボックスを示しています。  
![\[Canvas の [新しい DocumentDB 接続を追加] ダイアログボックスのスクリーンショット。\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/studio/canvas/add-docdb-connection.png)

これで Amazon DocumentDB 接続が確立されたため、Canvas で Amazon DocumentDB データを使用してデータセットまたはデータフローを作成できるようになりました。

### Amazon Redshift データベースに接続する
<a name="canvas-connecting-redshift"></a>

組織がデータを保持するデータウェアハウスである、Amazon Redshift からデータをインポートできます。Amazon Redshift からデータをインポートする前に、使用する AWS IAM ロールに `AmazonRedshiftFullAccess`管理ポリシーがアタッチされている必要があります。このポリシーをアタッチする方法については、「[Amazon Redshift データをインポートする権限をユーザーに付与する](canvas-redshift-permissions.md)」を参照してください。

Amazon Redshift からデータをインポートするには、次の手順に従います。

1. Amazon Redshift データベースへの接続を作成します。

1. インポートするデータを選択します。

1. データをインポートします。

Amazon Redshift エディタを使用すると、データセットをインポートペインにドラッグし、SageMaker Canvas にインポートできます。データセットで返される値をより詳細に制御するには、以下を使用します。
+ SQL クエリ
+ Joins

SQL クエリを使用すると、データセット内の値のインポート方法をカスタマイズできます。例えば、データセットで返される列や、列の値の範囲を指定できます。

結合を使用すると、Amazon Redshift の複数のデータセットを 1 つのデータセットに結合できます。データセットは、Amazon Redshift からパネルにドラッグすることによって結合できます。

SQL エディタを使用すると、結合したデータセットを編集したり、結合したデータセットを 1 つのノードに変換したりできます。別のデータセットをノードに結合できます。選択したデータを SageMaker Canvas にインポートできます。

次の手順に従って、Amazon Redshift からデータをインポートします。

1. SageMaker Canvas アプリケーションで、**[データセット]** ページに移動します。

1. **[データをインポート]** を選択して、ドロップダウンメニューで **[表形式]** を選択します。

1. データセットの名前を入力し、**[作成]** を選択します。

1. **[データソース]** でドロップダウンメニューを開いて、**[Redshift]** を選択します。

1. **[接続を追加]** を選択します。

1. ダイアログボックスで、Amazon Redshift の認証情報を指定します。

   1. **[認証方法]** で **[IAM]** を選択します。

   1. **[クラスター識別子]** を入力して、接続するクラスターを指定します。Amazon Redshift クラスターの完全なエンドポイントではなく、クラスター識別子のみを入力します。

   1. 接続するデータベースの **[データベース名]** を入力します。

   1. **[データベースユーザー]** を入力して、データベースへの接続に使用するユーザーを特定します。

   1. **[ARN]** に、Amazon Redshift クラスターがデータを移動して Amazon S3 に書き込むことを引き受けるロールの IAM ロール ARN を入力します。このロールの詳細については、[「Amazon Redshift 管理ガイド」の「Amazon Redshift がユーザーに代わって他の AWS サービスにアクセスすることを許可する](https://docs.aws.amazon.com/redshift/latest/mgmt/authorizing-redshift-service.html)」を参照してください。 **

   1. **[接続名]** を入力します。この名前は Canvas でこの接続を識別するために使用されます。

1. 接続の名前が表示されているタブから、インポートする.csv ファイルを **[Drag and drop table to import]** (インポートするテーブルをドラッグアンドドロップ) ペインにドラッグします。

1. オプション: 追加のテーブルをインポートペインにドラッグします。GUI を使用してテーブルを結合できます。結合の詳細を確認するには、**[Edit in SQL]** (SQL で編集) を選択します。

1. オプション: SQL を使用してデータをクエリする場合は、**[Context]** (コンテキスト) をクリックし、以下の値を指定して、接続にコンテキストを追加できます。
   + **ウェアハウス**
   + **データベース**
   + **スキーマ**

1. **[データをインポート]** を選択します。

以下の画像は、Amazon Redshift 接続で指定されるフィールドの例を示しています。

![\[Canvas の [新しい Redshift 接続を追加] ダイアログボックスのスクリーンショット。\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/studio/canvas/canvas-redshift-add-connection.png)


以下の画像は、Amazon Redshift でデータセットを結合するために使用されるページを示しています。

![\[結合されている 2 つのデータセットを示している、Canvas の [インポート] ページのスクリーンショット。\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/studio/canvas/canvas-redshift-join.png)


以下の画像は、Amazon Redshift で結合を編集するために使用される SQL クエリを示しています。

![\[Canvas の [インポート] ページの [SQL を編集する] エディタでの SQL クエリのスクリーンショット。\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/studio/canvas/canvas-redshift-edit-sql.png)


## JDBC コネクタを使用してデータに接続する
<a name="canvas-connecting-jdbc"></a>

JDBC を使用すると、Databricks、SQLServer、MySQL、PostgreSQL、MariaDB、Amazon RDS、Amazon Aurora などのソースからデータベースに接続できます。

Canvas から接続を作成するための認証情報と権限があることを確認する必要があります。
+ Databricks の場合は、JDBC URL を指定する必要があります。URL フォーマットは Databricks インスタンスによって異なる場合があります。URL の検索とその URL 内のパラメーターの指定について詳しくは、Databricks のドキュメントの「[JDBC 設定と接続パラメーター](https://docs.databricks.com/integrations/bi/jdbc-odbc-bi.html#jdbc-configuration-and-connection-parameters)」を参照してください。以下は URL のフォーマットの例です。 `jdbc:spark://aws-sagemaker-datawrangler.cloud.databricks.com:443/default;transportMode=http;ssl=1;httpPath=sql/protocolv1/o/3122619508517275/0909-200301-cut318;AuthMech=3;UID=token;PWD=personal-access-token`
+ 他のデータベースソースでは、ユーザー名とパスワードによる認証を設定し、Canvas からデータベースに接続する際にそれらの認証情報を指定する必要があります。

また、データソースはパブリックインターネット経由でアクセス可能である必要があります。または、Canvas アプリケーションが **VPC のみ**モードで実行されている場合は、データソースを同じ VPC 内で実行する必要があります。VPC での Amazon RDS データベースの設定の詳細については、「Amazon RDS ユーザーガイド」の「[Amazon VPC VPC とAmazon RDS](https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/USER_VPC.html)」を参照してください。**

データソースの認証情報を設定したら、Canvas アプリケーションにサインインして、データソースへの接続を作成します。接続を作成する際に、認証情報 (Databricks の場合は URL) を指定します。

## OAuth を使用してデータソースに接続する
<a name="canvas-connecting-oauth"></a>

Canvas は、Snowflake と Salesforce Data Cloud 内のデータに接続するための認証方法として OAuth の使用をサポートしています。[OAuth](https://oauth.net/2/) は、パスワードを共有せずにリソースへのアクセスを許可するための一般的な認証プラットフォームです。

**注記**  
各データソースで確立できる OAuth 接続は 1 つのみです。

接続を認可するには、「[OAuth を使用してデータソースへの接続を設定する](canvas-setting-up-oauth.md)」で説明されている初期設定に従う必要があります。

OAuth 認証情報を設定したら、次の操作を行って OAuth による Snowflake 接続または Salesforce Data Cloud 接続を追加できます。

1. Canvas アプリケーションにサインインします。

1. 表形式のデータセットを作成します。データをアップロードするように求められたら、データソースとして Snowflake または Salesforce Data Cloud を選択します。

1. Snowflake または Salesforce Data Cloud のデータソースへの新しい接続を作成します。認証方法として OAuth を指定し、接続の詳細を入力します。

これで、Snowflake または Salesforce Data Cloud のデータベースからデータをインポートできるようになりました。

## SaaS プラットフォームに接続する
<a name="canvas-connecting-saas"></a>

ユーザーは、Snowflake および 40 以上の外部 SaaS プラットフォームからデータをインポートできます。コネクタの完全なリストについては、「[データのインポート](canvas-importing-data.md)」の表を参照してください。

**注記**  
SaaS プラットフォームからは、データテーブルなどの表形式データのみインポートできます。

### Snowflake を Canvas で使用する
<a name="canvas-using-snowflake"></a>

Snowflake はデータストレージおよび分析サービスで、ユーザーは Snowflake から SageMaker Canvas にデータをインポートできます。Snowflake の詳細については、「[Snowflake ウェブサイト](https://www.snowflake.com/en/)」を参照してください。

Snowflake アカウントからデータをインポートするには、次の手順に従います。

1. Snowflake データベースへの接続を作成します。

1. 左側のナビゲーションメニューからテーブルをエディタにドラッグアンドドロップして、インポートするデータを選択します。

1. データをインポートします。

Snowflake エディタを使用すると、データセットをインポートペインにドラッグし、SageMaker Canvas にインポートできます。データセットで返される値をより詳細に制御するには、以下を使用します。
+ SQL クエリ
+ Joins

SQL クエリを使用すると、データセット内の値のインポート方法をカスタマイズできます。例えば、データセットで返される列や、列の値の範囲を指定できます。

SQL または Canvas インターフェイスを使用して Canvas にインポートする前に、複数の Snowflake データセットを 1 つのデータセットに結合できます。Snowflake からデータセットをドラッグしてデータセットを結合したり、SQL で結合を編集して SQL を単一ノードに変換したりできます。変換したノードには他のノードを結合できます。結合したデータセットを 1 つのノードに結合すると、そのノードを別の Snowflake データセットに結合できます。その後、選択したデータを Canvas にインポートできます。

次の手順に従って、Snowflake から Amazon SageMaker Canvas にデータをインポートします。

1. SageMaker Canvas アプリケーションで、**[データセット]** ページに移動します。

1. **[データをインポート]** を選択して、ドロップダウンメニューで **[表形式]** を選択します。

1. データセットの名前を入力し、**[作成]** を選択します。

1. **[データソース]** でドロップダウンメニューを開いて、**[Snowflake]** を選択します。

1. **[接続を追加]** を選択します。

1. **[新しい Snowflake 接続の追加]** ダイアログボックスで、Snowflake の認証情報を指定します。**[認証方法]** では、次のいずれかを選択します。
   + **基本 - ユーザー名パスワード** - Snowflake アカウント ID、ユーザー名、パスワードを指定します。
   + **ARN** – Snowflake 認証情報の保護を向上させるには、認証情報を含む AWS Secrets Manager シークレットの ARN を指定します。詳細については、「 *AWS Secrets Manager ユーザーガイド*」の「 [AWS Secrets Manager シークレットの作成](https://docs.aws.amazon.com/secretsmanager/latest/userguide/create_secret.html)」を参照してください。

     シークレットには、Snowflake 認証情報が次の JSON 形式で保存されている必要があります。

     ```
     {"accountid": "ID",
     "username": "username",
     "password": "password"}
     ```
   + **OAuth** – OAuth を選択すると、パスワードを入力しなくても認証できますが、追加の設定が必要です。Snowflake 用の OAuth 認証情報設定の詳細については、「[OAuth を使用してデータソースへの接続を設定する](canvas-setting-up-oauth.md)」を参照してください。

1. **[接続を追加]** を選択します。

1. 接続の名前が表示されているタブから、インポートする.csv ファイルを **[Drag and drop table to import]** (インポートするテーブルをドラッグアンドドロップ) ペインにドラッグします。

1. オプション: 追加のテーブルをインポートペインにドラッグします。ユーザーインターフェイスを使用してテーブルを結合できます。結合の詳細を確認するには、**[Edit in SQL]** (SQL で編集) を選択します。

1. オプション: SQL を使用してデータをクエリする場合は、**[Context]** (コンテキスト) をクリックし、以下の値を指定して、接続にコンテキストを追加できます。
   + **ウェアハウス**
   + **データベース**
   + **スキーマ**

   接続にコンテキストを追加すると、後でクエリを指定しやすくなります。

1. **[データをインポート]** を選択します。

以下の画像は、Snowflake 接続で指定されるフィールドの例を示しています。

![\[Canvas [新しい Snowflake 接続を追加] ダイアログボックスのスクリーンショット。\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/studio/canvas/canvas-snowflake-connection.png)


以下の画像は、接続にコンテキストを追加するために使用されるページを示しています。

![\[[コンテキスト] ダイアログボックスを示している、Canvas の [インポート] ページのスクリーンショット。\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/studio/canvas/canvas-connection-context.png)


以下の画像は、Snowflake でデータセットを結合するために使用されるページを示しています。

![\[結合するデータセットを示している、Canvas の [インポート] ページのスクリーンショット。\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/studio/canvas/canvas-snowflake-join.png)


以下の画像は、Snowflake で結合を編集するために使用される SQL クエリを示しています。

![\[Canvas の [インポート] ページの [SQL を編集する] エディタでの SQL クエリのスクリーンショット。\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/studio/canvas/canvas-snowflake-edit-sql.png)


### Canvas で SaaS コネクタを使用する
<a name="canvas-connecting-external-appflow"></a>

**注記**  
SaaS プラットフォームでは、Snowflake に加えて、データソースごとに 1 つの接続しか使用できません。

SaaS プラットフォームからデータをインポートする前に、管理者は認証を行い、データソースへの接続を作成する必要があります。管理者が SaaS プラットフォームとの接続を作成する方法の詳細については、「Amazon AppFlow ユーザーガイド」の「[Amazon AppFlow 接続の管理](https://docs.aws.amazon.com/appflow/latest/userguide/connections.html)」を参照してください。**

Amazon AppFlow を初めて使い始める管理者の場合は、「Amazon AppFlow ユーザーガイド」の「[Amazon AppFlow の開始方法](https://docs.aws.amazon.com/appflow/latest/userguide/getting-started.html)」を参照してください。**

SaaS プラットフォームからデータをインポートするには、標準の「[表形式データをインポートする](canvas-import-dataset.md#canvas-import-dataset-tabular)」手順に従って表形式のデータセットを Canvas にインポートします。

# Canvas のサンプルデータセット
<a name="canvas-sample-datasets"></a>

SageMaker Canvas には、個別のユースケースに対応するサンプルデータセットが用意されているため、コードを記述することなくモデルの構築、トレーニング、検証をすぐに開始できます。これらのデータセットに関連するユースケースでは SageMaker Canvas の機能を使用しており、これらのデータセットを活用してモデルの構築を開始できます。サンプルデータセットは、SageMaker Canvas アプリケーションの **[データセット]** ページにあります。

以下のデータセットは、SageMaker Canvas がデフォルトで提供するサンプルです。これらのデータセットは、住宅価格、債務不履行、糖尿病患者の再入院の予測、売上予測、製造部門の予知保全を効率化するための機械故障予測、輸送と物流のサプライチェーン予測の生成などのユースケースを対象としています。このデータセットは、SageMaker AI がリージョンのアカウント用に作成するデフォルトの Amazon S3 バケット内の `sample_dataset` フォルダに保存されます。
+ **canvas-sample-diabetic-readmission.csv:** このデータセットには、患者と治療の成果に関する 15 を超える機能を含む履歴データが含まれています。このデータセットを使用して、高リスクの糖尿病患者が退院後 30 日以内に再入院するか、30 日後に再入院するか、あるいはまったく入院しないかを予測できます。**redadmitted** 列をターゲット列として使用して、このデータセットでは 3\$1 カテゴリ予測モデルタイプを使用します。このデータセットを使用したモデル構築方法の詳細については、「[SageMaker Canvas workshop ページ](https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US/zzz-legacy/1-use-cases/5-hcls)」を参照してください。このデータセットは、「[UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/datasets/diabetes+130-us+hospitals+for+years+1999-2008)」から取得されました。
+ **canvas-sample-housing.csv:** このデータセットには、特定の住宅価格に関連する特性に関するデータが含まれています。このデータセットを使用して住宅価格を予測できます。**median\$1house\$1value** 列をターゲット列として使用して、このデータセットでは数値予測モデルタイプを使用します。このデータセットを使用したモデル構築方法の詳細については、「[SageMaker Canvas workshop ページ](https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US/zzz-legacy/1-use-cases/2-real-estate)」を参照してください。これは「[StatLib repository](https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html)」から取得したカリフォルニア州の住宅データセットです。
+ **canvas-sample-loans.csv:** このデータセットには、現在のローン状況や最新の支払い情報など、2007 年から 2011 年に発行されたすべてのローンの完全なローンデータが含まれています。このデータセットを使用して、顧客がローンを返済するかどうかを予測できます。**loan\$1status** 列をターゲット列として使用して、このデータセットでは 3\$1 カテゴリ予測モデルタイプを使用します。このデータセットを使用したモデル構築方法の詳細については、「[SageMaker Canvas workshop ページ](https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US/zzz-legacy/1-use-cases/4-finserv)」を参照してください。このデータは「[Kaggle](https://www.kaggle.com/datasets/wordsforthewise/lending-club)」から入手した LendingClub データを使用しています。
+ **canvas-sample-maintenance.csv:** このデータセットには、特定のメンテナンス障害タイプに関連する特性に関するデータが含まれています。このデータセットを使用して、将来どの障害が発生するかを予測できます。**Failure Type** 列をターゲット列として使用して、このデータセットでは 3\$1 カテゴリ予測モデルタイプを使用します。このデータセットを使用したモデル構築方法の詳細については、「[SageMaker Canvas workshop ページ](https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US/zzz-legacy/1-use-cases/6-manufacturing)」を参照してください。このデータセットは、「[UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/datasets/AI4I+2020+Predictive+Maintenance+Dataset)」から取得されました。
+ **canvas-sample-shipping-logs.csv:** このデータセットには、配送予定時刻、配送優先順位、配送元など、配送されたすべての製品の完全な配送データが含まれています。このデータセットを使用して、荷物の到着予定日数を予測できます。**ActualShippingDays** 列をターゲット列として使用して、このデータセットでは数値予測モデルタイプを使用します。このデータを使用したモデル構築方法の詳細については、「[SageMaker Canvas workshop ページ](https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US/zzz-legacy/1-use-cases/7-supply-chain)」を参照してください。これは Amazon が作成した合成データセットです。
+ **canvas-sample-sales-forecasting.csv:** このデータセットには、小売店の過去の時系列売上データが含まれています。このデータセットを使用して、特定の小売店の売上を予測できます。**sales** をターゲット列として使用して、このデータセットでは時系列予測モデルタイプを使用します。このデータセットを使用したモデル構築方法の詳細については、「[SageMaker Canvas workshop ページ](https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US/zzz-legacy/1-use-cases/3-retail)」を参照してください。これは Amazon が作成した合成データセットです。

# 削除したサンプルデータセットを再インポートする
<a name="canvas-sample-datasets-reimport"></a>

Amazon SageMaker Canvas は、Canvas の機能を強調するさまざまなユースケースのサンプルデータセットを提供します。使用可能なサンプルデータセットの詳細については、「[Canvas のサンプルデータセット](canvas-sample-datasets.md)」を参照してください。サンプルデータセットを使用する必要がなくなった場合は、SageMaker Canvas アプリケーションの**[データセット]** ページから削除できます。ただし、これらのデータセットは、[[Canvas のストレージロケーション]](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-storage-configuration.html) として指定した Amazon S3 バケットからは削除されないため、後でいつでもアクセスできます。

デフォルトの Amazon S3 バケットを使用した場合、`sagemaker-{region}-{account ID}` のパターンに従ってバケットの名前が付けられます。サンプルデータセットは `Canvas/sample_dataset` のディレクトリパスにあります。

SageMaker Canvas アプリケーションからサンプルデータセットを削除した後で、そのサンプルデータセットに再びアクセスする場合は、次の手順に従います。

1. SageMaker Canvas アプリケーションで、**[データセット]** ページに移動します。

1. **[データをインポート]** を選択します。

1. Amazon S3 バケットのリストから、Canvas のストレージロケーションであるバケットを選択します。SageMaker AI が作成したデフォルトの Amazon S3 バケットを使用する場合は、バケットは `sagemaker-{region}-{account ID}` のパターンに従って命名されます。

1. **[Canvas]** フォルダを選択します。

1. SageMaker Canvas のすべてのサンプルデータセットを含む **[sample\$1dataset]** フォルダを選択します。

1. インポートするデータセットを選択して、**[データをインポート]** を選択します。