Amazon Athena SageMaker Unified Studio Amazon EMR Amazon Redshift

Athena の用途

Amazon Athena などのクエリサービス、Amazon Redshift などのデータウェアハウス、Amazon EMR などの高度なデータ処理フレームワークはすべて、それぞれが異なるニーズとユースケースに対応します。次のガイダンスは、要件に基づいて 1 つ以上のサービスを選択する際に役に立ちます。

Amazon Athena

Athena は、Amazon S3 に保存された非構造化データ、半構造化データ、および構造化データの分析に役立ちます。例えば、CSV 形式、JSON 形式、列データ形式 (Apache Parquet や Apache ORC など) に対応しています。Athena は ANSI SQL を使用したアドホッククエリの実行に利用でき、データを集約したり、データを Athena にロードしたりする必要はありません。

Athena は Amazon Quick と統合して、データを簡単に可視化できるようにします。Athena を使用して、JDBC や ODBC ドライバーで接続されたビジネスインテリジェンスツールや SQL クライアントでレポートを生成、またはデータを探索できます。詳細については、「Amazon Quick ユーザーガイド」の「What is Amazon Quick」、および「ODBC および JDBC ドライバーを使用して Amazon Athena に接続する」を参照してください。

Athena は、Amazon S3 内のデータに永続的なメタデータストアを提供する AWS Glue Data Catalog と統合します。これにより、Amazon Web Services アカウント全体で利用でき、AWS Glue の ETL およびデータ検出機能と統合された中央メタデータストアに基づいて、Athena でのテーブルの作成とデータのクエリを行うことが可能になります。詳細については、「AWS Glue Data Catalog を使用してデータに接続する」と、「AWS Glue デベロッパーガイド」の「AWS Glue とは」を参照してください。

Amazon Athena を使用すると、データをフォーマットしたり、インフラストラクチャを管理したりすることなく、Simple Storage Service (Amazon S3) 内のデータに対してインタラクティブなクエリを簡単に実行できます。例えば、Athena は、Web ログでクイッククエリを素早く実行し、サイトのパフォーマンス上の問題をトラブルシューティングする場合に便利です。Athena では、データのテーブルを定義し、標準 SQL を使用してクエリを開始するだけで、すばやく開始できます。

インフラストラクチャやクラスターを管理することなく、Simple Storage Service (Amazon S3) のデータに対してインタラクティブなアドホック SQL クエリを実行する場合は、Amazon Athena を使用してください。Amazon Athena は、サーバーをセットアップしたり管理したりすることなく、Simple Storage Service (Amazon S3) のデータに対してアドホッククエリを実行できる、最も簡単な方法となります。

Athena で活用または統合できる AWS のサービスのリストについては、「AWS のサービスの Athena との統合」を参照してください。

SageMaker Unified Studio

Amazon SageMaker Unified Studio を使用すると、Amazon Athena と Amazon Redshift を使用して SageMaker Lakehouse データに対して SQL クエリを簡単に実行できます。Unified Studio を使用すると、SQL クエリを開発し、クエリ結果を操作し、統合されたノートブック環境を通じてチームとコラボレーションできます。Amazon Q 生成 SQL を使用して、自然言語入力から SQL コードを生成することもできます。詳細については、「SageMaker Unified Studio User Guide」の「SQL Analytics」を参照してください。

Amazon EMR

Amazon EMR では、オンプレミスのデプロイと比較すると、Hadoop、Spark、Presto などの高度に分散された処理フレームワークをシンプルかつコスト効率よく実行できます。Amazon EMR は柔軟性があります。カスタムアプリケーションやコードを実行して、特定のコンピューティング、メモリ、ストレージ、およびアプリケーションパラメータを定義して、分析要件を最適化することができます。

SQL クエリを実行することに加えて、Amazon EMR では、機械学習、グラフ分析、データ変換、ストリーミングデータなど、コーディングできるほぼすべての用途に対して、さまざまなスケールアウトデータ処理タスクを実行できます。カスタムコードを使用して Spark、Hadoop、Presto、Hbase などの最新のビッグデータ処理フレームワークを使用した非常に膨大なデータセットを処理および分析する場合は、Amazon EMR を使用する必要があります。Amazon EMR では、クラスターとクラスターにインストールされているソフトウェアの設定を完全に制御できます。

Amazon Athena を使用すれば、Amazon EMR を使用して処理するデータをクエリすることができます。Amazon Athena は、Amazon EMR と同じデータ形式の多くをサポートしています。Athena のデータカタログは Hive メタストアとの互換性があります。EMR を使用しており、既に Hive メタストアがある場合は、Amazon Athena で DDL ステートメントを実行して、Amazon EMR ジョブに影響を与えることなくすぐにデータをクエリできます。

Amazon Redshift

Amazon Redshift などのデータウェアハウスは、在庫システム、金融システム、小売販売システムなどのさまざまなソースからデータを共通の形式にまとめ、長期間保存する必要がある場合に最適です。履歴データから高度なビジネスレポートを作成する場合は、Amazon Redshift のようなデータウェアハウスが最適です。Amazon Redshift のクエリエンジンは、多数の非常に大きなデータベーステーブルを結合する複合型のクエリの実行時に、特にうまく機能するように最適化されています。非常に大きな多数のテーブルを使って、結合を多数実行する高度に構造化されたデータに対してクエリを実行する必要がある場合は、Amazon Redshift を選択してください。

Athena を使用する状況の詳細については、次のリソースを参照してください。

「ご利用のためのリソースセンター」の「AWS 分析サービスの選択」
「Amazon Athena のよくある質問」の「Athena と他のビッグデータサービスを比較する場合」
Amazon Athena の概要
Amazon Athena の特徴
Amazon Athena のよくある質問
Amazon Athena ブログ記事

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Amazon Athena とは

Athena の利用方法