Athena の用途
Amazon Athena などのクエリサービス、Amazon Redshift などのデータウェアハウス、Amazon EMR などの高度なデータ処理フレームワークはすべて、それぞれが異なるニーズとユースケースに対応します。次のガイダンスは、要件に基づいて 1 つ以上のサービスを選択する際に役に立ちます。
Amazon Athena
Athena は、Amazon S3 に保存された非構造化データ、半構造化データ、および構造化データの分析に役立ちます。例えば、CSV 形式、JSON 形式、列データ形式 (Apache Parquet や Apache ORC など) に対応しています。Athena は ANSI SQL を使用したアドホッククエリの実行に利用でき、データを集約したり、データを Athena にロードしたりする必要はありません。
Athena は Amazon Quick と統合して、データを簡単に可視化できるようにします。Athena を使用して、JDBC や ODBC ドライバーで接続されたビジネスインテリジェンスツールや SQL クライアントでレポートを生成、またはデータを探索できます。詳細については、「Amazon Quick ユーザーガイド」の「What is Amazon Quick」、および「ODBC および JDBC ドライバーを使用して Amazon Athena に接続する」を参照してください。
Athena は、Amazon S3 内のデータに永続的なメタデータストアを提供する AWS Glue Data Catalog と統合します。これにより、Amazon Web Services アカウント全体で利用でき、AWS Glue の ETL およびデータ検出機能と統合された中央メタデータストアに基づいて、Athena でのテーブルの作成とデータのクエリを行うことが可能になります。詳細については、「AWS Glue Data Catalog を使用してデータに接続する」と、「AWS Glue デベロッパーガイド」の「AWS Glue とは」を参照してください。
Amazon Athena を使用すると、データをフォーマットしたり、インフラストラクチャを管理したりすることなく、Simple Storage Service (Amazon S3) 内のデータに対してインタラクティブなクエリを簡単に実行できます。例えば、Athena は、Web ログでクイッククエリを素早く実行し、サイトのパフォーマンス上の問題をトラブルシューティングする場合に便利です。Athena では、データのテーブルを定義し、標準 SQL を使用してクエリを開始するだけで、すばやく開始できます。
インフラストラクチャやクラスターを管理することなく、Simple Storage Service (Amazon S3) のデータに対してインタラクティブなアドホック SQL クエリを実行する場合は、Amazon Athena を使用してください。Amazon Athena は、サーバーをセットアップしたり管理したりすることなく、Simple Storage Service (Amazon S3) のデータに対してアドホッククエリを実行できる、最も簡単な方法となります。
Athena で活用または統合できる AWS のサービス のリストについては、「AWS のサービス の Athena との統合」を参照してください。
SageMaker Unified Studio
Amazon SageMaker Unified Studio を使用すると、Amazon Athena と Amazon Redshift を使用して SageMaker Lakehouse データに対して SQL クエリを簡単に実行できます。Unified Studio を使用すると、SQL クエリを開発し、クエリ結果を操作し、統合されたノートブック環境を通じてチームとコラボレーションできます。Amazon Q 生成 SQL を使用して、自然言語入力から SQL コードを生成することもできます。詳細については、「SageMaker Unified Studio User Guide」の「SQL Analytics」を参照してください。
Amazon EMR
Amazon EMR では、オンプレミスのデプロイと比較すると、Hadoop、Spark、Presto などの高度に分散された処理フレームワークをシンプルかつコスト効率よく実行できます。Amazon EMR は柔軟性があります。カスタムアプリケーションやコードを実行して、特定のコンピューティング、メモリ、ストレージ、およびアプリケーションパラメータを定義して、分析要件を最適化することができます。
SQL クエリを実行することに加えて、Amazon EMR では、機械学習、グラフ分析、データ変換、ストリーミングデータなど、コーディングできるほぼすべての用途に対して、さまざまなスケールアウトデータ処理タスクを実行できます。カスタムコードを使用して Spark、Hadoop、Presto、Hbase などの最新のビッグデータ処理フレームワークを使用した非常に膨大なデータセットを処理および分析する場合は、Amazon EMR を使用する必要があります。Amazon EMR では、クラスターとクラスターにインストールされているソフトウェアの設定を完全に制御できます。
Amazon Athena を使用すれば、Amazon EMR を使用して処理するデータをクエリすることができます。Amazon Athena は、Amazon EMR と同じデータ形式の多くをサポートしています。Athena のデータカタログは Hive メタストアとの互換性があります。EMR を使用しており、既に Hive メタストアがある場合は、Amazon Athena で DDL ステートメントを実行して、Amazon EMR ジョブに影響を与えることなくすぐにデータをクエリできます。
Amazon Redshift
Amazon Redshift などのデータウェアハウスは、在庫システム、金融システム、小売販売システムなどのさまざまなソースからデータを共通の形式にまとめ、長期間保存する必要がある場合に最適です。履歴データから高度なビジネスレポートを作成する場合は、Amazon Redshift のようなデータウェアハウスが最適です。Amazon Redshift のクエリエンジンは、多数の非常に大きなデータベーステーブルを結合する複合型のクエリの実行時に、特にうまく機能するように最適化されています。非常に大きな多数のテーブルを使って、結合を多数実行する高度に構造化されたデータに対してクエリを実行する必要がある場合は、Amazon Redshift を選択してください。
Athena を使用する状況の詳細については、次のリソースを参照してください。
-
「ご利用のためのリソースセンター」の「AWS 分析サービスの選択
」 -
「Amazon Athena のよくある質問」の「Athena と他のビッグデータサービスを比較する場合
」