View a markdown version of this page

Amazon Athena で Apache Spark を使用する - Amazon Athena

Amazon Athena で Apache Spark を使用する

Amazon Athena では、リソースの計画、設定、管理を必要とせずに、Apache Spark を使用してインタラクティブに簡単にデータ分析と探索を実行できます。Athena で Apache Spark アプリケーションを実行するということは、処理用 Spark コードを送信し、追加の設定をしなくても結果を直接受け取ることを意味します。Amazon Athena の Apache Spark はサーバーレスであり、オンデマンドで自動的にスケーリングされるため、データ量や処理要件の変化に合わせて瞬時に処理できます。

リリースバージョン PySpark エンジンバージョン 3 では、Amazon Athena コンソールのシンプルなノートブックエクスペリエンスを使用すると、Python または Athena ノートブック API を使用して Apache Spark アプリケーションを開発できます。

リリースバージョン Apache Spark バージョン 3.5 では、Amazon SageMaker Unified Studio ノートブックまたは互換性のある Spark Connect クライアントから Spark コードを実行できます。

Amazon Athena には次の特徴があります。

  • コンソールの使用 - Amazon Athena コンソールから Spark アプリケーションを送信します(Pyspark エンジンバージョン 3 のみ)。

  • スクリプティング - Python で Apache Spark アプリケーションを迅速かつインタラクティブにビルドおよびデバッグできます。

  • 動的スケーリング - Amazon Athena は、ジョブの実行に必要なコンピューティングリソースとメモリリソースを自動的に決定し、それに応じてそれらのリソースを指定された最大値まで継続的にスケーリングします。この動的スケーリングは、速度に影響を与えずにコストを削減します。

  • ノートブックエクスペリエンス - Amazon SageMaker AI Unified Studio ノートブックを使用すると、使い慣れたインターフェイスを使用した計算の作成、編集、実行が可能です。Pyspark エンジンバージョン 3 では、Athena コンソール内ノートブックを使用できます。これは Jupyter Notebook と互換性があり、計算として順番に実行されるセルのリストが含まれています。セルの内容には、コード、テキスト、マークダウン、数学、プロット、リッチメディアなどを含めることができます。

追加情報については、「AWS Big Data Blog」の「Run Spark SQL on Amazon Athena Spark」と「Explore your data lake using Amazon Athena for Apache Spark」を参照してください。