Amazon Athena에서 Apache Spark 사용 - Amazon Athena

Amazon Athena에서 Apache Spark 사용

Amazon Athena를 사용하면 리소스를 계획, 구성 또는 관리할 필요 없이 Apache Spark를 사용하여 데이터 분석 및 탐색을 대화식으로 쉽게 실행할 수 있습니다. Athena에서 Apache Spark 애플리케이션을 실행하는 것은 추가 구성 없이 결과를 직접 처리하고 수신하기 위해 Spark 코드를 제출하는 것을 의미합니다. Amazon Athena의 Apache Spark는 서버리스이며, 자동 온디맨드로 확장하여 즉시 컴퓨팅을 제공함으로써 변화하는 데이터 볼륨 및 처리 요구 사항을 충족할 수 있습니다.

릴리스 버전 PySpark 엔진 버전 3에서는 Amazon Athena 콘솔의 단순화된 노트북 환경을 사용하여 Python 또는 Athena 노트북 API를 통해 Apache Spark 애플리케이션을 개발할 수 있습니다.

릴리스 버전 Apache Spark 버전 3.5에서는 Amazon SageMaker Unified Studio 노트북 또는 호환되는 기본 Spark Connect 클라이언트에서 Spark 코드를 실행할 수 있습니다.

Amazon Athena는 다음과 같은 기능을 제공합니다.

  • 콘솔 사용 현황 - Amazon Athena 콘솔에서 Spark 애플리케이션을 제출합니다(Pyspark 엔진 버전 3만 해당).

  • 스크립팅 - Python에서 Apache Spark 애플리케이션을 대화식으로 빠르게 빌드하고 디버그합니다.

  • 동적 조정 - Amazon Athena에서 작업을 실행하는 데 필요한 컴퓨팅 및 메모리 리소스를 자동으로 결정하고 지정된 최대값까지 해당 리소스를 지속적으로 확장합니다. 이러한 동적 조정은 속도에 영향을 주지 않으면서 비용을 절감합니다.

  • 노트북 환경 - Amazon SageMaker AI Unified Studio 노트북을 사용하여 익숙한 인터페이스에서 계산을 생성, 편집, 실행합니다. Pyspark 엔진 버전 3에서는 Jupyter Notebook과 호환되는 Athena 콘솔 내 노트북을 사용하고 계산을 위해 순서대로 실행되는 셀 목록을 포함할 수 있습니다. 셀 콘텐츠에는 코드, 텍스트, 마크다운, 수학, 도표 및 리치 미디어가 포함될 수 있습니다.

자세한 내용은 AWS 빅 데이터 블로그Run Spark SQL on Amazon Athena SparkExplore your data lake using Amazon Athena for Apache Spark를 참조하세요.