翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS Glue 最新バージョンを使用する
AWS Glue 最新バージョンを使用することをお勧めします。各バージョンには、ジョブのパフォーマンスを自動的に向上させる可能性がある最適化とアップグレードが組み込まれています。たとえば、 AWS Glue 4.0 には次の新機能があります。
-
新しい最適化された Apache Spark 3.3.0 ランタイム – AWS Glue 4.0 は Apache Spark 3.3.0 ランタイムに基づいて構築され、オープンソース Spark に同等のパフォーマンスの向上をもたらします。Spark 3.3.0 ランタイムは、Spark 2.x の多くのイノベーションを継承しています。
-
拡張された Amazon Redshift コネクタ – AWS Glue 4.0 以降のバージョンでは、Apache Spark と Amazon Redshift を統合できます。この統合は既存のオープンソースコネクタを基盤としており、パフォーマンスとセキュリティが強化されています。この統合により、アプリケーションのパフォーマンスが最大 10 倍向上します。詳細については、「Amazon Redshift integration with Apache Spark
」に関するブログ記事を参照してください。 -
CSV および JSON データを使用したベクトル化された読み取りの SIMD ベースの実行 – AWS Glue バージョン 3.0 以降では、行ベースのリーダーと比較して全体的なジョブパフォーマンスを大幅に高速化できる最適化されたリーダーが追加されています。CSV データの詳細については、「ベクトル化された SIMD CSV リーダーで読み取りパフォーマンスを最適化する」を参照してください。JSON データの詳細については、「Apache Arrow 列指向形式によりベクトル化された SIMD JSON リーダーの使用」を参照してください。
各 AWS Glue バージョンには、コネクタ、ドライバー、ライブラリの更新など、多くの の中で、この種のアップグレードが含まれます。詳細については、「 AWS Glue バージョン」および「 バージョン 4.0 への AWS GlueAWS Glue ジョブの移行」を参照してください。