AWS Glueとは?ELT(抽出・変換・書き込み)

AWS Glueの概要

AWS Glue は、分析、機械学習、アプリケーション開発のためのデータを準備するために必要な、分類、クリーニング、加工などの作業を簡単に実行し、多種多様なデータストアやデータストリーム間でデータを確実に移動することを可能にするフルマネージドのサーバーレスデータ準備サービスです。

データの準備は重要ですが手間がかかります。データ分析を始めるためには、まず多種多様なソースからデータを抽出し、それをクリーンアップし、必要な形式に変換して、データベース、データウェアハウス、およびデータレイクにロードしなければなりません。これらの準備は、一般的に多様なツールを使って、何人かの担当者の手によっておこなわれます。

これらの問題をAWS Glue を使うことで、データエンジニア、ETL デベロッパー、データアナリスト、データサイエンティストなどが、データを簡単に抽出、クリーンアップ、強化、正規化、読み込みでき、データの分析を開始するのにかかる時間を数か月から数分に短縮できるといわれています。

AWS Glue を活用すれば、手間がかかったデータの準備を容易にできるようになります。

たとえば、データエンジニアと ETL デベロッパーは、視覚化インターフェイスとコードベースのインターフェイスの両方が備わった、AWS Glue Studio を数回クリックするだけで ETL ワークフローを作成、実行、監視できます。また、データアナリストとデータサイエンティストは、AWS Glue DataBrew を使用して、コードを記述することなく、データを視覚的にクリーンアップし正規化することができます。

AWS Glueの利点

データをより速く準備する

AWS Glue は、分析をスタートするためのデータ準備をスピードアップするために、組織のすべてのユーザーに統合ツールを提供し、組織全体が協力して、抽出、クリーニング、正規化、読み込み、スケーラブルな ETL ワークフローの実行などのデータ準備を進めることを可能としています。

作業の多くを自動化できる

AWS Glue は、データ準備に必要な多くの作業を自動化します。たとえば、データソースをクロールし、データフォーマットを識別してデータを保存するためのスキーマと変換を提案します。また、データ変換とロードプロセスを実行するコードが自動的に生成され、数千の ETL ジョブを簡単に実行および管理して、分析のためにペタバイト単位のデータを効率的に準備できます。

サーバー管理が不要

AWS Glue は、サーバーレス環境で稼働しているため、インフラストラクチャの管理が必要ありません。また、AWS Glue は、データ準備ジョブの実行に必要なリソースをプロビジョニング、設定、スケーリングして、実行中にジョブが使用するリソースに対してのみ料金が発生します。

参考資料
https://aws.amazon.com/jp/glue/