Amazon EMR

Amazon EMR(旧Amazon Elastic MapReduce)とは、ビッグデータの処理や分析を行うサービスです。ビッグデータを処理する既存のフレームワークであるHadoop(ハドゥープ)やSpark(スパーク)を用いています。データを複数のサーバーに配置して並列に処理する「分散処理」により、迅速かつ効率の良い処理を実現しています。

「分散処理」という名の通り、Amazon EMRは3つの役割を持つノード(EC2インスタンス)でクラスターを構成し、処理を分散します。

・マスターノード
 クラスター全体を管理するノード。コアノードおよびタスクノードへ処理を投入したり分散処理の調整を行う。
・コアノード
 演算処理を実行するノード。データを保存するファイルシステムHDFS(Hadoop Distributed File System)を持つ。
・タスクノード(オプション)
 コアノードと同様に演算処理を実行する。ファイルシステムを持たない、演算処理専用のノード。

クラスター内のコアノードまたはタスクノードは、手動、または定めたポリシーなどに従って自動でスケーリングすることができます。

Amazon EMRでは、ファイルシステムとしてHDFSとEMRFSを利用できます。

●HDFS(Hadoop Distributed File System)
分散処理ソフトウェア「Hadoop」のファイルシステムです。EMRではマスターノードとコアノードで利用します。
EMRクラスターが終了すると、HDFS上のデータは失われます。

●EMRFS(EMR File System)
Amazon S3をEMRクラスターからファイルシステムとして利用できるようにした機能です。
データを永続的に保持でき、EMRクラスターが終了してもデータは失われません。また、S3が持つ機能(データの暗号化やデータ読み込み時の強い一貫性のサポートなど)も備わっています。

この記事は役に立ちましたか?

もし参考になりましたら、下記のボタンで教えてください。

関連記事

コメント

この記事へのコメントはありません。