Amazon EMR(旧Amazon Elastic MapReduce)とは、ビッグデータの処理や分析を行うサービスです。ビッグデータを処理する既存のフレームワークであるHadoop(ハドゥープ)やSpark(スパーク)を用いています。データを複数のサーバーに配置して並列に処理する「分散処理」により、迅速かつ効率の良い処理を実現しています。
「分散処理」という名の通り、Amazon EMRは3つの役割を持つノード(EC2インスタンス)でクラスターを構成し、処理を分散します。
・マスターノード
クラスター全体を管理するノード。コアノードおよびタスクノードへ処理を投入したり分散処理の調整を行う。
・コアノード
演算処理を実行するノード。データを保存するファイルシステムHDFS(Hadoop Distributed File System)を持つ。
・タスクノード(オプション)
コアノードと同様に演算処理を実行する。ファイルシステムを持たない、演算処理専用のノード。
クラスター内のコアノードまたはタスクノードは、手動、または定めたポリシーなどに従って自動でスケーリングすることができます。
Amazon EMRでは、ファイルシステムとしてHDFSとEMRFSを利用できます。
●HDFS(Hadoop Distributed File System)
分散処理ソフトウェア「Hadoop」のファイルシステムです。EMRではマスターノードとコアノードで利用します。
EMRクラスターが終了すると、HDFS上のデータは失われます。
●EMRFS(EMR File System)
Amazon S3をEMRクラスターからファイルシステムとして利用できるようにした機能です。
データを永続的に保持でき、EMRクラスターが終了してもデータは失われません。また、S3が持つ機能(データの暗号化やデータ読み込み時の強い一貫性のサポートなど)も備わっています。
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。
コメント