AWS
2024.07.05
0

Amazon EMR

Amazon EMR（旧Amazon Elastic MapReduce）とは、ビッグデータの処理や分析を行うサービスです。ビッグデータを処理する既存のフレームワークであるHadoop（ハドゥープ）やSpark（スパーク）を用いています。データを複数のサーバーに配置して並列に処理する「分散処理」により、迅速かつ効率の良い処理を実現しています。

「分散処理」という名の通り、Amazon EMRは3つの役割を持つノード（EC2インスタンス）でクラスターを構成し、処理を分散します。

・マスターノード
　クラスター全体を管理するノード。コアノードおよびタスクノードへ処理を投入したり分散処理の調整を行う。
・コアノード
　演算処理を実行するノード。データを保存するファイルシステムHDFS（Hadoop Distributed File System）を持つ。
・タスクノード（オプション）
　コアノードと同様に演算処理を実行する。ファイルシステムを持たない、演算処理専用のノード。

クラスター内のコアノードまたはタスクノードは、手動、または定めたポリシーなどに従って自動でスケーリングすることができます。

Amazon EMRでは、ファイルシステムとしてHDFSとEMRFSを利用できます。

●HDFS（Hadoop Distributed File System）
分散処理ソフトウェア「Hadoop」のファイルシステムです。EMRではマスターノードとコアノードで利用します。
EMRクラスターが終了すると、HDFS上のデータは失われます。

●EMRFS（EMR File System）
Amazon S3をEMRクラスターからファイルシステムとして利用できるようにした機能です。
データを永続的に保持でき、EMRクラスターが終了してもデータは失われません。また、S3が持つ機能（データの暗号化やデータ読み込み時の強い一貫性のサポートなど）も備わっています。

この記事は役に立ちましたか？

もし参考になりましたら、下記のボタンで教えてください。

投稿者: haya
AWS
AmazonEMR, EMRFS, Hadoop, HDFS, Spark
コメント: 0

AWS Glue 前の記事 Amazon Athena 次の記事

0 コメント
0 トラックバック

この記事へのコメントはありません。

CATEGORY

Python

Amazon EMR

この記事は役に立ちましたか？

コメント

CATEGORY

Python

この記事は役に立ちましたか？

関連記事

aws セキュリティ、アイデンティティ、コンプライアンス

AWS Data Pipeline

Amazon Comprehend

Amazon FSx for NetApp ONTAP

Amazon Textract

AWSのセキュリティ

コメント