たくろぐ!

仕事はエンジニア、心はアーティスト

分散処理まとめ

Apache Hadoop

アーキテクチャ

以下の4つのモジュールにて構成されている。
- Hadoop Common
- Hadoop Distributed File System (HDFS)
- Hadoop YARN
- Hadoop MapReduce

YARN

クラスタのリソース管理、ジョブスケジューリング

Hadoop Distributed File System (HDFS)

分散ファイルシステム

Hadoop MapReduce

プログラミングモデル。
YARN上で動作する。
Mapステップでマスターノードが複数のワーカーノードに処理を任せて、Reduceステップでそれらを集約する。

fluentd

以前はサーバに保存されたログデータを定期的にまとめてログ収集サーバに送って保管してた。
それをfluentdではデータを収集するのにインプットプラグイン、データを保持・移動するときにバッファプラグイン、データを出力するのにアウトプットプラグインを用いてデータを管理する。

Fluentdは、米Treasure Data社が中心となり、「Log everything in JSON」を掲げ、すべてのログをJSONとして扱うことを目的として、オープンソースとして開発されているログ収集管理ツール(ログコレクタデーモン)です。Rubyで実装されています。

https://www.ossnews.jp/oss_info/fluentd