CDH4 YARN MRエラー集

YARNにしてから稼働確認的にTeraGen/TeraSortを動かし続けているのですが、結構な頻度であれやこれや発生するので、せっかくなのであれしておきます。まだ設定自体が安定していないので実効のサンプル数は少ないですが、サンプル数の割にはエラーが多い印象です。最近暑くなってきたというのもあり、原因は別なところにもあるように思いますが。

MR自体が成功していてもContainerかResource Manager的なもののログにはなんやかんや出ていることがあるので、この辺は見ておいてもいいかもしれないです。

傾向として、TeraGenに関してはエラーが発生することは少なく、TeraSortのShuffleでよくエラーが起こります。


ShufflerのMap OutputとReduce Inputあたりでのチェックサムエラーが起きているような気がします。

Reduce InputのKeyが適切に読み込めずEOFになっている気がします。

Reduce Inputのマージ時に何かが適切に読み込めずNegative key-lengthと言われている気がします。


感想
・原因はハードとか熱とか設定とか別のような気もしますが、とりあえず