読者です 読者をやめる 読者になる 読者になる

admin training一日目

でてきました。そんなにdevと変わんない感じではあります。広告業界に強いソリューションアーキテクトのalex(スペルはあってるかわかんない)さんが担当。なんか金融のソリューションアーキテクトもいるらしい。雇って!


今回はプロダクションで使ってる人がほとんどだったので、とりあえず前半はさくさく展開。alexさんは名前にこだわり派で、Shared NotingはShared Littleが正確だとか、Secondary Name Nodeはフェールオーバーしないから名前変えろとか、Backup Name Nodeもチェックポイントつかってるからバックアップじゃないとか、HBaseはDatabaseじゃなくてBase of Dataだとか、そんな感じでした。参加者でHadoopを触ったことない人はいなかったので、みんな三つくらい知らないことを知ることを目標にしようぜ!的な。

そういえば、カンファレンスの話としては、昨日のはBusiness Analyist/Data Scientist/Developerそれぞれの話題を一日でやったからまああれだったよね、みたいな話も。僕の範囲では基本的に開発者っぽいひとがおおくてそれぼどエキサイティングではなかったよねー、という評価であったので、そのへんはそういう事情もあって向こうでも認識してるっぽいです。そんな話もちら聞き。


中身は、
・基本のあれこれ
クラスタのハードとかソフトとかの設定
Hadoopの設定のポイント

という感じ。中身自体は試したことある人にとってはそれほど面白い話ではないですが、やっぱこっちはそれっぽいweb企業から来てる人がおおいので、質問とかが面白いです。日本で受けてないからそっちの雰囲気はわかんないけど。あんまりこういうこと言うのはあれですが、海外の開発者の方が目つきは鋭い気がします。西も東も。

で、へーと思ったところだけ備忘録。細かく書くのもどうかと思うので、まあ気になるところがあれば日本でもあるらしいのでそちらにでも。
・map outputもストレージ全体の容量として考えておこうね
・map outputをとっておくためにつかう容量も調整できるよ
・絶対値じゃなくてパーセンテージで設定しとくと違うスペックのマシンを足したときとかだいたい動くからいいかも(まあそれぞれに設定ファイルをおいてやるのがいい気がします。
・メモリはたまに壊れるので、容量おっきいやつ一枚挿すよりなんまいか入れとくのがいいよ、安いし
・2core/4GMくらいのスレーブでも機能するよ、でも1slotにしとくのがswap/spillのdisk writeを防ぐ意味でよさげ
・ディスクの回転はクエリつかうとかなら結構大事、Hive/Pigあたり
・6coreのi7系はパフォーマンスみるとかなり優秀
・LVMとかつかわないほうがいいよ、kickstartはLVMがデフォルトだから気をつけて!
・one to oneの仮想化はまあ管理が楽になるならまああり、パフォーマンス落ちるからあれだけど
・start-all.sh/stop-all.shは、まあsshパスフレーズなしにしないといけないからadmin的にはあれだよねー、自分でスクリプト書けばいいよ
・ファイルのブロックサイズはクラスタじゃなくてファイルごとに決められる
・reduceのコピースレッドはmap slot数の半分くらいでいい
・reducerで投機的実行するとかまあやめときなよ
・spillまわりは調整むずい(Clouderaのひとにとっても!)
・SequenceFileのバイナリの圧縮はブロックごとにしといたほうがいい


という感じで明日が最後なのでがんばります。