読者です 読者をやめる 読者になる 読者になる

hadoop worldにいってきました

正直言って微妙感も漂うのですが、適当な英語を適当に使いつつコネクションを広げたりもできたので、得るものはありました。簡単にセッションの話でも書いておこうかと思います。
時差の影響が少ないので楽勝だぜ、と思ったらそんなことはなかったので、内容の正確性については空気を読んでください。


・基調講演
聞いてません。実は事故に巻き込まれたりして開始時間に合ってなかったので、オライリーがいるなあという所だけ見てあとはブースを見て回ってました。こういうところでは、Can you explain→ah ah→I will try itの構成だけ覚えておいて適当に聞きたいことを話せば英語の練習になります。いくつかおもしろそうなものはあったので、多分ほんとにtryしてみますが、他人にサマリさせるというのも客の特権であり、そこらへんは活かしておくといいと思います。

基調講演は、とりあえずweb2.0の延長でリアルタイムがイノベーションです、というところまで把握してます。


・The Business of Big Data

Big Data is EverywhereでStrage is Freeなのでなんかいろいろできるだろうという。DYMKというのがまったく見当がつかなかったのですが、risk concentrationを計測するものが入ってるらしいです。統計方面のツールだと思うのですが、見た絵的には連鎖倒産とかの統計モデルとかそんなんだと思います。本当にちゃんとデータが集められる前提で、ツールとしてのhadoopはこのへんの分野で機能しそうな感じです。ちらっと話した感じだと、いちおうこのへんはプロダクションに入っているらしいです。
とりあえずデータを溜め込んでおいて分析するData Factoryという打ち出し方でしたね。プレゼンテーションのながれとかはまあまあよかった気がします。


・Top 10 Lessons Learned from Deploying Hadoop and HBase

営業とかやってたのでほとんどはなしてなかったり。OSの設定とかハードの設定とかも大事よ。という話。あとはJRubyつかえば行数が少ないとか。JRubyを否定するつもりはないけど、行数だけ引き合いに出されてもはあという感じ。短い方がいいとは思うけど。


Hadoop: Best Practices and Real Experience Going from 5 to 500 Nodes

小さいクラスタでもメリットあるから初めてみれば、あとクラスタがおっきくなってくるとHPの管理ツールがあるから大丈夫。


・Business Analyst Tools & Applications for Hadoop
写真とるの忘れた。Hadoop MRのJavaで書いてるやつはプリミティブで、OOSでもそうじゃないのでもいろいろ選択肢があるよ的な。
OOSのはHive/Pig/Oozieとかであまり説明の必要はないと思いますが、ベンダ製のは

http://www.karmasphere.com/
http://www.talend.com/index.php
http://www.datameer.com/

とかがあるようです。ブースとか見た感じだとdatameerのがspreadsheetっぽくてその筋の人には受けそう。一応、ユーザー定義関数的なものも考慮しているようなので、フロントの候補としては良さげかも。
まあこの辺からだんだん見えてくると思いますが、意識してるのは水平統合っぽいですね。他人の会社なのでなんでもいいですが。


・ZooKeeper in Online Systems, Feed Processing and Cluster Management!

Zookeeperの使い方パターンみたいな話です。

分散環境での協調は、
・グループを定義する
・リーダー決める
・設定配布する
・モニタリングする
・クエリからデータをとってくる
・バリアの制御をする
クリティカルセクションの制御をする

とかを実現するために大事です。


個人的に一番面白そうだったFeed processingの絵なのですが、ぶれててよくわかんないですね。
Zookeeperは分散キューとしても振る舞えるはずなので、データがフィードされてくるものをZKクラスタで受け取ってHadoopに流し込んだりJobにしてなにかさせたりという構成です。ちなみに、スピーカーの方はこのパターンを試したことないとか。なんだそれ。

他の使い方としては、
・データの収集 要するにflumeだと思います
・コンテンツの配布 多分クライアントから一番近い場所を教えてあげてそこからデータを取らせるとか
クラスタの管理 設定ファイルを配布するとかの話だった気が

他に面白そうなものとして、
・Bookkeeper http://hadoop.apache.org/zookeeper/docs/r3.3.0/bookkeeperStarted.html
分散Write Ahead Log

・Headwig https://issues.apache.org/jira/browse/ZOOKEEPER-775
分散Pub Sub

とりあえず分散っていえば許してもらえると思ってます。


・Multi-Channel Behavioral Analytics

面白い経歴


面白いアイコン使い

ブースで話を聞いてみて印象が良かったので来てみたらブースでした話のほうが面白かったの巻


・Using R and Hadoop to Analyze VoIP Network Data for QoS
RHIPEを使えばいいらしいということくらいしかわかりませんでした。
この辺はだいぶきつかったのでごめんなさい。


・MapReduce and Parallel Database Systems: Complementary or Competitive Technology?
MRとDBの比較。歴史的なあれやこれや。
ざっくりだと、Joinは相対的に遅いけどユーザー定義関数を実行するのが相対的に速いというのが特色。
で、まあなんやかんやいってMRでカバーできないところはないので、Joinをどうにかして速くしたHadoopDBというのを作ってるらしいです。
アーキテクチャの説明は、僕が聞いてなかったのか一瞬で飛ばされたのか覚えてないですが多分後者で、なんかすごいらしいです。

※JoinはHiveかPigではかったっていってたような気がします。どっちだったかは正確には覚えてない。


・Managing Derivatives Data with Hadoop

CMEの話。証券取引所なので、マッチング/クリアリングとかをやります。


レイテンシを計測してその結果をHadoopで分析しているようです。マッチングエンジンが証券取引所のコアなので、その分析。取引量が増えてきて、ぼくのメモが間違っていなければ1分100万txとかをさばかないといけないので、パフォーマンスが大事という。単位は秒なきはします。
計測するだけだと事後的なので、これにデバッガ的にデータを取るやつを仕込んだりしたりとかもできるらしいです。それってhadoop?という感じではあるけど。


別な用途としては、データマイニング的なもので使っています。ここでいうCustomerがどこをさすのかわかりませんし、オークションなのかマーケットメイクなのかによっても変わってきますが、オークションで指値ががんがんはいってくると相当なデータ量となるのは容易に想像がつきますから、たぶんそういう話なんだと思います。

小さい話題として、アメリカだとレギュラトリの保存要件は7年だそうなので、そういうめんどい系のデータをためておく場所としてのクラウドというのはいいかもしれません。リポジトリという言葉を使っていました。


なんか個人的にはHadoopでMark to Marketしたらいいなーというのをずっと思ってたのでいってみたらスピーカーがMark to Market知らなかったの巻


・Closing Remarks, Mike Olson, CEO, Cloudera

イベントのハッシュタグがtwitterのハッシュタグランキングで上位10位に入ったとか。
あとはiPad当選者の発表とか。いいなあiPad


・Networking Reception - Sponsored by NTT Data Corporation

ちょろちょろと話をして、酒飲んで、明日もあるのでさくっと帰りました。ホテル遠いからちょっと怖いというのもあるし。
帰るときは若干やばげだったのですが、シャワーを浴びたら回復した気分なのでとりあえずまとめてます。

あとそれっぽいコメントとしては、全体的な構成がマネジメント向けに作られているように思え、SunとOracleの対比で言えばOracleよりな印象だったこと。Clouderaの動きとしては、Hadoopのエコシステムに各種分析ツールを統合していく方針で、水平統合を指向している印象であること。そんな感じ。Clouderaが目指すものはよくわかりませんが、とりあえずCDHをちゃんとメンテしてくれればそれだけで結構なプレゼンスになるようにも思います。ツール自体が新たにリリースされていて開発が進んでいる印象はありますが、きっちり収集つくように管理されているかは若干怪しげでもあります。



たぶん副交感神経が刺激されたことによる一時的な興奮作用があれなだけなので、すいませんがねます。もうすこし盛り上がってもよかったような気はします。またそのうち。