読者です 読者をやめる 読者になる 読者になる

hadoop worldにいってくるので

どのセッションをみてくるか決めようと思います。それなりに並列度高いので、あれだったら分散できるかなとか。結構な強行軍になってしまったので、ちゃんとつけるかどうか怪しいですが。

当日の気分次第で変わるところだと思いますが、時差の影響がそれほどない状態でいけるはずなので、中身はそこそこ理解できるはずです。といっても、NYには当日早朝着の予定なので、怪しげですが。月曜日がColumbus Dayであることに気づかず未だサンフランシスコにいて、前日のレセプションには出られません。残念。

ちなみに、これ pdfが当日の流れです。


・11:00am – 11:30am
The Business of Big Data
bank of americaのセッションです。金融ビジネスとレガシーなシステムという絡みからホスト系の話かもしれず、バックグラウンドとしては若干違うところもあるのですが、"start with a business problem"ということなので実用的な話題として期待。雇ってくれないかなとか思ったり。
裏の、Search Analytics with Flume and HBase、も気になりますが、多分誰か他の人がいくと思います。

・11:35am – 12:05pm
Top 10 Lessons Learned from Deploying Hadoop and HBase
やっぱオンライン考慮するとHBaseとかそういうの使いたいし、データ移行/sqoopでインポートみたいな想定でHBaseなしの組み立てもできるけど、HBaseがそこそこ使えるという前提なら便利そうなので聞いておきたいところ。最近ちょっと触ったりしてたので、共感できる話も多いかもという期待。
The Explorys NetworkでもHBaseを使った話が聞ける模様で迷いどころですが、HIPAAとか興味ある訳でもないので、アーキよりの話が聞ければと。

・12:10pm – 12:40pm
Hadoop: Best Practices and Real Experience Going from 5 to 500 Nodes
実際、このくらいのノード数から拡張していく路線がありそうなので、聞いておきたいところ。NTTデータの資料の構成管理の検討部分と重複するところもありそうなのと、HPだとハードを売るための話なのではないかと邪推してしまうところですが、裏がそそられなかったのでこれで。

・1:45pm – 2:15pm
HBase in Production at Facebookですかね。
Business Analyst Tools & Applications for Hadoopが次点で、前のHBaseので得るものがそれなりにあったらこっちに来たいかなと。コマンドラインでないツールがいるよねーという問題意識は当然な感はあり、単にGUIとのインテグレーションの話をされてもあまり得るものはなさそうですが、Analyst Toolsの定義次第では面白そうです。そういう意味では気分次第。
Hadoop and Hive at Orbitzは気になりますが、CDH4なのか時期HBaseなのかわかりませんが、多分HBase/Hiveインテグレーションが発表されると思うので、Hiveはそこから追いかけたい気分。
SIFTing Cloudsってなんだろうという感じですが、Scale-Invariant Feature Transformで調べてみると画像を変換したりとかそんな感じっぽいのでとりあえずは興味なさげ。

・2:20pm – 2:50pm
個人的には聞きたい度がそこそこ高いのが集まってて激戦区。
ZooKeeperの使い方を理解してないのと、Feed Processingというのに引かれて、ZooKeeper in Online Systems, Feed Processing and Cluster Management!、かなと。
Scale In: Collecting Distributed Data via Flume and Querying through Hive、Exchanging Data with the Elephant: Connecting Hadoop and an RDBMS Using SQOOPは重要論点という印象ですが、そういう意味では誰か聞いてくれると期待。

・2:55pm – 3:25pm
Optimizing Hadoop Workloadsっすかね。Intelのカンファレンスをこっちでやってるときにウェブでちらっと最適化の話をみかけたりしたので、面白そうかなと。多分、white paperというのは、これ pdfのことかなと。ぱっと見ではそれほど目新しい検証でもなく、この中身をそのままなぞった上でインテルマザーボード使うといいよ!の可能性もありますが。
Cloudera Roadmap Reviewは、CDHつかうなら聞いておきたいですが、そこそこ後から情報がとれそうであるという印象でもあり、今回はパス。気分次第で。

・4:00pm – 4:30pm
若干専門外ではありますが、Using R and Hadoop to Analyze VoIP Network Data for QoSを聞きます。統計解析はそれほど遠い分野でもないし、今後Hadoopの仕事をするにあたってこういう系の知識はいりそうだし。
ほかのもまあまあ面白そうではあります。

・4:35pm – 5:05pm
どういうシステムを想定するかによりますが、そこそこの値段のクラスタでこれまでやってないビジネスをしてみよう路線の場合はオンラインをどうするかが鍵で、データの同期が不要なHBaseは結構魅力的です。基幹じゃないからテクノロジーじゃないです路線の人にはあれかと思いますが。
ということで、Mixing Real-Time Needs and Batch Processing: How StumbleUpon Built an Advertising Platform Using HBase and Hadoopかなと。

Hadoop: Lessons Learned from Deploying Enterprise ClustersはNTTデータのあれで、重要ではあるもののもしかしたら日本で聞けるかも、ということでいかない判断。もしかしたらすでにしてる話だったかもですが。
MapReduce and Parallel Database Systems: Complementary or Competitive Technology?は議論としては面白そうな気配もありますが、実用性重視ということで外そうかなと。聞く人いなさそうなので、聞いてきてほしければという感じです。

・5:10pm – 5:40pm
Managing Derivatives Data with Hadoop一択ですね。
CMEのトランザクションならそれこそいろんなデータが取れそうで、何をやっているかわからないという意味では微妙なのですが、AnalysingではなくManagingなところが期待が持てます。


金融領域で2セッションあり(っていうかあるからいくことにしたのですが)いろいろ参考にできればなという感じです。
雰囲気的に怪しいからやめたほうがいいよとか、これ聞いてきてほしいとかあれば勘案するかもしれません。