2009-01-01から1年間の記事一覧

Hadoop: 自作クラスのシリアライズ方法

以前 Hadoop におけるオブジェクトのシリアライズの仕方について述べました。その際、ArrayWritable オブジェクトをシリアライズして HBase に登録する簡単なサンプルプログラムを紹介しました。Hadoop 本には, ArrayWritable, IntWritable や Text のように…

Hadoop プログラムの単純なデバッグ方法について

最近 Hadoop ライブラリを用いて書かれたプログラムをデバッグする方法について調べてました。標準エラー出力を使用する方法と Context オブジェクトを利用する方法が簡単なようです。標準エラー出力に Hadoop プログラムから出力すると、プロンプトには出力…

Mockito と Junit を使用した Hadoop Unit Test

まだまだ、Hadoop の勉強中です。今は Hadoop プログラムのテストおよびデバッグ方法について調べてました。Hadoop 本 (http://oreilly.com/catalog/9780596521981)には Junit と Mockito を利用したテストの書き方が紹介されています。勉強がてら簡単なプロ…

Hadoop 簡単いんすとーる

最近個人用の計算機をいただきました。このコンピュータにまた Hadoop をインストールするのは面倒だと思いましたが、 Hadoop 本に簡単インストールの方法が書かれているのを思い出しました。このやり方だと、ユーザを新しく作ったり、XML の設定ファイルを…

HBase と Serialization

Hadoop で計算したデータは HDFS にファイルとして保存するのが手軽ですが、出力されたファイルに含まれるデータ片にアクセスするにはファイルを全ロードする必要があって面倒です (MapFile にはランダムアクセスできますが)。このような場合データベースに…

はどーぷ (grep)

最近 Hadoop を使ったプログラムを始めました。プログラミングのノウハウはつかめてきたのですが、どうにも不安な点がひとつあります。それは、Hadoop で作ったプログラムって本当に速いのかという点です。特に興味があるのは小規模クラスタ上で動かしたとき…

久方ぶりに...

転職してそろそろ落ち着いてきましたので,ブログを復活させます.自分で WordPress や,Joomla!, Tokyo Promenade 等のCMS も考えましたが,しばらくは hatena お世話になります.前に書いていたものよりは技術的な話題を中心にしたいと考えています.あま…