Hadoop×Mahout環境をCDHのVMでカンタンに構築する

ビッグデータ分析処理基盤として有効なHadoop×Mahoutの試用方法について記す。

方針：

基本的にWindows上でHadoopは動かないので、VMでLinuxを立てる。
多クラスタの分散モードは面倒なので、1台のPCで動く疑似分散モードを使う。
LinuxにHadoopを立てるのは面倒なので、Hadoopがインストール済みであるCDHパッケージを用いる。

手順：

VMWare Playerのインストール
CDHパッケージのダウンロード
CDHパッケージのインストール
CentOSの日本語化
コマンドベースでMahoutを実行

１．VMWare Playerのインストール

以下を参照。
http://www.atmarkit.co.jp/fwin2k/verification/vpcwin07/vpcwin07_01.html
http://pc-os.seesaa.net/article/46289113.html

２．CDHパッケージのダウンロード

米Cloudera社が、CDH(Hadoopのディストリビューション)を予めインストールしたLinuxのイメージファイルを公開してくれている。
以下のDemo VM ImagesのDownloads and Instructionsからダウンロードできる。
https://ccp.cloudera.com/display/SUPPORT/Downloads

ダウンロードできたら、例えばC:\Virtual Machines\に解凍しておく。
.tar.gzの解凍は、WindowsならLhacaで、Linuxならtar zxvfコマンドで行える。

(参考) http://d.hatena.ne.jp/takadayuichi/20110923/1316794599

３．CDHパッケージのインストール

VMWare Playerを起動させ、「仮想マシンを開く」からC:\Virtual Machines\cloudera-demo-vm-cdh4.1.1-vmware\cloudera-demo-vm.vmxを開く。

「仮想マシン設定の編集」から以下の設定を行う。
・「ハードウェア」タブでCD/DVD(IDE)を追加。(共有フォルダ作成に必要)
・「オプション」タブで「ゲストOS」をLinuxのCentOSに設定。
・「オプション」タブで「拡張仮想キーボード」を「可能な場合に使用」に設定。
・「オプション」タブで「共有フォルダ」を追加。(WindowsとVMで同一フォルダを参照できる。VM上では/mnt/hgfs/以下に共有フォルダが設置される。)

４．CentOSの日本語化

４－１．日本語キーボードの設定

/etc/sysconfig/keyboardを修正する。

　　KEYTABLE="jp106"
　　MODEL="jp106"
　　LAYOUT="jp"

４－２．日本語フォントのインストール

日本語フォントをyumでインストールする。

　　sudo yum install fonts-japanese

上記で"No package fonts-japanese available"と出たら、以下を実行する。

　　sudo yum groupinstall "Japanese Support"

システムの表示全般を日本語化したい場合は、/etc/sysconfig/i18nを修正し、再起動する。

　　LANG="ja_JP.UTF-8"

(参考) http://d.hatena.ne.jp/kwsktr/20100913/1284401194

５．コマンドベースでMahoutを実行

このcloudera-demo-vmには、Mahoutも\usr\lib\mahoutに予め入っている。
例えばKMeansによるクラスタリングは、以下のコマンドで実行できる。

　　hadoop jar /usr/lib/mahout/mahout-examples-0.7-cdh4.1.1-job.jar
　　org.apache.mahout.clustering.kmeans.KMeansDriver

これにinputとoutputを設定すればよい。

Tech Blog

Information Technology / Machine Learning / Data Analysis / Big Data / System Integration