Hadoop×Mahout環境をCDHのVMでカンタンに構築する
ビッグデータ分析処理基盤として有効なHadoop×Mahoutの試用方法について記す。
方針:
- 基本的にWindows上でHadoopは動かないので、VMでLinuxを立てる。
- 多クラスタの分散モードは面倒なので、1台のPCで動く疑似分散モードを使う。
- LinuxにHadoopを立てるのは面倒なので、Hadoopがインストール済みであるCDHパッケージを用いる。
手順:
1.VMWare Playerのインストール
以下を参照。
http://www.atmarkit.co.jp/fwin2k/verification/vpcwin07/vpcwin07_01.html
http://pc-os.seesaa.net/article/46289113.html
2.CDHパッケージのダウンロード
米Cloudera社が、CDH(Hadoopのディストリビューション)を予めインストールしたLinuxのイメージファイルを公開してくれている。
以下のDemo VM ImagesのDownloads and Instructionsからダウンロードできる。
https://ccp.cloudera.com/display/SUPPORT/Downloads
ダウンロードできたら、例えばC:\Virtual Machines\に解凍しておく。
.tar.gzの解凍は、WindowsならLhacaで、Linuxならtar zxvfコマンドで行える。
(参考) http://d.hatena.ne.jp/takadayuichi/20110923/1316794599
3.CDHパッケージのインストール
VMWare Playerを起動させ、「仮想マシンを開く」からC:\Virtual Machines\cloudera-demo-vm-cdh4.1.1-vmware\cloudera-demo-vm.vmxを開く。
「仮想マシン設定の編集」から以下の設定を行う。
・「ハードウェア」タブでCD/DVD(IDE)を追加。(共有フォルダ作成に必要)
・「オプション」タブで「ゲストOS」をLinuxのCentOSに設定。
・「オプション」タブで「拡張仮想キーボード」を「可能な場合に使用」に設定。
・「オプション」タブで「共有フォルダ」を追加。(WindowsとVMで同一フォルダを参照できる。VM上では/mnt/hgfs/以下に共有フォルダが設置される。)
4.CentOSの日本語化
4-1.日本語キーボードの設定
/etc/sysconfig/keyboardを修正する。
MODEL="jp106"
LAYOUT="jp"
4-2.日本語フォントのインストール
日本語フォントをyumでインストールする。
上記で"No package fonts-japanese available"と出たら、以下を実行する。
システムの表示全般を日本語化したい場合は、/etc/sysconfig/i18nを修正し、再起動する。
(参考) http://d.hatena.ne.jp/kwsktr/20100913/1284401194
5.コマンドベースでMahoutを実行
このcloudera-demo-vmには、Mahoutも\usr\lib\mahoutに予め入っている。
例えばKMeansによるクラスタリングは、以下のコマンドで実行できる。
org.apache.mahout.clustering.kmeans.KMeansDriver
これにinputとoutputを設定すればよい。