Tech Blog

Information Technology / Machine Learning / Data Analysis / Big Data / System Integration

Hadoop×Mahout環境をCDHのVMでカンタンに構築する

ビッグデータ分析処理基盤として有効なHadoop×Mahoutの試用方法について記す。

方針:

  • 基本的にWindows上でHadoopは動かないので、VMでLinuxを立てる。
  • クラスタの分散モードは面倒なので、1台のPCで動く疑似分散モードを使う。
  • LinuxにHadoopを立てるのは面倒なので、Hadoopがインストール済みであるCDHパッケージを用いる。

手順:

  1. VMWare Playerのインストール 
  2. CDHパッケージのダウンロード
  3. CDHパッケージのインストール
  4. CentOSの日本語化
  5. コマンドベースでMahoutを実行

1.VMWare Playerのインストール

以下を参照。
http://www.atmarkit.co.jp/fwin2k/verification/vpcwin07/vpcwin07_01.html
http://pc-os.seesaa.net/article/46289113.html

 

2.CDHパッケージのダウンロード

米Cloudera社が、CDH(Hadoopのディストリビューション)を予めインストールしたLinuxのイメージファイルを公開してくれている。
以下のDemo VM ImagesのDownloads and Instructionsからダウンロードできる。
 https://ccp.cloudera.com/display/SUPPORT/Downloads

ダウンロードできたら、例えばC:\Virtual Machines\に解凍しておく。
.tar.gzの解凍は、WindowsならLhacaで、Linuxならtar zxvfコマンドで行える。

(参考) http://d.hatena.ne.jp/takadayuichi/20110923/1316794599

 

3.CDHパッケージのインストール

VMWare Playerを起動させ、「仮想マシンを開く」からC:\Virtual Machines\cloudera-demo-vm-cdh4.1.1-vmware\cloudera-demo-vm.vmxを開く。

仮想マシン設定の編集」から以下の設定を行う。
・「ハードウェア」タブでCD/DVD(IDE)を追加。(共有フォルダ作成に必要)
・「オプション」タブで「ゲストOS」をLinuxCentOSに設定。
・「オプション」タブで「拡張仮想キーボード」を「可能な場合に使用」に設定。
・「オプション」タブで「共有フォルダ」を追加。(WindowsとVMで同一フォルダを参照できる。VM上では/mnt/hgfs/以下に共有フォルダが設置される。)

 

4.CentOSの日本語化

4-1.日本語キーボードの設定

/etc/sysconfig/keyboardを修正する。

  KEYTABLE="jp106"
  MODEL="jp106"
  LAYOUT="jp"

4-2.日本語フォントのインストール

日本語フォントをyumでインストールする。

  sudo yum install fonts-japanese

上記で"No package fonts-japanese available"と出たら、以下を実行する。

  sudo yum groupinstall "Japanese Support"

システムの表示全般を日本語化したい場合は、/etc/sysconfig/i18nを修正し、再起動する。

  LANG="ja_JP.UTF-8"

(参考) http://d.hatena.ne.jp/kwsktr/20100913/1284401194

 

5.コマンドベースでMahoutを実行

このcloudera-demo-vmには、Mahoutも\usr\lib\mahoutに予め入っている。
例えばKMeansによるクラスタリングは、以下のコマンドで実行できる。

  hadoop jar /usr/lib/mahout/mahout-examples-0.7-cdh4.1.1-job.jar
  org.apache.mahout.clustering.kmeans.KMeansDriver

これにinputとoutputを設定すればよい。