Hadoop
Hue とは Hadoopは基本的にコマンドラインやJavaから操作する。そのため、初心者にはハードルが少々高い。実は、オープンソースのWeb UIがApacheで開発されている。Web UIを用いることで、操作が単純になり、学習コストも低減される。今回は、そのHueをイン…
目的 Mahoutは、Hadoop上で動くスケーラブルなオープンソース機械学習ライブラリである。今回は、Mahoutをソースコードレビューするために、Eclipseに取り込む。実行環境ではないので悪しからず。OSはWindowsを使用している。 方法 1.以下のサイトにアクセ…
hadoop-0.22系のインストール(メモ) http://d.hatena.ne.jp/takadayuichi/20120226/1332569186
JVM, Hadoop, Mahoutの関係って、こんなかんじでしょうか。 HadoopはJavaで実装されているため、Java実行環境が必要で、JVM上で動く。 Mahoutも同様だが、一部Hadoop上で動く。 JVMの下にはOS層のLinuxがいて、VM上で 動かすときはさらにLinuxの下にVMWarePl…
ビッグデータ分析処理基盤として有効なHadoop×Mahoutの試用方法について記す。 方針: 基本的にWindows上でHadoopは動かないので、VMでLinuxを立てる。 多クラスタの分散モードは面倒なので、1台のPCで動く疑似分散モードを使う。 LinuxにHadoopを立てるのは…