Linux
sedとは sedとは、Linux上のファイルに対して文字列の置換・挿入・削除を行うコマンド。 awkと比べて自由度は少ないが、置換・挿入・削除に関しては高速に処理できる。 sedを操作するために知っておくべき7のこと sedを操作するために知っておくべき7のこと…
awkとは awkは、Linux上のファイルに対して、"行ごとに"何らかの処理を行うためのプログラミング言語。 "行ごとに"処理を行うため、行指向プログラミングと呼ばれる。 csvファイルを扱うときによく使われる。 awkを操作するために知っておくべき10のこと awk…
What is Kdd2013AuthorPaperIdentification? KDD Cup is the well-known data mining competition of the annual ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. KDD Cup 2013 -> https://www.kaggle.com/c/kdd-cup-2013-aut…
JVM, Hadoop, Mahoutの関係って、こんなかんじでしょうか。 HadoopはJavaで実装されているため、Java実行環境が必要で、JVM上で動く。 Mahoutも同様だが、一部Hadoop上で動く。 JVMの下にはOS層のLinuxがいて、VM上で 動かすときはさらにLinuxの下にVMWarePl…
ビッグデータ分析処理基盤として有効なHadoop×Mahoutの試用方法について記す。 方針: 基本的にWindows上でHadoopは動かないので、VMでLinuxを立てる。 多クラスタの分散モードは面倒なので、1台のPCで動く疑似分散モードを使う。 LinuxにHadoopを立てるのは…