Tech Blog

Information Technology / Machine Learning / Data Analysis / Big Data / System Integration

Linux

sed 備忘録

sedとは sedとは、Linux上のファイルに対して文字列の置換・挿入・削除を行うコマンド。 awkと比べて自由度は少ないが、置換・挿入・削除に関しては高速に処理できる。 sedを操作するために知っておくべき7のこと sedを操作するために知っておくべき7のこと…

awk 備忘録

awkとは awkは、Linux上のファイルに対して、"行ごとに"何らかの処理を行うためのプログラミング言語。 "行ごとに"処理を行うため、行指向プログラミングと呼ばれる。 csvファイルを扱うときによく使われる。 awkを操作するために知っておくべき10のこと awk…

How to Run Kdd2013AuthorPaperIdentification Benchmark

What is Kdd2013AuthorPaperIdentification? KDD Cup is the well-known data mining competition of the annual ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. KDD Cup 2013 -> https://www.kaggle.com/c/kdd-cup-2013-aut…

JVM, Hadoop, Mahout の関係

JVM, Hadoop, Mahoutの関係って、こんなかんじでしょうか。 HadoopはJavaで実装されているため、Java実行環境が必要で、JVM上で動く。 Mahoutも同様だが、一部Hadoop上で動く。 JVMの下にはOS層のLinuxがいて、VM上で 動かすときはさらにLinuxの下にVMWarePl…

Hadoop×Mahout環境をCDHのVMでカンタンに構築する

ビッグデータ分析処理基盤として有効なHadoop×Mahoutの試用方法について記す。 方針: 基本的にWindows上でHadoopは動かないので、VMでLinuxを立てる。 多クラスタの分散モードは面倒なので、1台のPCで動く疑似分散モードを使う。 LinuxにHadoopを立てるのは…