Tech Blog

Information Technology / Machine Learning / Data Analysis / Big Data / System Integration

Mr.Childrenの歌詞分析(1): よく出てくるワードランキング30

主結果 Mr.Childrenの歌詞に出てくるワードを出現数でランキングすると、このような結果になりました! 順位ワード出現数 1 君 462 2 僕 374 3 人 166 4 何 158 5 誰 147 6 手 121 6 いい 121 8 中 120 9 今 118 10 夢 115 11 日 114 12 自分 108 13 胸 100 …

RMeCabで複数のテキストファイルの頻出ワードを抽出する

RMeCabとは 形態素解析はMeCabでもできるが、RMeCabを用いると、より手軽にかつ多様な処理を実行することができる。RMeCabは、RでMeCabを呼び出すインタフェースである。Rはオープンソースのデータ解析/マイニング言語であり、以下からインストールできる。h…

MeCabで複数のテキストファイルの形態素解析を行う

MeCabとは 日本語の文章を分析するとき、まず行うのが「形態素解析」である。形態素解析では、日本語を単語に分割して、それぞれの品詞や読みの解析を行う。これは非常に難しい問題だが、ありがたいことに、 MeCab というオープンソース形態素解析エンジンが…

歌詞をテキスト形式でダウンロードする

あるアーティストの歌詞をテキスト形式で一括ダウンロードできないかと探していたら、 Lyrics Master というソフトを発見。これは便利!アーティストの歌詞をすべてダウンロードするには、アーティスト名で検索し、右クリック>すべてダウンロードを選択すれ…

コミュニティ版Hadoopのインストール

hadoop-0.22系のインストール(メモ) http://d.hatena.ne.jp/takadayuichi/20120226/1332569186

JVM, Hadoop, Mahout の関係

JVM, Hadoop, Mahoutの関係って、こんなかんじでしょうか。 HadoopはJavaで実装されているため、Java実行環境が必要で、JVM上で動く。 Mahoutも同様だが、一部Hadoop上で動く。 JVMの下にはOS層のLinuxがいて、VM上で 動かすときはさらにLinuxの下にVMWarePl…

Hadoop×Mahout環境をCDHのVMでカンタンに構築する

ビッグデータ分析処理基盤として有効なHadoop×Mahoutの試用方法について記す。 方針: 基本的にWindows上でHadoopは動かないので、VMでLinuxを立てる。 多クラスタの分散モードは面倒なので、1台のPCで動く疑似分散モードを使う。 LinuxにHadoopを立てるのは…