Tech Blog

Information Technology / Machine Learning / Data Analysis / Big Data / System Integration

2012-12-31から1日間の記事一覧

Mr.Childrenの歌詞分析(2): 多くの楽曲に含まれるワードランキング30

主結果 前回書いた「Mr.Childrenの歌詞分析(1): よく出てくるワードランキング30」の記事ですが、同一楽曲に何度も同じワードが出てきたとき、それを逐一カウントしていました。今回は、各ワードが全楽曲中の何曲に含まれるかをカウントしてみました。すると…

Mr.Childrenの歌詞分析(1): よく出てくるワードランキング30

主結果 Mr.Childrenの歌詞に出てくるワードを出現数でランキングすると、このような結果になりました! 順位ワード出現数 1 君 462 2 僕 374 3 人 166 4 何 158 5 誰 147 6 手 121 6 いい 121 8 中 120 9 今 118 10 夢 115 11 日 114 12 自分 108 13 胸 100 …

RMeCabで複数のテキストファイルの頻出ワードを抽出する

RMeCabとは 形態素解析はMeCabでもできるが、RMeCabを用いると、より手軽にかつ多様な処理を実行することができる。RMeCabは、RでMeCabを呼び出すインタフェースである。Rはオープンソースのデータ解析/マイニング言語であり、以下からインストールできる。h…