Tech Blog

Information Technology / Machine Learning / Data Analysis / Big Data / System Integration

Mr.Childrenの歌詞分析(2): 多くの楽曲に含まれるワードランキング30

主結果

前回書いた「Mr.Childrenの歌詞分析(1): よく出てくるワードランキング30」の記事ですが、同一楽曲に何度も同じワードが出てきたとき、それを逐一カウントしていました。今回は、各ワードが全楽曲中の何曲に含まれるかをカウントしてみました。すると、このような結果に。

順位ワードワードを含む曲数
1 126
2 121
3 87
4 83
5 71
6 70
7 64
7 64
9 63
9 63
11 62
12 61
13 自分 60
14 いい 57
15 僕ら 49
16 48
17 今日 44
18 42
19 40
20 明日 39
20 39
20 39
23 38
23 いつ 38
25 37
26 35
27 いつか 34
27 34
27 優しい 34
30 想い 33

「僕」と「君」が逆転した!ふむふむ。

 

手法

ちなみに、Rスクリプトは以下のように修正しました。

# ファイルごとの単語の出現頻度を合計する
for(i in 1:nrow(a)){
  b[i,1] <- 0
  for(j in 1:ncol(a)){
    if(a[i,j]!=0) b[i,1] <- b[i,1] + 1
  }
}