Tech Blog

Information Technology / Machine Learning / Data Analysis / Big Data / System Integration

Mr.Childrenの歌詞分析(5): フレーズに着目した、シングル曲のクラスタリング

主結果

Mr.Childrenのシングル曲を、歌詞のフレーズに着目してクラスタリングしました。頻出フレーズを書き加えています。

 

 f:id:tkdmah:20130106232556p:plain

考察

N-gramでの解析では、フレーズがそのまま残るので、結果を見て解釈しやすいですね。全体として、Mr.Childrenの大きなテーマは「生きる」や「自分」であるようです。

  • 「君がいた夏」「Sign」「【es】~Theme of es~」「マシンガンをぶっ放せ」「旅立ちの唄」「抱きしめたい」「Replay」「口笛」はラブソングで、「hypnosis」「優しい歌」はその中でも儚さや躊躇いを表現。
  • 「箒星」「HERO」「終わりなき旅」「Everything(It's you)」「くるみ」「NOT FOUND」「君が好き」「Any」「innocent world」「fanfare」「GIFT」は、自分を探している歌。
  • 「しるし」「CROSS ROAD」「I'LL BE」「ニシエヒガシエ」「光の射す方へ」「祈り~涙の軌跡」「花」「かぞえうた」「掌」「Tomorrow never knows」「フェイク」「シーソーゲーム~勇敢な恋の歌~」「名もなき詩」「youthful days」「花の匂い」はぼくらが生きているということ、「everybody goes~秩序のない現代にドロップキック」「HANABI」は生きること、愛することがテーマ。

手法

フレーズに着目するために、N-gramで特徴行列を作成し、クラスタリングを行います。tf*idf行列では形態素解析で単語を抽出するため、単語の前後関係やフレーズといったものは無視されますが、N-gramでは単語で分割されないため、フレーズを抽出することができます。

f:id:tkdmah:20130106233920p:plain

詳しくは以下の記事をご覧ください。