Tech Blog

Information Technology / Machine Learning / Data Analysis / Big Data / System Integration

クラスタリング

Mr.Childrenの歌詞分析(5): フレーズに着目した、シングル曲のクラスタリング

主結果 Mr.Childrenのシングル曲を、歌詞のフレーズに着目してクラスタリングしました。頻出フレーズを書き加えています。 考察 N-gramでの解析では、フレーズがそのまま残るので、結果を見て解釈しやすいですね。全体として、Mr.Childrenの大きなテーマは「…

Mr.Childrenの歌詞分析(4): 単語の意味を考慮した、シングル曲のクラスタリング

主結果 Mr.Childrenのシングル曲を、歌詞を元にクラスタリングしてみました。 1.単語ベースのクラスタリング 2.概念ベースのクラスタリング 考察 評価 共通する単語や概念を赤字で書いてみました。単語ベースでは、「時代」「社会」や「幸せ」についてき…

Mr.Childrenの歌詞分析(3): シングル曲のクラスタリング

主結果 Mr.Childrenのシングル曲の歌詞をクラスタリングしてみると、このようになりました。(アルバム曲を含めてクラスタリングすると図が煩雑になってしまうため、今回はシングル曲のみで実行しました。) 妥当性の検証 この結果って、どうなんでしょう。…

RとRMeCabでテキストファイルをクラスタリングする

目的 今回は、複数のテキストファイルを類似したテキスト同士で分類する。 手法 Rの階層的クラスタリングは、各行がクラスタリング対象の特徴ベクトルからなる行列に対して、各行をクラスタに分ける。そこで、RMeCabでtf*idf行列を作成し、Rで階層的クラスタ…