Tech Blog

Information Technology / Machine Learning / Data Analysis / Big Data / System Integration

2013-01-01から1ヶ月間の記事一覧

RMeCabでつまづくの巻

急にRMeCabのdocMatrix()が使えなくなった。 テキストの中身が空で読み込めないと言っているようだが…文字コードをいろいろ変えて実行してみたけど変わらず。 そもそも以前は同じスクリプト・同じデータでちゃんと動いていたはずなので、明らかにおかしい。…

Pythonで日本語WordNetと英語WordNetを利用して、単語間の類似度を測る

目的 「Mr.Childrenの歌詞分析(4): 単語の意味を考慮した、シングル曲のクラスタリング」では、文書の距離を計測するのに、同一語や同一概念の出現頻度を用いていた。この場合、"似ている"単語は考慮されておらず、クラスタリングの精度もいまひとつであった…

Mr.Childrenの歌詞分析(6): 感情に基づくマッピング

主結果 Mr.Childrenの歌詞の感情(センチメント)に基づいて、横軸に感情の平均値、縦軸に感情のばらつきをとって、楽曲をプロットしました。 考察 全曲だと曲数が多すぎるので、分かりやすいようにシングル曲のグラフを見てみます。センチメントが低いクラ…

Rでテキストファイルをセンチメントの時系列データに変換する

目的 テキストファイルから読み取れるセンチメント(感情)を測定したい。そのために、テキストに現れる各単語のセンチメントを出現順に計測し、時系列データとみてグラフを描く。また、その平均・標準偏差・歪度・尖度などを算出する。 手法 感情辞書 単語…

Rで複数のテキストファイルを二次元にマッピングして可視化する

目的 複数のテキストファイルの関係性をコンパクトに表現し、可視化したい。 手法 自己組織化マップ(SOM) 自己組織化マップは、視覚野のニューラルネットのモデルを元にした学習アルゴリズムであり、高次元データを低次元に非線形射影して表示できる。 http:…

Mr.Childrenの歌詞分析(5): フレーズに着目した、シングル曲のクラスタリング

主結果 Mr.Childrenのシングル曲を、歌詞のフレーズに着目してクラスタリングしました。頻出フレーズを書き加えています。 考察 N-gramでの解析では、フレーズがそのまま残るので、結果を見て解釈しやすいですね。全体として、Mr.Childrenの大きなテーマは「…

Mr.Childrenの歌詞分析(4): 単語の意味を考慮した、シングル曲のクラスタリング

主結果 Mr.Childrenのシングル曲を、歌詞を元にクラスタリングしてみました。 1.単語ベースのクラスタリング 2.概念ベースのクラスタリング 考察 評価 共通する単語や概念を赤字で書いてみました。単語ベースでは、「時代」「社会」や「幸せ」についてき…

Mr.Childrenの歌詞分析: ここまでのまとめ

主結果 Mr.Childrenの歌詞分析(1): よく出てくるワードランキング30 Mr.Childrenの歌詞分析(2): 多くの楽曲に含まれるワードランキング30 Mr.Childrenの歌詞分析(3): シングル曲のクラスタリング Mr.Childrenの歌詞分析(4): 単語の意味を考慮した、シングル…

PythonでWordNetを利用して、テキストの特徴行列を単語ベース→概念ベースに変換する

目的 「RとRMeCabでテキストファイルをクラスタリングする」 では、各テキストから単語を抽出し、各単語の出現頻度を元に、各テキストの特徴ベクトルを生成した。このとき、例えば"愛"と"あい"という単語は同一のものとして扱われたが、"愛"と"恋"という単語…

Mr.Childrenの歌詞分析(3): シングル曲のクラスタリング

主結果 Mr.Childrenのシングル曲の歌詞をクラスタリングしてみると、このようになりました。(アルバム曲を含めてクラスタリングすると図が煩雑になってしまうため、今回はシングル曲のみで実行しました。) 妥当性の検証 この結果って、どうなんでしょう。…

RとRMeCabでテキストファイルをクラスタリングする

目的 今回は、複数のテキストファイルを類似したテキスト同士で分類する。 手法 Rの階層的クラスタリングは、各行がクラスタリング対象の特徴ベクトルからなる行列に対して、各行をクラスタに分ける。そこで、RMeCabでtf*idf行列を作成し、Rで階層的クラスタ…