Tech Blog

Information Technology / Machine Learning / Data Analysis / Big Data / System Integration

Python

word2vecで単語をマッピングする

何を作ったか? こんなものを作りました。 http://tkdmah.com/word2cordinates どんなものか? word2vecを用いて単語を2次元にマッピングします。 word2vecは、単語を200次元ベクトルに変換するモデルです。 ベクトルは単位ベクトルなので、200次元球面に配…

Pythonで日本語WordNetと英語WordNetを利用して、単語間の類似度を測る

目的 「Mr.Childrenの歌詞分析(4): 単語の意味を考慮した、シングル曲のクラスタリング」では、文書の距離を計測するのに、同一語や同一概念の出現頻度を用いていた。この場合、"似ている"単語は考慮されておらず、クラスタリングの精度もいまひとつであった…

PythonでWordNetを利用して、テキストの特徴行列を単語ベース→概念ベースに変換する

目的 「RとRMeCabでテキストファイルをクラスタリングする」 では、各テキストから単語を抽出し、各単語の出現頻度を元に、各テキストの特徴ベクトルを生成した。このとき、例えば"愛"と"あい"という単語は同一のものとして扱われたが、"愛"と"恋"という単語…