読者です 読者をやめる 読者になる 読者になる

Tech Blog

Information Technology / Machine Learning / Data Analysis / Big Data / System Integration

word2vecで単語をマッピングする

何を作ったか? こんなものを作りました。 http://tkdmah.com/word2cordinates どんなものか? word2vecを用いて単語を2次元にマッピングします。 word2vecは、単語を200次元ベクトルに変換するモデルです。 ベクトルは単位ベクトルなので、200次元球面に配…

RMeCabで複数のテキストファイルの頻出ワードを抽出する

RMeCabとは 形態素解析はMeCabでもできるが、RMeCabを用いると、より手軽にかつ多様な処理を実行することができる。RMeCabは、RでMeCabを呼び出すインタフェースである。Rはオープンソースのデータ解析/マイニング言語であり、以下からインストールできる。h…

MeCabで複数のテキストファイルの形態素解析を行う

MeCabとは 日本語の文章を分析するとき、まず行うのが「形態素解析」である。形態素解析では、日本語を単語に分割して、それぞれの品詞や読みの解析を行う。これは非常に難しい問題だが、ありがたいことに、 MeCab というオープンソース形態素解析エンジンが…