Tech Blog

Information Technology / Machine Learning / Data Analysis / Big Data / System Integration

形態素解析

Rで複数の文書をキーワードごとに分類する ~smdcパッケージの使い方~

目的 文書をキーワードごとに分類する。概略図を以下に示す。 文書ファイルとキーワードファイルの類似度を算出し、類似度に基づいて分類を行っている。 類似度の算出方法は以下のとおり。 ①N-gramによる類似度算出 ②形態素解析による類似度算出 ③センチメン…

RMeCabで複数のテキストファイルの頻出ワードを抽出する

RMeCabとは 形態素解析はMeCabでもできるが、RMeCabを用いると、より手軽にかつ多様な処理を実行することができる。RMeCabは、RでMeCabを呼び出すインタフェースである。Rはオープンソースのデータ解析/マイニング言語であり、以下からインストールできる。h…

MeCabで複数のテキストファイルの形態素解析を行う

MeCabとは 日本語の文章を分析するとき、まず行うのが「形態素解析」である。形態素解析では、日本語を単語に分割して、それぞれの品詞や読みの解析を行う。これは非常に難しい問題だが、ありがたいことに、 MeCab というオープンソース形態素解析エンジンが…