Tech Blog

Information Technology / Machine Learning / Data Analysis / Big Data / System Integration

MeCabで複数のテキストファイルの形態素解析を行う

MeCabとは

日本語の文章を分析するとき、まず行うのが「形態素解析」である。形態素解析では、日本語を単語に分割して、それぞれの品詞や読みの解析を行う。これは非常に難しい問題だが、ありがたいことに、 MeCab というオープンソース形態素解析エンジンが公開されている。 MeCab のインストール方法や使い方は、以下の本家サイトに詳しい。
http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html

 

目的と手法

ここでは、 Mecab を用いて、複数のテキストファイルに対して形態素解析を行う。 以下のバッチファイルをWindowsのコマンドプロンプトで実行する。 mecabはPATHに入れておく。歌詞のテキストファイルはLyrics Master等を用いて作成しておく。 

:: AnalyzeMorphemes.bat

:: 歌詞のテキストファイルのディレクトリ
set LYRICS_DIR=C:\LyricsWorkspace\Lyrics

:: 歌詞リストのファイル名
set LYRICS_LIST=C:\LyricsWorkspace\LyricsList.txt

:: 形態素解析の結果を保存するディレクトリ
set MORPHEMES_DIR=C:\LyricsWorkspace\Morphemes

 

:: 歌詞のテキストファイルのディレクトリを調べて、歌詞リストを作成する
dir /b %LYRICS_DIR%\* > %LYRICS_LIST%

:: Mecabを用いて形態素解析を実行する
for /f "delims=" %%A in (%LYRICS_LIST%) do mecab "%LYRICS_DIR%\%%A" -o "%MORPHEMES_DIR%\%%A"

# バッチファイルコマンドについては以下が詳しい
http://ykr414.com/dos/dos05.html#07

 

結果

すると、 形態素 / 品詞 / 活用形 / 活用型 / 原型 / 読み / 発音等がファイルに出力される。

f:id:tkdmah:20121230170828p:plain