MeCabで複数のテキストファイルの形態素解析を行う
MeCabとは
日本語の文章を分析するとき、まず行うのが「形態素解析」である。形態素解析では、日本語を単語に分割して、それぞれの品詞や読みの解析を行う。これは非常に難しい問題だが、ありがたいことに、 MeCab というオープンソース形態素解析エンジンが公開されている。 MeCab のインストール方法や使い方は、以下の本家サイトに詳しい。
http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
目的と手法
ここでは、 Mecab を用いて、複数のテキストファイルに対して形態素解析を行う。 以下のバッチファイルをWindowsのコマンドプロンプトで実行する。 mecabはPATHに入れておく。歌詞のテキストファイルはLyrics Master等を用いて作成しておく。
:: AnalyzeMorphemes.bat
:: 歌詞のテキストファイルのディレクトリ
set LYRICS_DIR=C:\LyricsWorkspace\Lyrics
:: 歌詞リストのファイル名
set LYRICS_LIST=C:\LyricsWorkspace\LyricsList.txt
:: 形態素解析の結果を保存するディレクトリ
set MORPHEMES_DIR=C:\LyricsWorkspace\Morphemes
:: 歌詞のテキストファイルのディレクトリを調べて、歌詞リストを作成する
dir /b %LYRICS_DIR%\* > %LYRICS_LIST%
:: Mecabを用いて形態素解析を実行する
for /f "delims=" %%A in (%LYRICS_LIST%) do mecab "%LYRICS_DIR%\%%A" -o "%MORPHEMES_DIR%\%%A"
# バッチファイルコマンドについては以下が詳しい
http://ykr414.com/dos/dos05.html#07
結果
すると、 形態素 / 品詞 / 活用形 / 活用型 / 原型 / 読み / 発音等がファイルに出力される。