2013-02-01から1ヶ月間の記事一覧
目的 Twitterでコーパスを収集する。ここでは、キーワードでtweetを検索し、その結果をファイルに保存する。 手法 Twitter APIのJavaラッパーであるTwitter4Jを用いる。OAuth認証を使ってアクセスする。 http://twitter4j.org/ja/index.html http://www.atma…
目的 Mr.Childrenの楽曲は、2013年2月現在で200曲近くあります。恋愛関係の歌、社会問題をテーマにしたもの、己を奮い立たせる歌、失意の曲など、その内容は多種多様です。一方で、楽曲が多いだけに、すべての曲を把握することは難しく、今の気分に合った曲…
目的 文書をキーワードごとに分類する。概略図を以下に示す。 文書ファイルとキーワードファイルの類似度を算出し、類似度に基づいて分類を行っている。 類似度の算出方法は以下のとおり。 ①N-gramによる類似度算出 ②形態素解析による類似度算出 ③センチメン…
目的 せっかくRで汎用的な関数を作ったので、他の人にも使ってもらいたい。CRAN(The Comprehensive R Archive Network)には、2013/2/16現在4338個ものRパッケージが公開されている。CRANにアップロードすると、 install.package('パッケージ名') で気軽にイ…