Tech Blog

Information Technology / Machine Learning / Data Analysis / Big Data / System Integration

2013-02-01から1ヶ月間の記事一覧

Twitter4Jでtwitterのキーワード検索データを収集する

目的 Twitterでコーパスを収集する。ここでは、キーワードでtweetを検索し、その結果をファイルに保存する。 手法 Twitter APIのJavaラッパーであるTwitter4Jを用いる。OAuth認証を使ってアクセスする。 http://twitter4j.org/ja/index.html http://www.atma…

Mr.Childrenの歌詞分析(7): どの曲をどんなときに聴くべきか

目的 Mr.Childrenの楽曲は、2013年2月現在で200曲近くあります。恋愛関係の歌、社会問題をテーマにしたもの、己を奮い立たせる歌、失意の曲など、その内容は多種多様です。一方で、楽曲が多いだけに、すべての曲を把握することは難しく、今の気分に合った曲…

Rで複数の文書をキーワードごとに分類する ~smdcパッケージの使い方~

目的 文書をキーワードごとに分類する。概略図を以下に示す。 文書ファイルとキーワードファイルの類似度を算出し、類似度に基づいて分類を行っている。 類似度の算出方法は以下のとおり。 ①N-gramによる類似度算出 ②形態素解析による類似度算出 ③センチメン…

Rパッケージを作ってCRANで公開する

目的 せっかくRで汎用的な関数を作ったので、他の人にも使ってもらいたい。CRAN(The Comprehensive R Archive Network)には、2013/2/16現在4338個ものRパッケージが公開されている。CRANにアップロードすると、 install.package('パッケージ名') で気軽にイ…