Tech Blog

Information Technology / Machine Learning / Data Analysis / Big Data / System Integration

R

Rのデータ構造

R

Rのデータ構造が紛らわしいのでまとめておく。 データ構造 次元 制約 ベクトル 1次元 全要素は型が統一されている必要がある。 リスト 1次元 異なる型を保持できる。 順序なし因子 1次元 順序のないカテゴリを要素とする。 順序つき因子 1次元 順序のあるカ…

Rで複数の文書をキーワードごとに分類する ~smdcパッケージの使い方~

目的 文書をキーワードごとに分類する。概略図を以下に示す。 文書ファイルとキーワードファイルの類似度を算出し、類似度に基づいて分類を行っている。 類似度の算出方法は以下のとおり。 ①N-gramによる類似度算出 ②形態素解析による類似度算出 ③センチメン…

Rパッケージを作ってCRANで公開する

目的 せっかくRで汎用的な関数を作ったので、他の人にも使ってもらいたい。CRAN(The Comprehensive R Archive Network)には、2013/2/16現在4338個ものRパッケージが公開されている。CRANにアップロードすると、 install.package('パッケージ名') で気軽にイ…

RMeCabでつまづくの巻

急にRMeCabのdocMatrix()が使えなくなった。 テキストの中身が空で読み込めないと言っているようだが…文字コードをいろいろ変えて実行してみたけど変わらず。 そもそも以前は同じスクリプト・同じデータでちゃんと動いていたはずなので、明らかにおかしい。…

Rでテキストファイルをセンチメントの時系列データに変換する

目的 テキストファイルから読み取れるセンチメント(感情)を測定したい。そのために、テキストに現れる各単語のセンチメントを出現順に計測し、時系列データとみてグラフを描く。また、その平均・標準偏差・歪度・尖度などを算出する。 手法 感情辞書 単語…

Rで複数のテキストファイルを二次元にマッピングして可視化する

目的 複数のテキストファイルの関係性をコンパクトに表現し、可視化したい。 手法 自己組織化マップ(SOM) 自己組織化マップは、視覚野のニューラルネットのモデルを元にした学習アルゴリズムであり、高次元データを低次元に非線形射影して表示できる。 http:…

RとRMeCabでテキストファイルをクラスタリングする

目的 今回は、複数のテキストファイルを類似したテキスト同士で分類する。 手法 Rの階層的クラスタリングは、各行がクラスタリング対象の特徴ベクトルからなる行列に対して、各行をクラスタに分ける。そこで、RMeCabでtf*idf行列を作成し、Rで階層的クラスタ…

RMeCabで複数のテキストファイルの頻出ワードを抽出する

RMeCabとは 形態素解析はMeCabでもできるが、RMeCabを用いると、より手軽にかつ多様な処理を実行することができる。RMeCabは、RでMeCabを呼び出すインタフェースである。Rはオープンソースのデータ解析/マイニング言語であり、以下からインストールできる。h…