なんじゃくにっき

プログラミングの話題中心。

Scalaでデータマイニングするためのライブラリ

メモ。
Scalaデータマイニングするためのライブラリ。
Javaのも含みます。


【ScalaLab】
http://code.google.com/p/scalalab/
MATLABを意識して作られた科学計算環境(?)
実行可能jarで配布されている。
けどプロジェクトがsbtプロジェクトじゃない。
スタンドアロン形式じゃなくてライブラリとして簡単に扱う方法を知ってる人がいたら教えてください・・


【LingPipe】
http://alias-i.com/lingpipe/
自然言語処理のためのライブラリ


Stanford CoreNLP】
http://nlp.stanford.edu/software/corenlp.shtml
自然言語処理のためのライブラリ


【GATE】
http://gate.ac.uk/wiki/jape-repository/
自然言語処理のためのライブラリ


Apache OpenNLP】
http://opennlp.apache.org/
自然言語処理のためのライブラリ


やる気と時間があったら上記4つの機能比較みたいなの書くかも・・



【ScalaNLP】
http://www.scalanlp.org/
BreezeとEpicの2つのサブプロジェクト(?)からなる。
が、EpicのほうはComing Soonといいつつ半年は経っているので実質正式公開未定なような。
一応リポジトリはある。 https://github.com/dlwh/epic/
Breezeのほうは昔Scalalaと言う名前だったものの後継。
線形代数のライブラリから機械学習のためのライブラリに進化(?)
NLPと名前が付くものの、pythonのNLTKみたいになんでもできるという感じではない。
機械学習中心で、それ以外のはちょっと(Tokenizerとかが少し)。


【WEKA】
http://www.cs.waikato.ac.nz/ml/weka/
機械学習のためのライブラリ。
Java製。


【GoSen】
http://code.google.com/p/lucene-gosen/
Java製 日本語形態素解析ライブラリ。
MeCabJava実装のSenの後継。


【Igo】
http://igo.sourceforge.jp/
Java製 日本語形態素解析ライブラリ。
辞書はMeCabのものを使える。
APIは多少似てるが互換性はない。


なお、Java実装以外の形態素解析ライブラリもJNI使えば勿論呼び出せるがここでは割愛。


【Cabocha4j】
http://d.hatena.ne.jp/noire722/20100618/1276873683
日本語係り受け解析器cabochaのJavaラッパー。