Javaの形態素解析Senを使いたい時には

Javaの形態素解析Senを使いたい時には、svn.java.netからチェックアウトして自分でビルドすれば良いようです。Mecabとか久しぶりにみたのでMecabのJava移植版であるSenについて調べてみたら、zipが入手できなくなっていました。Sen – Project Kenaiはまだ見れますね。LGPL-2.1のライセンスです。

iconvしているのは警告が出ないようにしているだけなので実行しなくてもかまいません。ipadicは配布用URLが変わっていました。

$ svn co https://svn.java.net/svn/sen~svn/tags/SEN_1_2_2_1/sen
$ cd sen
$ iconv -f Windows-31J -t EUC-JP src/java/net/java/sen/SenUtils.java > SenUtils.java
$ ant
$ cd dic
$ sed -i 's%http://chasen.aist-nara.ac.jp/stable/ipadic%http://chasen.naist.jp/stable/ipadic%' build.xml
$ ant

ということで手元に残しておきました。これでいつでも使える(はず)。

Senがなくても、「Java製形態素解析ライブラリ「lucene-gosen」を試してみる」とか、「Java製形態素解析器「Kuromoji」を試してみる」とか、「Java製形態素解析エンジン「Igo」を試してみる」とか見ると、色々ありますから、そちらを使うといいかもしれません。

chasen legacy — an old morphological analyzerとか、JUMAN – KUROHASHI-KAWAHARA LABKyTea (京都テキスト解析ツールキット)KAKASI – 漢字→かな(ローマ字)変換プログラムとか形態素解析は歴史がありますね。KAKASIがSKKの逆文字からきているとは知りませんでした。

こういう歴史の中で「MeCab: Yet Another Part-of-Speech and Morphological Analyzer」も「lucene-gosen – Japanese analysis for Apache Lucene/Solr 3.6 and 4.4 – Google Project Hosting」も更新が続いているのは、凄いですね。

同じカテゴリの記事: Java