Sen で NAIST-jdic

Sen で NAIST-jdic を使う方法。

あらかじめ、NAIST Japanese Dictionary プロジェクト日本語トップページ – SourceForge.JPかnaist-jdic-0.4.3.tar.gz をダウンロードしておき、ホームディレクトリのsrcへ置いておきます。

1. Apache Ant のダウンロードとインストール(Apache Ant)。ここでは、ホームディレクトリの srcにapache-ant-1.8.2-bin.tar.gzをおき、ホームディレクトリのapplications/apache-ant-1.8.2 に展開しました。

cd ~/applications; tar xzf ../src/
tar xzf apache-ant-1.8.2-bin.tar.gz

2. Senダウンロード(Sen – Java.net)と辞書構築。スクリプトを用意してみた。ホームディレクトリに applications, src ディレクトリがあることを前提としています。srcにはsen-1.2.2.1.zip を置いておきます。設定ファイルの置き換えや、ビルドファイルの修正をして、あらかうじめダウンロードしたnaist-jdic-0.4.3.tar.gzを使うようにしているだけです。

#!/bin/sh
cd  ${HOME}/applications
unzip ${HOME}/src/sen-1.2.2.1.zip

SEN_HOME=${HOME}/applications/sen-1.2.2.1
for f in sen.xml sen-processor.xml
do
    cat ${SEN_HOME}/conf/${f} | sed 's/euc-jp/utf-8/' >  ${SEN_HOME}/conf/${f}.new
    mv  ${SEN_HOME}/conf/${f}   ${SEN_HOME}/conf/${f}.bak
    mv  ${SEN_HOME}/conf/${f}.new   ${SEN_HOME}/conf/${f}
done

SEN_HOME=${HOME}/applications/sen-1.2.2.1
f=${SEN_HOME}/dic/dictionary.properties
cat $f | sed 's/EUC-JP/utf-8/' > $f.new
mv $f $f.bak
mv $f.new $f

SEN_HOME=${HOME}/applications/sen-1.2.2.1
cp ${HOME}/src/naist-jdic-0.4.3.tar.gz ${SEN_HOME}/dic/
cd ${SEN_HOME}/dic
f=${SEN_HOME}/dic/build.xml
cat ${f} | sed 's/maxmemory=\"140m\"/maxmemory=\"512m\"/' \
 | sed 's/2.6.0/0.4.3/' \
 | sed 's/ipadic-/naist-jdic-/' \
 > ${f}.new
mv ${f}  ${f}.bak
mv ${f}.new  ${f}

ANT_HOME=${HOME}/applications/apache-ant-1.8.2
cd ${SEN_HOME}
${ANT_HOME}/bin/ant

cd ${SEN_HOME}/dic
${ANT_HOME}/bin/ant

cd ${HOME}/applications
mv sen-1.2.2.1 sen-1.2.2.1_naist-jdic-0.4.3

3. 実行用スクリプト run.sh を用意

SEN_HOME=${HOME}/applications/sen-1.2.2.1_naist-jdic-0.4.3
cat ${SEN_HOME}/bin/sen.sh | \
  sed 's/info/error/' > ${SEN_HOME}/bin/run.sh
chmod 755 ${SEN_HOME}/bin/run.sh

4. 結果 run.sh をすると、done以下が表示されるので、そこへ「すもももももももものうち」を入れて動作確認をします。

SEN_HOME=${HOME}/applications/sen-1.2.2.1_naist-jdic-0.4.3 \
  sh ${SEN_HOME}/bin/run.sh

done.
Please input Japanese sentence:
すもももももももものうち
すもも    (すもも)    名詞-一般(0,3,3)    スモモ    スモモ
も    (も)    助詞-係助詞(3,4,1)    モ    モ
もも    (もも)    名詞-一般(4,6,2)    モモ    モモ
も    (も)    助詞-係助詞(6,7,1)    モ    モ
もも    (もも)    名詞-一般(7,9,2)    モモ    モモ
の    (の)    助詞-連体化(9,10,1)    ノ    ノ
うち    (うち)    名詞-非自立-副詞可能(10,12,2)    ウチ    ウチ

関連書籍

関連リンク

同じタグの記事: Java
同じタグの記事: Sen
同じカテゴリの記事: Java
関連書籍: Java