Sen で NAIST-jdic を使う方法。
あらかじめ、NAIST Japanese Dictionary プロジェクト日本語トップページ – SourceForge.JPかnaist-jdic-0.4.3.tar.gz をダウンロードしておき、ホームディレクトリのsrcへ置いておきます。
1. Apache Ant のダウンロードとインストール(Apache Ant)。ここでは、ホームディレクトリの srcにapache-ant-1.8.2-bin.tar.gzをおき、ホームディレクトリのapplications/apache-ant-1.8.2 に展開しました。
tar xzf apache-ant-1.8.2-bin.tar.gz
2. Senダウンロード(Sen – Java.net)と辞書構築。スクリプトを用意してみた。ホームディレクトリに applications, src ディレクトリがあることを前提としています。srcにはsen-1.2.2.1.zip を置いておきます。設定ファイルの置き換えや、ビルドファイルの修正をして、あらかうじめダウンロードしたnaist-jdic-0.4.3.tar.gzを使うようにしているだけです。
cd ${HOME}/applications
unzip ${HOME}/src/sen-1.2.2.1.zip
SEN_HOME=${HOME}/applications/sen-1.2.2.1
for f in sen.xml sen-processor.xml
do
cat ${SEN_HOME}/conf/${f} | sed 's/euc-jp/utf-8/' > ${SEN_HOME}/conf/${f}.new
mv ${SEN_HOME}/conf/${f} ${SEN_HOME}/conf/${f}.bak
mv ${SEN_HOME}/conf/${f}.new ${SEN_HOME}/conf/${f}
done
SEN_HOME=${HOME}/applications/sen-1.2.2.1
f=${SEN_HOME}/dic/dictionary.properties
cat $f | sed 's/EUC-JP/utf-8/' > $f.new
mv $f $f.bak
mv $f.new $f
SEN_HOME=${HOME}/applications/sen-1.2.2.1
cp ${HOME}/src/naist-jdic-0.4.3.tar.gz ${SEN_HOME}/dic/
cd ${SEN_HOME}/dic
f=${SEN_HOME}/dic/build.xml
cat ${f} | sed 's/maxmemory=\"140m\"/maxmemory=\"512m\"/' \
| sed 's/2.6.0/0.4.3/' \
| sed 's/ipadic-/naist-jdic-/' \
> ${f}.new
mv ${f} ${f}.bak
mv ${f}.new ${f}
ANT_HOME=${HOME}/applications/apache-ant-1.8.2
cd ${SEN_HOME}
${ANT_HOME}/bin/ant
cd ${SEN_HOME}/dic
${ANT_HOME}/bin/ant
cd ${HOME}/applications
mv sen-1.2.2.1 sen-1.2.2.1_naist-jdic-0.4.3
3. 実行用スクリプト run.sh を用意
cat ${SEN_HOME}/bin/sen.sh | \
sed 's/info/error/' > ${SEN_HOME}/bin/run.sh
chmod 755 ${SEN_HOME}/bin/run.sh
4. 結果 run.sh をすると、done以下が表示されるので、そこへ「すもももももももものうち」を入れて動作確認をします。
sh ${SEN_HOME}/bin/run.sh
done.
Please input Japanese sentence:
すもももももももものうち
すもも (すもも) 名詞-一般(0,3,3) スモモ スモモ
も (も) 助詞-係助詞(3,4,1) モ モ
もも (もも) 名詞-一般(4,6,2) モモ モモ
も (も) 助詞-係助詞(6,7,1) モ モ
もも (もも) 名詞-一般(7,9,2) モモ モモ
の (の) 助詞-連体化(9,10,1) ノ ノ
うち (うち) 名詞-非自立-副詞可能(10,12,2) ウチ ウチ
関連書籍
関連リンク