Link

Chasenのインストール

Unix系OSへのChasenのインストールを説明します。

文字コードについて

GETAssocでは、形態素解析器に渡すデータの文字コードをUTF-8に限定しています。そのため、形態素解析器で使用する辞書データもUTF-8で構築されている必要があります。

Chasenのインストール

GETAssocのstmdは、Chasenのインストール場所を得るために’‘chasen-config’‘というスクリプトを参照します。そのためFedoraやDebianなどのようにChasenがパッケージとして用意されている場合でも、パッケージ内に’‘chasen-config’‘を含んでいなければ、独自にインストールした方がよいです。

Chasen、Dartsの入手

https://ja.osdn.net/projects/chasen-legacy/で入手できます。 なお、ChasenのインストールにはDartsが必要です。 http://chasen.org/~taku/software/darts/

Dartsのコンパイル、インストール

# tar xzf darts-0.32.tar.gz
# ./configure
# make
# make install

Chasenのコンパイル、インストール

# tar zxf chasen-2.4.4.tar.gz
# cd chasen-2.4.4
# ./configure
# make 
# make install

辞書のインストール

IPADIC

https://ja.osdn.net/projects/ipadic/

IPADICは文字コードがeuc-jpなので、iconv等でutf-8にする必要があります。

# tar zxf ipadic-2.7.0.tar.gz
# cd ipadic-2.7.0
# ./configure

以下のようなシェルスクリプトを用意します。(参考:http://blog.nomadscafe.jp/archives/000482.html

#!/bin/sh
for file in *.dic *.cha
do
    if [ -f $file ]; then
        echo $file
        iconv -f euc-jp -t utf-8 $file > tmpfile
        mv tmpfile $file
    fi
done
exit

上記シェルスクリプトを実行して辞書ファイルをUTF-8に変換し生成します。

# sh ./convert.sh
# `chasen-config --mkchadic`/makemat -i w
# `chasen-config --mkchadic`/makeda -i w chadic *.dic
# make install

あわせて、chasenrcもUTF-8に変換します。

# cd /usr/local/etc
# iconv -f euc-jp -t utf-8 chasenrc > chasenrc.tmp
# mv chasenrc.tmp chasenrc