変更履歴
version 1.1.5
- clang でコンパイル可能に
getassoc
- configure時
- –enable-dlsim 復活, 類似度の動的ロードは –enable-shared=yes と –enable-dlsim=yes の両方を指定することで有効化できる
- –enable-newlayoutを追加 getassoc の起動時オプション -R で GETAROT の指定が必須
- -r rcfile でデフォルト値の指定が可能になった
version 1.1.3
getassoc
- xgetassoc
- setup: オプション -l 追加
- 分散 setup のときに、-R、-C、-X のいずれかの指定が必須になった。
- server モードのときに、-t tmpdir が指定されない場合、環境変数TMPDIRを見るようになった。
- server モードのときに、-r pwam_root の指定が必須になった。
- 作業ディレクトリが -t で指定されない場合、環境変数 TMPDIR からとるようになった。それでもない場合は、/tmpになる。(従来の$GETAROOT/tmpと異なるので注意)
- –enable-uniquify つきで configure すると、同じ名前の記事をつぶすことができる。名前の同一性は、\000か\001まで判断される。遅いので注意。
- xgetassoc, tgetassoc
- 環境変数 GETAROOT を見なくなった。規定値は、NULL もしくは SGETAROOT である。それ以外の場合、-R を用いて明示的に指定すること。両方指定すると、後から指定した方が有効。
- 全文一致
- 複数スレッドにて実行する機能を試験的に追加、–with-xfssncpu=#。ただし、512より小さいレンジに対しては常に単一スレッド、キャッシュサイズは8192。実運用ではこの2つのパ ラメータを調節する必要あり。
- インデクスに加えない部分文字列を指定する関数(先頭の文字と、その直前の文字で判断)を追加(default off、–enable-indexp) – 曖昧一致をonにしていてもリテラリに与えられた文字で判断するので注意
- 曖昧一致を全てoffにするオプション追加 (–enable-rigidstrcmp、速くなるかどうかは未知数)
<filter><search>
に<n>
だけの項があらわれると結果が壊れる問題を修正 – [注意]全文一致の場合に<n>
だけの項が現れるのは依然として禁止- xmlns有効の時に、全文一致の式のparseに失敗する問題を修正
<filter expression=>
と<filter><search>
を同時に指定するとクラッシュする問題を修正- 結果の文書数や単語数が、要求クラスタ数を下回るとクラッシュする問題を修正
stmd
- 起動時引数に、’-e user’を渡すと’user’にsetuidするようになった。
- mecab
- mecab_new に引数を渡せるようになった。ただし、mecab_newを毎回呼ぶので性能は非常に悪い。やむを得ない場合のみ使用されたい。 configureに、 –enable-mecabopts=yes を渡すと有効になる。mecab_new の引数の既定値は “mecab” “–unk-feature” “未知語” である。mecab の後ろに, (コンマ)で区切った文字列を渡すと既定値の後ろに追加される (shell による解釈はされない)
- mecab+unidicでの潜在的バグ修正
- ngramが1回しか呼び出せない問題を修正、最大グラム数を4から6に変更
version 1.1.2
getassoc, stmd
- “icu-config –cflags”が -ansi を吐く問題に一部対応
version 1.1.1 (内部リリース)
getassoc
- 分散版で、全文検索フィルタを使うとクラッシュする問題を修正
- configureのexpatの存在テストを削除(検出できない場合があるため)
- セットアップがsigpipeで失敗する問題を修正
- itbファイル中の空白行は無視されるようになりました
- 存在しない属性ファイルを開こうとするとゴミができる問題を修正
- print.c: ID が NULL のときにクラッシュする問題を修正
version1.1
getassoc
- 全文一致インデクス(@fss)を作成している場合、再セットアップ(更新は不可)が必須になります
- configure時
- –enable-dlsim を廃止
- 類似度コンパイラは –enable-shared=yes (default: yes) で有効化
- Solaris, MacOSX では陽に –enable-shared=no を指定するか Makefile.in を修正しないとハマることがあります
- –enable-ucs4fssの追加
- 全文検索インデックスの文字コードのデフォルトがUTF8になりました(v1.0ではUTF32)。UTF32にするには–enable-ucs4fssの指定が必要です。検索速度はUTF32の方が速いですが、ディスク領域をたくさん使います
- –enable-dlsim を廃止
- gss3プロトコル
- 検索結果のクラスタリングにK-meansを追加(v1.0ではHBC[階層ベイズクラスタリング]のみ)
cs-type="CS_HBC|CS_K_MEANS"
- 検索結果のクラスタリングの際の特徴ベクトル抽出の重み指定を追加
cs-vsim="WT_SMART" (デフォルト) cs-vsim="WT_NONE" (TF_d を使用、K-means指定時のデフォルト)
- a-propsでfss.nを指定すると全文一致用の当該セグメントの文字列を取得できるようになりました
fss.0 : セグメント0 ... fss.31 : セグメント31
- xfss-downsampleの追加
- 検索結果のクラスタリングにK-meansを追加(v1.0ではHBC[階層ベイズクラスタリング]のみ)
- stp
- 引数のitbファイルをカレントディレクトリからの相対パスで指定可能に
- tsvファイルも引数に指定できるようになりました(WIN32 版は標準入力からのインストールは不可)
- -i, /sti を廃止
- itbファイル
- #body=を予約語に。b1 と ! を両方していたのと同じ効果を持ちます
- tgetassocコマンドのサポート開始
- ドキュメントは追って掲載します
- プロキシーモードのサポート開始
- ドキュメントは追って掲載します
その他、細かな変更はパッケージ内のdocs/CHANGES.TXTをご覧ください
stmd
- configure時
- –enable-unidic を廃止
- –with-mecab-kihon-index を新設
unidic-1.3.11 のときに --with-mecab-kihon-index=9 unidic-1.3.12 のときに --with-mecab-kihon-index=12 default: 6 (for IPAdic, Naist-jdic)
Windows版の提供開始
- 当面はベータ版扱いとなります