Sedueのサイトに、各種全文検索システムの速度比較が載ってるよ!

Sedueっていう検索システム。
圧縮Suffix Arrayらしい。
http://preferred.jp/sedue/benchmark.htm


圧縮Suffix Arrayについては、
開発メンバーにも入っている岡野原さんがいろんなところで書いているので
参考になります。


上記サイトでの性能比較についてですが、
Sennaが結構好成績を出していて嬉しい限りです。
んでも、ひとつ気になったのが、

インデクシングに関しましては、全検索システムにおいて形態素解析オプションをonにしてベンチマークを行いました。

と書いてあるのに、

Senna
N-gramオプションを使用

というところ。なんでわざわざN-gramなんだろう。。
[追記]再現率をあわせるためだそうです。なるなる。


形態素解析にしたら、インデックス作成速度も速くなって、
インデックスサイズも小さくなると思います!