ThinkIT 「徹底比較!検索エンジン」についてツッコミ

Sennaの場合には、文書数を166,512より多くしようとすると、メモリ確保の失敗が原因のsen_memory_exhaustedというエラーが発生し、インデックスに文書を追加できなくなりました。
http://thinkit.jp/article/744/1/

しっかりと反応しておきます。


対象文書サイズが4000000KB(≒4GB)を超えた場合インデックスが作成できないのは、
32bit OSを使っているからだと思われます。
64bit OSを使えば問題なくインデックスが作成できると思います。


あと、LuceneN-gramの実験をやるんだったら、
SennaN-gramの実験もやって欲しいなぁ…と思います。


次世代Senna(名称未決定…、名前変えることにしました)では
さらに転置インデックスのサイズが圧縮できるように努力してまーす。
名前が思いつかないのが困り者…


こういうパフォーマンス比較モノ記事は、書くのが非常に難しいです。
各比較対象についての知識と、それぞれでのチューニングのキモを知る必要があるからです。
各種パラメータなどをカリカリにチューニングしないと、そのライブラリに失礼ですから。
また、各検索エンジンが対象としている用途が異なるため、
納得感のある比較が難しいとも思います。
例えばSennaの場合、インデックスの更新と検索が平行して走っているときに
スループットが出せることを目標としています。
2ちゃんねる検索」なんかは更新走りっぱなしだし。


単純に言えば、↓こういう話なんですが…


というわけで、「徹底比較!検索エンジン」記事の今後に期待です!