ThinkIT 「徹底比較!検索エンジン」についてツッコミ
Sennaの場合には、文書数を166,512より多くしようとすると、メモリ確保の失敗が原因のsen_memory_exhaustedというエラーが発生し、インデックスに文書を追加できなくなりました。
http://thinkit.jp/article/744/1/
しっかりと反応しておきます。
対象文書サイズが4000000KB(≒4GB)を超えた場合インデックスが作成できないのは、
32bit OSを使っているからだと思われます。
64bit OSを使えば問題なくインデックスが作成できると思います。
あと、LuceneのN-gramの実験をやるんだったら、
SennaのN-gramの実験もやって欲しいなぁ…と思います。
次世代Senna(名称未決定…、名前変えることにしました)では
さらに転置インデックスのサイズが圧縮できるように努力してまーす。
名前が思いつかないのが困り者…
こういうパフォーマンス比較モノ記事は、書くのが非常に難しいです。
各比較対象についての知識と、それぞれでのチューニングのキモを知る必要があるからです。
各種パラメータなどをカリカリにチューニングしないと、そのライブラリに失礼ですから。
また、各検索エンジンが対象としている用途が異なるため、
納得感のある比較が難しいとも思います。
例えばSennaの場合、インデックスの更新と検索が平行して走っているときに
高スループットが出せることを目標としています。
「2ちゃんねる検索」なんかは更新走りっぱなしだし。
単純に言えば、↓こういう話なんですが…
というわけで、「徹底比較!検索エンジン」記事の今後に期待です!