文字コードあれこれ
http://slashdot.jp/askslashdot/article.pl?sid=07/03/10/0845225
文字コード問題は下手に首を突っ込むとコワイ人(?)が続々と議論に参加してきて触れづらい話題です。
SennaでUTF-8を使う場合、以下のような問題があります。
- nfkc正規化で時間がかかる(ex.〓→ミリバール)
- 語彙表(メモリに常時載る)のサイズが増える、よってメモリ使用量も増える
というわけで、検索対象文書が使っている文字集合がeuc-jpが対応している文字集合に収まるのであれば、Sennaではeucを使うのがお勧めな気がします。
コンテンツ量が多いと、じわじわとメモリ量の削減が効いてくると思います。