文字コードあれこれ - グニャラくんのグニャグニャ備忘録@はてな

http://slashdot.jp/askslashdot/article.pl?sid=07/03/10/0845225
文字コード問題は下手に首を突っ込むとコワイ人（？）が続々と議論に参加してきて触れづらい話題です。

SennaでUTF-8を使う場合、以下のような問題があります。

というわけで、検索対象文書が使っている文字集合がeuc-jpが対応している文字集合に収まるのであれば、Sennaではeucを使うのがお勧めな気がします。
コンテンツ量が多いと、じわじわとメモリ量の削減が効いてくると思います。