文字コードあれこれ

http://slashdot.jp/askslashdot/article.pl?sid=07/03/10/0845225
文字コード問題は下手に首を突っ込むとコワイ人(?)が続々と議論に参加してきて触れづらい話題です。


SennaUTF-8を使う場合、以下のような問題があります。

  • nfkc正規化で時間がかかる(ex.〓→ミリバール)
  • 語彙表(メモリに常時載る)のサイズが増える、よってメモリ使用量も増える


というわけで、検索対象文書が使っている文字集合euc-jpが対応している文字集合に収まるのであれば、Sennaではeucを使うのがお勧めな気がします。
コンテンツ量が多いと、じわじわとメモリ量の削減が効いてくると思います。