形態素解析か、N-gramか

たまたまWebサーフィン中にこんなページを発見。
N-gramマンセーなページはよく見るけど、
珍しくN-gramに批判的な記事。
http://www.accessup.org/pj/6_B4C9CDFDBFCDA4B5A4F3/20060203.html


Sennaは単語ベースの転置インデックスを持ちながらも、
部分一致検索を行うことができるので、
「京都」で検索しても「東京都」を出すように設定できる。
スコアの下げ具合も設定できる。
インデックスも小さくなる(=検索も早くなる)
部分一致を動かさなければ適合率が上がるし、
部分一致を動かせば再現率が上がる。
というわけで、
Sennaを使って大規模な文書セットを検索させたい場合には、
基本的には単語ベースでインデックスを作るのがオススメなのだ。


しかーし、
ipadicのライセンスであるICOTライセンスの英語版の不透明さのおかげで
N-gramが必要とされるケースもあったりするのです。


http://chasen.org/~taku/blog/archives/2004/11/ipadic.html
にはライセンスを変えるっていう話が出ているけど、
いまだ実現していないっぽいしなあ。。
mecab自体はGPL/LGPL/BSDのトリプルライセンスというゆるゆるライセンスなのに。。
やはりjumandicか。。