2007-03-23から1日間の記事一覧

SennaによるN-gramインデックスで注意すべき挙動

追記:以下の文書について 現在リリースされているSenna 1.0.7では、 N-gramで1文字の日本語を検索する場合は 直接部分一致検索を動作させるようにしました。というわけで、以下で説明している挙動は今現在当てはまりません。 1文字の単語について uchiuchi…

MySQLのUDF(ユーザ定義関数)をDjangoから使う

動機 SennaのMySQLバインディングには、 UDFというMySQLのユーザ定義関数を使ってスニペットを返す関数があります。 スニペットとは、検索対象文書の一部を抜粋したものです。 通常はKWICと呼ばれる、検索キーワードとその周辺の文書を抽出したものを出力し…