ツッコめ！全文検索エンジンSennaの新しいAPIについての素案。 - グニャラくんのグニャグニャ備忘録@はてな

みんな、［Senna-dev 884］のメールは読んだかな！？
全文検索エンジンSennaの新しいAPIについての素案がついに公開されました。

今までのAPIのほとんどを刷新するという
大改造！劇的ビフォーアフター的API群です（APIの匠）。

んで、この新しいAPI群で何ができるようになるのでしょうか。
簡単に言うと、
「Sennaは、データベースになります！」

といいつつも、全文検索機能を充実させるために、
データベース的機能を強化した、という感じになっておりますぞ。

新しいSennaでは、複数のテーブルというものを持つことができます。
テーブルは、複数のレコードを持つことができます。
レコードは、複数のカラムを持つことができます。
カラムは、ある型のデータを保持します。
一般的なRDBMSの２次元表をまずはイメージしてください。

Sennaの新しいAPI群では、レコード毎にカラムを追加することができます。
というわけで、二次元表ではなく、穴あきの二次元表をイメージするとよいでしょうか。

もちろん、あるカラムでの絞込みやソート、グループ化などの操作も行うことができます。

いわゆる外部参照が高速に行える実装となっております。
具体的にいうと、カラムに保持する型として、他のテーブルそのものを指定することができます。
このように指定されたカラムは、他のテーブルへの参照を保持します。

テーブル・カラムを参照もしくは更新するタイミングで、
任意の関数を呼び出すことができます。
トリガーのようなものです。
この関数で、値をフィルタしたり、値を横取りしたり、
そもそもイベントそのものを握りつぶしたりすることができます。

以上の３つのポイントが大きな特徴となっております。

それ以外にも、テーブルのタイプが3つあったり、
テーブルを物理ファイルにマップするか、メモリ上だけに作るか選べたり…
などいろいろ特徴がありますが、
大雑把に説明するとこんな感じです。

今までのSennaでは、
主にsen_indexという型についての操作を行うことによって、
全文検索インデックスへの操作を行っていました。

sen_indexは、内部的には以下の3つの構造から成り立っています。

文書ID表は、Senna内部での文書ID番号と、外部での文書IDとの対応付けをするための表です。
外部での文書IDの実例として、
TritonnであればMyISAMのレコード位置、
Ludiaであればtuple idが挙げられます。

語彙表とは、文書内に登場する単語がすべて登録され、それぞれに語彙ID番号が対応付けされている表です。
N-gramを語彙とするのであれば、1または2文字の文字列が語彙表に登録され、
MeCabで切り分けられた形態素を語彙とするのであれば、形態素が語彙表に登録されます。

転置インデックスとは、
語彙ID番号ごとに検索データを保持するデータ構造です。
ある語彙を含む文書について、Senna内部での文書ID番号の列を語彙ごとに保存しています。
(本当はもうちょっと情報を保持しているのですが、説明の簡単化のため省略)

この３つの構造を用いることによって、全文検索を行うことができます。
具体的には、
「検索キーワード」→
「検索キーワードの語彙ID番号」→
「Senna内部での文書ID番号の列」→
「外部での文書ID番号の列」
のように順番に表を引くことにより、検索結果の文書ID群を得ることができるわけです。

Sennaの新APIでは、ID表と語彙表について、Sennaデータベースのテーブルを用いることができます。
転置インデックスのみ、inv index columnという特殊なカラムが用意されています。

ID表と語彙表が一般的なテーブルとなったということは、
それぞれのレコードに好きなカラムを追加できるということです。

ID表にカラムを追加することにより、こんなことが出来るようになるでしょう。

…つまり、

の２つの併せ技で出来ることが増えるというわけなのです。

語彙表にカラムを追加することによって、こんなことが出来るようになるでしょう。

…つまり、

の２つの併せ技で出来ることが増えるというわけなのです。

夢が広がりまくりんぐですねー。

弊社SennaチームはAPIの設計に悩んでいるのです。
大体、こんなことで悩んでおります。

というわけで、

などというツッコミを大募集しております。
senna-devメーリングリストやブログなどで、
是非是非ツッコみまくってください！！！
高速で実用的で柔軟で安定した検索エンジンを目指してるんじゃい！！

というわけで、お待ちしぃ〜てぇ〜いまぁ〜すぅ〜ﾁｬﾘﾗﾘﾗﾘﾗﾘﾗﾝ（by 日本直販