2007-03-01から1ヶ月間の記事一覧

SennaによるN-gramインデックスで注意すべき挙動

追記:以下の文書について 現在リリースされているSenna 1.0.7では、 N-gramで1文字の日本語を検索する場合は 直接部分一致検索を動作させるようにしました。というわけで、以下で説明している挙動は今現在当てはまりません。 1文字の単語について uchiuchi…

MySQLのUDF(ユーザ定義関数)をDjangoから使う

動機 SennaのMySQLバインディングには、 UDFというMySQLのユーザ定義関数を使ってスニペットを返す関数があります。 スニペットとは、検索対象文書の一部を抜粋したものです。 通常はKWICと呼ばれる、検索キーワードとその周辺の文書を抽出したものを出力し…

Python Tシャツもらったよ!!!

PyCon 2007のおみやげのTシャツ http://omake.accense.com/wiki/PyCon2007/GiveAway ダーツで抽選された結果、 僕が当選しました!!! 高品質RADIUSサーバシリーズfullflexでおなじみの アクセンス・テクノロジー様からいただきました!!! Tシャツを着てみて、…

出た!出た出た!Tritonn(トリトン)

SennaのMySQLバインディングを高品質にする、Tritonnプロジェクトの成果物がリリースされました! http://qwik.jp/tritonn/ 僕が覚えている範囲だと、今までのMySQLバインディングとの差異は以下のとおりです。 alter table/create index/drop indexなどでイ…

acts_as_ludiaを使ってRails + Pg + Ludia + Sennaで全文検索

acts_as_ludiaという、RailsでLudiaが簡単に使えるプラグインが公開されています!! http://d.hatena.ne.jp/uchiuchiyama/20070318/ludia_rails_plugin スニペットが簡単に取得できるのが嬉しい。 Ludia + Railsユーザはぜひぜひご利用を。 [追記] act_as_l…

文字コードあれこれ

http://slashdot.jp/askslashdot/article.pl?sid=07/03/10/0845225 文字コード問題は下手に首を突っ込むとコワイ人(?)が続々と議論に参加してきて触れづらい話題です。 SennaでUTF-8を使う場合、以下のような問題があります。 nfkc正規化で時間がかかる(e…

Django勉強会 Disc 3

Django勉強会 Disc 3 http://www.djangoproject.jp/etude/3/ でお話させてもらってきた。 資料を以下のURLに置いておきます。嘘が混じってるかもしれないけど… http://qwik.jp/senna/publication.download/django-ja-disc3-senna.pdf 僕の発表内容を簡単にま…

Wikipediaの記事をPlainTextにしたい

Wikipediaの記事検索はデモに使えるので、 MediaWikiの記事をプレインテキストにしたい場合がよくある。 以下のページにパーサ一覧みたいなものがあるんだけど、 どれもHTML出力が多くて… http://meta.wikimedia.org/wiki/Alternative_parsers さらに、日本…

2chのSennaスレッドが伸びていると思ったら

2chのSennaスレッドがやけに伸びていると思ったら、 http://pc11.2ch.net/test/read.cgi/php/1118762053/ 荒れていた… dump→リビルド→データ流し込むの作業はいらない気がしますが、 まあ、ビルドはめんどくさいですよね…

SQLiteスレでのSennaの話題

http://pc11.2ch.net/test/read.cgi/db/1162621344/446 Sennaスレ http://pc8.2ch.net/test/read.cgi/php/1118762053/ に書き込むか迷ったけど、あっちはPHP板なのでここに書いてみる。 mecab の src/Makefile.msvc.in をそのまま使うと iconv-win32 が微妙…