Wikipediaの記事をPlainTextにしたい
Wikipediaの記事検索はデモに使えるので、
MediaWikiの記事をプレインテキストにしたい場合がよくある。
以下のページにパーサ一覧みたいなものがあるんだけど、
どれもHTML出力が多くて…
http://meta.wikimedia.org/wiki/Alternative_parsers
さらに、日本語に対応しているかどうかも重要ですよね。
とりあえず、自分メモからパーサをいくつかピックアップしてみた。
http://search.cpan.org/~dprice/Text-MediawikiFormat-0.05/lib/Text/MediawikiFormat.pm
http://search.cpan.org/~dprice/Wiki-Toolkit-Formatter-Mediawiki-0.02/lib/Wiki/Toolkit/Formatter/Mediawiki.pm
(どっちも、昔試してみた記憶だとうまくパースできないエントリがあったような…)
http://tools.wikimedia.de/~magnus/wiki2xml/w2x.php
(一番しっかりしている。しかし、plain text変換ロジックがちょっと弱い)
http://pear.php.net/package/Text_Wiki_Mediawiki/
(うまくパースできないエントリがあった)
http://www.python.org/pypi/mwparser/
(試してないっす)
今までの経験だと、
というのが今までで一番よい変換方法でした。
というわけで、よいMediaWikiパーサがあったら情報ください。