2005年08月06日

RSS検索エンジンを探して

最近、Heimdallrのキーワードチャンネルで使うためのRSS検索エンジンを探しています。 RSS検索エンジンというのは結果結果をRSSで出力してくれる検索エンジンのことです。

Heimdallrのキーワードチャンネルで使うには、以下のような検索エンジンが望ましいと思ってます。

  • 偏りがないこと。検索結果が特定のジャンルに偏っていたり、特定のBLOGのだけに偏っていたりするのは好ましくありません(これを判定するのは難しいのですが)。これは、ユーザはキーワードチャンネルに偏りがあると思って使ってはいないと思うからです。
  • レスポンスが早い事。5秒以内にレスポンスを返すことが望まれます。これ以上長いとユーザにダウンロード時間の長さを感じさせてしまうからです。
  • 検索範囲が広いこと。つまり、収集している記事数が多いことです。これが少ないと、ちょっとマイナーなキーワードで検索すると何もヒットしなくなります。これはあまり好ましくないです。

様々なRSS検索エンジンについて、上記の観点から調べてみましたので、コメントを書いてみます。

Feedback(現在キーワードチャンネルで使用中)
私が一番最初に存在を知ったRSS検索エンジンです。検索範囲もそれなりに広いですし、偏りも無いようです。レスポンスは非常に良く、大抵1秒以内にレスポンスが返ってきました。長い間Heimdallrのキーワードチャンネルでも使われていました。しかし、残念ながら今はサービス停止しています。
Bulkfeeds(現在キーワードチャンネルで使用中)
検索範囲が広く、偏りも無い優れたRSS検索エンジンです。たまにレスポンスが悪いときもありますが、大抵の場合は5秒以内にレスポンスが返ってきますので問題ありません。今でもHeimdallrのキーワードチャンネルで使われています。
goo ブログ(現在キーワードチャンネルで使用中)
gooブログ専門の検索エンジンのように見えますが、検索対象を「ブログすべて」とすると、特に偏りがない(gooに偏っていない)結果が得られますので普通の検索エンジンとして使えます。レスポンスも良く、検索範囲も広いように思えます。これは今でもHeimdallrのキーワードチャンネルで使われています。
livedoor SEARCH
昔は未来検索Livedoorという名前でした。検索範囲は広く、偏りもないのですが、レスポンスが非常に悪く、5秒どころか60秒待ってもレスポンスが返ってこないことが良くあります。一時期Heimdallrのキーワードチャンネルで使っていましたが、レスポンスが悪いため、今では使っていません。
BlogPeople
偏りはなく、検索範囲は広く、レスポンスも良く、優れた検索エンジンであり、Heimdallrのキーワードチャンネルで使おうと考えたこともありますが、「BlogPeopleの検索エンジンを使うのは止めました」に書いた変動ノイズとHeimdallrの相性が非常に悪いため、残念ながらキーワードチャンネルで使うことはできませんでした。
もぶろげっと β
偏りはそれほど無く、レスポンスは良好ですが、検索範囲はあまり広くないようです。といっても狭くもないので、Heimdallrのキーワードチャンネルで使おうと考えたことはあります。しかし、RSS Feedの日付のフォーマットが誤っているため(タイムゾーンが無い)、Heimdallrでは日付を読み込むことができません。よって、残念ながらキーワードチャンネルで使うことはできませんでした。
blog Watcher
偏りは無く、レスポンスも良好で、検索範囲は広いようです。RSS Feedが提供されていないサイトも検索していて素晴しいのですが、RSS Feedの日付のフォーマットが誤っているため(RSS 2.0なのにdc:dateを使っていて、しかもdc:dateとしてもフォーマットが違う)、Heimdallrでは日付を読み込むことができません。よって、残念ながらキーワードチャンネルで使うことはできませんでした。
MSN Japan
MSNの検索エンジンっていつのまにかRSS Feedを出力するようになっていたんですね。 それはともかく、偏りはなく、レスポンスはとても良く、検索範囲はとても広いです。さすが大企業がやっているだけはありますね。その検索力にはケチの付けようがないのですが、MSN 使用条件を読んだ限りではキーワードチャンネルで使えそうに無いので諦めました。いやー残念です。

RSS検索エンジンは、たくさんありそうに思えるのですが、なかなか良いのがありません。
Feedbackが停止してしまったので、代替品が1つ欲しいのですが、結局見つかりませんでした。 条件が厳しすぎるのですかね・・・。
他に何か良さそうなRSS検索エンジンをご存知の方は、教えて頂ければ幸いです。

投稿者 MASATO : 2005年08月06日 12:53 | トラックバック
コメント

RSSフィードのURLにie=UTF_8を加えたらきちんと動きました。
お騒がせしてすみませんでした。

Posted by: 大海原湊 : 2005年09月15日 20:42

Googleのblog searchを推薦という形でトラックバックを送ったのですが、
その後RSSを実際にHeimdallrに登録してみたら使えませんでした。
事前にチェックしてればよかったのですが、ろくでもないトラックバックを送ってしまいすみません。

Posted by: 大海原湊 : 2005年09月14日 23:07

瞳子さん、返事遅れてすみません。

livedoor SEARCH のRSS応答速度は、今でも遅い気がします。
なんか定量的に測る方法を考えても良いかもしれませんね。

> blog Watcher の日付がpubDate要素としてRFC 822の書式に修正されていました。
こちらも確認しました。
さっそく使ってみようとしたのですが・・・
blog WatcherのRSSの各itemのtitleは、記事のタイトルじゃなくて、サイトのタイトル+日付なんですね。
Heimdallrで普通に使ってみると分かると思いますが、この形式は記事の内容がぱっとみて分からないので使い難いです。
また、自動学習機能との相性も悪い(タイトルからキーワード抽出しても記事に関連した単語が得られない)のです。

うーん、困ったな・・・という感じです。

Posted by: MASATO : 2005年08月19日 22:31

blog Watcher の日付がpubDate要素としてRFC 822の書式に修正されていました。

Posted by: 瞳子 : 2005年08月11日 05:32

> Htmlから直に取り込むという手段はいけませんかね?
もちろん可能ですが、面倒です。
特に面倒なのがメンテナンスです。どのようなHTMLを出力するべきか、仕様で決まってないので、相手はフォーマットを自由に変えることができます。こちらは、そのたびに追従する必要があります。それは、大変ですよね。

> 問題が日付のフォーマット程度ならばプラグイン内部でこっそり補正できそうだと思うのですが
こちらもHTMLと同じく、相手がフォーマットを修正したときにこちらで追従する必要があるため面倒です。

BulkfeedsかGooブログのどちらかが停止したら、面倒でもこうした対応をしなければならないかな、という気はしますが、今のところは特に対応するつもりはありません。

Posted by: MASATO : 2005年08月07日 14:47

なんだかlivedoor SEARCH のRSS応答速度が上がっていました。
昨日確認した限りでは遅くて遅くて使い物にならない速度だったのですが…
もしかして、昨日のコメント見られた?

Posted by: 瞳子 : 2005年08月07日 07:56

ライブドアはRSSを出すのが異常に遅いんですよね~。
検索自体はほぼ一瞬だと思いますので
Htmlから直に取り込むという手段はいけませんかね?

Posted by: 瞳子 : 2005年08月06日 13:48

問題が日付のフォーマット程度ならばプラグイン内部でこっそり補正できそうだと思うのですが
それはダメなのでしょうか?

Posted by: 瞳子 : 2005年08月06日 13:43
コメントする









名前、アドレスを登録しますか?