集中管理型の情報検索サービス

Next: 情報の一元的管理の問題点および限界 Up: クライアントサーバ型情報サービス Previous: World Wide Web

集中管理型の情報検索サービス

WWWは世界規模の分散データベースであると言えるが、そのままではコンテンツ（HTML等のデータ）が体系的に整理されておらず、ただ単にブラウザを用いて身近な文書を見ている限りは、現在見ているページからリンクされた情報しか得ることができない。つまり、クライアント側から見て情報の全体像が不明確で、個々の情報へのアクセス手段も局所的なものに限定されているため、欲しい情報の有無やその情報への到達方法、コンテンツの全体像等を知ることが困難である。これは「ハイパースペースでの迷子問題(Lost in the Hyperspace Problem)」として知られる問題で[]、この解決のためには分散して存在する複数のWWWサーバにおいて、目的の情報が存在するかどうかについて検索をして確かめる必要がある。しかし、WWW自体は複数のWWWサーバから特定の情報を検索するプロトコルを持たないため、WWW上のデータを対象とした検索を行うためには、既存のWWWアーキテクチャ上で検索システムを構築しなければならない[]。このような経緯で開発されたWWW情報検索サービスシステムは、一般的には「サーチエンジン」と呼ばれ、代表的なものにAltavistaや Yahoo!等がある。

サーチエンジンは、世界中のWWWサーバに遍在する情報を人的ないし機械的に収集し、情報の階層化による分類や索引化を行うことで、キーワード検索等によるアクセスを可能にするものである。サーチエンジンは、その仕組によって大きく3種類に分類できる[, ]。

ロボット系：
ロボット検索サービスでは、WWWロボットと呼ばれる特殊なHTTPクライアントを用いてインターネット上のWWWサーバに蓄積されている情報を自動的に収集し、さらに索引の作成を行ってキーワードによる情報検索を提供する仕組を持つ。代表例として、AltavistaやGoogle、 Infoseekが挙げられる。ロボット系サーチエンジンは、提供できる情報量が多いという利点を持つ。一方、要約の完成度が低い（抽象化の失敗）という欠点を持つ。なお、近年ではロボット系のサーチエンジンでもジャンル毎の分類や外部からの登録受け付け機能等、ディレクトリ系と同等のサービスを併せ持つものが多い。
ディレクトリ系：
ディレクトリ検索サービスは、コンテンツを手動でカテゴライズし、人間によって作成された分類項目・索引を手掛かりとする情報の検索を提供するサービス形態を持つ。ディレクトリ系サーチエンジンではYahoo!が代表的である。情報量はロボット系に比べて2～3桁少いことが欠点として挙げられるが、索引と要約の内容は人的に作成されるためロボット系よりも信頼度が高い。
メタ系：
メタ検索サービスは、自分自身でデータベースを持たず、ユーザからの検索要求を他の複数の検索サービスに送り、その結果を加工・編集したものをユーザに検索結果として返す検索サービスである[]。

以上の分類において、メタ系サーチエンジンは自分ではデータベースを作成せず、またディレクトリ系サーチエンジンでは分類のために意図的に情報にフィルターをかけ、索引化される情報が限定されることが分かる。従って、「迷子問題」を解決しうる、WWW全体を網羅するデータベースを作成することができるのは原理的にはロボット系のサーチエンジンのみである。この点を踏まえ、本稿で「サーチエンジン」という場合、これ以降は原則としてロボット系のサーチエンジンを指すことにする。

OCHIDA Tadashi
Sat Feb 10 01:41:46 JST 2001