WWWは世界規模の分散データベースであると言えるが、そのままではコンテン
ツ(HTML等のデータ)が体系的に整理されておらず、ただ単にブラウザを用い
て身近な文書を見ている限りは、現在見ているページからリンクされた情報し
か得ることができない。つまり、クライアント側から見て情報の全体像が不明
確で、個々の情報へのアクセス手段も局所的なものに限定されているため、欲
しい情報の有無やその情報への到達方法、コンテンツの全体像等を知ることが
困難である。これは「ハイパースペースでの迷子問題(Lost in the
Hyperspace Problem)」として知られる問題で[]、この解決のために
は分散して存在する複数のWWWサーバにおいて、目的の情報が存在するかどう
かについて検索をして確かめる必要がある。しかし、WWW自体は複数のWWWサー
バから特定の情報を検索するプロトコルを持たないため、WWW上のデータを対
象とした検索を行うためには、既存のWWWアーキテクチャ上で検索システムを
構築しなければならない[]。このような経緯で開発されたWWW情報
検索サービスシステムは、一般的には「サーチエンジン」と呼ばれ、代表的な
ものにAltavistaや
Yahoo!
等がある。
サーチエンジンは、世界中のWWWサーバに遍在する情報を人的ないし機械的に 収集し、情報の階層化による分類や索引化を行うことで、キーワード検索等に よるアクセスを可能にするものである。サーチエンジンは、その仕組によって 大きく3種類に分類できる[, ]。
以上の分類において、メタ系サーチエンジンは自分ではデータベースを作成せ ず、またディレクトリ系サーチエンジンでは分類のために意図的に情報にフィ ルターをかけ、索引化される情報が限定されることが分かる。従って、「迷子 問題」を解決しうる、WWW全体を網羅するデータベースを作成することができ るのは原理的にはロボット系のサーチエンジンのみである。この点を踏まえ、 本稿で「サーチエンジン」という場合、これ以降は原則としてロボット系のサー チエンジンを指すことにする。