検索の限界

Next: 情報提供における問題 Up: 情報の一元的管理の問題点および限界 Previous: 情報の一元的管理の問題点および限界

検索の限界

現在のWWW情報検索サービスが直面している一番の大きな問題は、「WWWの指数関数的増大に対して現在のシステムは，いつまで耐えられるのか」という問題である[]。これは具体的には、WWW上のコンテンツの指数関数的な増大に対し、サーチエンジン運営サイトがデータベースとして保持しているコンテンツ量の増加率が追い付かなくなっているということである。これにより、コンテンツ収集時間の増大、未収集コンテンツの増大、最新情報への更新頻度の低下が問題となる。

図からも分かる通り、WWWサーバ数の増加率は1997年以降、ほぼ毎年 2倍の伸び率で推移してきている。村岡(2000)は、このような傾向とLawrence & Giles(1998,1999)の調査結果等から2000年1月の時点でのWWW上のデータ量を17.8億ページと推定している [, , ]。これに対して、代表的サーチエンジンである Altavistaで検索用データとして蓄積されているデータ量は2001年1月の時点で 2.5億ページ、最大のデータ量を誇るFASTでも5.75億ページである。これはWWWロボットによる収集の対象から漏れてしまうコンテンツの方が多いことを示すものである。またAltavistaでは最低28日以内のデータ更新頻度を保証しているため、単純な計算をすれば約890万ページ/日の処理能力を持つことになるが、1998年現在の主要なWWWロボットのデータ収集能力が約1,000万URL/日であることと比較すると[]、処理能力は相対的に減少している可能性がある。

これらの数値はサーチエンジンがWWW上のコンテンツを網羅できる能力と、最新情報を網羅できる能力が既に頭打ちとなっていることを示唆している。従って、既存のWWWロボットの技術を用いる限りは、この限界を越えることは難しいと言える。

OCHIDA Tadashi
Sat Feb 10 01:41:46 JST 2001