現在のWWW情報検索サービスが直面している一番の大きな問題は、「WWWの指数 関数的増大に対して現在のシステムは,いつまで耐えられるのか」という問題 である[]。これは具体的には、WWW上のコンテンツの指数関数的な 増大に対し、サーチエンジン運営サイトがデータベースとして保持しているコ ンテンツ量の増加率が追い付かなくなっているということである。これにより、 コンテンツ収集時間の増大、未収集コンテンツの増大、最新情報への更新頻度 の低下が問題となる。
図からも分かる通り、WWWサーバ数の増加率は1997年以降、ほぼ毎年
2倍の伸び率で推移してきている。村岡(2000)は、このような傾向とLawrence
& Giles(1998,1999)の調査結果等から2000年1月の時点でのWWW上のデータ量
を17.8億ページと推定している
[, , ]。これに対して、代表的サーチエンジンである
Altavistaで検索用データとして蓄積されているデータ量は2001年1月の時点で
2.5億ページ
、最大のデータ量を誇るFASTでも5.75億ページ
である。これはWWWロボットによる収集の対象から漏れてしま
うコンテンツの方が多いことを示すものである。またAltavistaでは最低28日
以内のデータ更新頻度を保証しているため、単純な計算をすれば約890万ペー
ジ/日の処理能力を持つことになるが、1998年現在の主要なWWWロボットのデー
タ収集能力が約1,000万URL/日であることと比較すると[]、処理能
力は相対的に減少している可能性がある
。
これらの数値はサーチエンジンがWWW上のコンテンツを網羅できる能力と、最 新情報を網羅できる能力が既に頭打ちとなっていることを示唆している。従っ て、既存のWWWロボットの技術を用いる限りは、この限界を越えることは難し いと言える。