ウェブアーカイブでは、全てのウェブコンテンツを完璧に収集できるわけではありません。収集ロボットの技術的な限界により収集が難しいコンテンツがあるためです。代表的なものとして、動的コンテンツやストリーミングファイルがあります。
データベースの中に格納され、検索を実行して初めて表示されるようなデータは、収集ロボットで収集することができません。
これらは動的コンテンツと呼ばれ、検索を実行したり画面をスクロールしたりするなど、ユーザの操作により要求(クエリ)がサーバに送信され、サーバ側のプログラムで結果が生成されてデータが返信される仕組みです。また、JavaScriptを使ってクライアント側で実行して生成されるコンテンツもあります。表示される内容やURLは、クライアントの要求によって異なったものになります。
一方、htmlページ、画像ファイル、文書ファイルなどが固定したURLで置かれ、誰がいつ見ても同じように表示されるものは、静的コンテンツと呼ばれます。
収集ロボットはトップページを起点としてリンクをたどりながら、URLをもとにファイルを収集していく仕組みのため、動的コンテンツは静的コンテンツに比べて収集し難いのです。
ただし、サーチエンジンが使用している収集ロボットのなかには、Java Scriptを実行する機能を備えたものがあると言われています。世界各国のウェブアーカイブで広く使用されているHeritrixでも、補助ツール[1]を実装することでクライアントサイドのスクリプトを実行し、動的コンテンツを収集する試みがなされています。
動画ファイルも収集が困難なコンテンツのひとつです。近年、動画の多くはファイルをそのままウェブサイトに置くのではなく、ファイルをダウンロードしながら再生する方法で配信されています。
その配信方法には、専用のプロトコルとサーバを用いて配信する「ストリーミング」と、httpプロトコルを用いてファイルをクライアント側に一時的に保存しながら再生する「プログレッシブダウンロード」の2種類があります。
ストリーミングを一般的な収集ロボットで収集することはできません。収集するためには、専用プロトコルを用いてデータを受信し、それを蓄積するソフトウェアを利用する必要があります。
プログレッシブダウンロードは、ダウンロード用のURLを抽出するなどして収集できる場合もあります。収集ロボットで収集するためには、ソースコードを自動的に解析してダウンロード用URLを抽出する機能が必要となりますが、Heritrixにはそのような機能は実装されていません。動画サービスの技術仕様が頻繁に変更されるため、解析機能の仕様を固定し難いことがその理由として挙げられます。
また、動画サービスのなかには利用規約によりファイルのダウンロードを禁じているものもあり、課題は技術的な側面だけにとどまりません。
こうした状況に対して、ウェブアーカイブも手をこまねいているわけではありません。動的コンテンツの項で紹介したように、収集ロボットの技術がより進歩して汎用的になれば、収集できるものが増えてくると期待されます。また、収集ロボットではない方法でストリーミングファイルを収集する試みもなされています[2]。
一方で、ウェブ技術は急速に進化しており、新たなフォーマットやプロトコル、プラットフォームが生まれています。仮に動的コンテンツやストリーミングファイルが収集できるようになったとしても、その先には新しい技術によるコンテンツが待ち受けているでしょう。ウェブアーカイブはウェブ技術の進化に常に対応し続ける必要があり、そのチャレンジが終わることはありません。
(最終更新日:2014/10/8)