トップ > ウェブアーカイブのしくみ(おすすめコンテンツ) > 4. ウェブを収集する単位

4. ウェブを収集する単位

ウェブアーカイブでは、何らかのまとまり(単位)でウェブサイトを管理します。主なものとしてターゲット単位ページ単位があります。単位を決定するにあたっては、収集の規模、保存したサイトの見せ方、収集の効率性などがポイントとなります。

ターゲット単位

小規模な収集

選択収集の多くは小規模なまとまりで収集するため、機関単位あるいはウェブサイト単位で収集する対象(ターゲット)を設定します。機関単位であれば「国立国会図書館」や「総務省」、ウェブサイト単位であれば「平城遷都1300年祭」や「さっぽろ雪まつり」といった具合です。各単位で検索用のメタデータを作成し、その下に保存日ごとに分けてウェブサイトを管理します。ターゲット単位で管理することで、収集や公開に関する許諾の管理がスムーズに行えるなどのメリットがあります。

国立国会図書館ウェブサイトを構成する複数のページを国立国会図書館のまとまりで集めて保存日ごとに管理してインターネット資料収集保存事業(WARP)で公開する

ターゲット単位での収集のイメージ

保存したサイトの見せ方

ターゲット単位で保存したウェブサイトの多くは、そのまとまりで公開します。例えばWARPでは、ターゲットのもとに保存日ごとに分けて公開しています。

ターゲットの情報(メタデータ)と保存日ごとにまとめられたコンテンツ

WARPの詳細画面

保存したウェブサイトを閲覧している際、リンク先のファイルが同じ日に保存されていない場合には、メッセージ画面が表示されます。他の保存日や、他のターゲットの中に保存されている可能性がありますので、画面に従って検索し直すと見つかる場合があります(①)。また、オリジナルサイトへのリンクもありますので、現在のページへ飛ぶこともできます(②)。

WARPで収集した総務省のウェブサイトから保存していないファイルへのリンクをクリックすると、保存されていないことを知らせるメッセージ画面が表示され、他の保存日のコンテンツへの誘導とオリジナルサイトへのリンクが表示される。

WARPのメッセージ画面

ページ単位

大規模な収集

ページ単位の管理は、バルク収集に多く用いられる方法です。「.fr」や「go.jp」などのドメインレベルで大規模な収集を行い、URLのみで管理します。ターゲット単位とは異なり、検索用のメタデータを付与することはあまりありません。

Wayback Machineはページ単位で収集してページ単位で管理している。

ページ単位での収集のイメージ

保存したサイトの見せ方

ページ単位の多くはURLをキーにして検索・閲覧をします。例えばインターネットアーカイブのWayback Machineは、URLで検索をするとカレンダーに保存日が表示されます。

Wayback Machineのカレンダーナビゲーションのスナップショット拡大図を表示

Wayback Machineのカレンダーナビゲーション

表示されるコンテンツはページ単位で管理されているためターゲットの枠はなく、リンク先のファイルが全体アーカイブデータのなかに保存されていれば表示されます。リンク先のページは、Wayback Machineの場合、保存しているなかで一番近い日付のページが表示されます。

インターネットアーカイブで収集された国立国会図書館の2012年6月28日時点のページからリンクをクリックすると、2012年7月1日時点のページに遷移する。

Wayback Machineの画面遷移

保存したサイトの見せ方においては、ウェブサイトをかたまりとして見るかどうかが、ターゲット単位とページ単位の大きな違いと言えるでしょう。保存日を固定して見せるかどうかは選択事項ですので、システム要件などを考慮して決定します。

収集の効率性

収集ロボットを使用してウェブサイトをクロールする際、同時に走行できる収集ロボットの数(プロセス数)はシステム規模に応じて限りがあります。そのため、1プロセスで複数のURLをまとめて収集すると、より効率よく収集することができます。収集単位を設定する際には、こうした効率性の観点も必要です。

WARPは、ウェブサイトを発信している機関ごとに複数のURLを設定しています。例えば、総務省の場合、総務省のメインサイト(http://www.soumu.go.jp/)のほか、統計局(http://www.stat.go.jp/)、電子政府の総合窓口(http://www.e-gov.go.jp/)を始め十数のURLが存在します。それらを起点(ウェブを収集するしくみ)に設定して、1プロセスで収集を行います。収集したファイルは全体をまとめて「総務省」として管理しています。

収集ロボット1号、2号、3号にそれぞれ総務省、内閣官房、国土交通省のウェブサイトを複数の起点URLから収集するように命令する

複数の起点URLをまとめて収集設定

ただし、起点として設定するURLの数が増えるほど1プロセスあたりの収集にかかる時間は長くなるため、プロセス数と起点URL数のバランスを考慮する必要があります。特にバルク収集や大規模な選択収集の場合には、収集する単位と効率性を総合的に勘案した上で収集スケジュールを立てることになります。

WARPでも、同時走行が可能なプロセス数、ターゲット単位での収集保存、公的機関サイトの網羅的収集などを所与条件とし、この条件下で最も効率よく収集ができるように収集スケジュールを設定しています。

(最終更新日:2014/10/1)

ページの先頭へ