2. ウェブアーカイブのライフサイクル| ウェブアーカイブのしくみ｜国立国会図書館インターネット資料収集保存事業

2. ウェブアーカイブのライフサイクル

ウェブアーカイブのライフサイクルは、「選定」、「収集」、「組織化」、「保存」、「公開」の5つの部分からなります。ウェブサイトに掲載されている情報は時間の経過とともに変化していきます。ウェブアーカイブでは、このサイクルを定期的に繰り返しながらウェブサイトの変化を記録していきます。

選定

対象となるウェブサイトを選定します。特定の主題にターゲットを絞ったものから、一国全体のウェブサイトを対象とするもの、世界中のウェブサイトを包括的に集めるものまで、その目的や実施機関の種類、規模によって様々です。大きく分けると選択収集とバルク収集の2種類があり、両者を組み合わせて行っているウェブアーカイブもあります。

選択収集

特定のウェブサイトにターゲットを絞って収集することを「選択収集（Selective Harvesting）」といいます。サイト単位やページ単位などの収集単位も指定します。小～中規模のウェブアーカイブの場合や、以下に紹介する「バルク収集」のための法律制度が無い場合などに採用される収集方法です。ウェブサイトにも著作権があるため、法律により著作権が制限されていない場合には、事前に発信者の許諾を得てから行う必要があります。

バルク収集

「バルク収集（Bulk Harvesting）」とは、「.fr」や「.de」などの国別ドメイン全体を対象にウェブサイトを大規模に収集することです。なかには世界全体のウェブサイトを収集対象とするインターネットアーカイブのような機関もあります。

一国全体を対象とするバルク収集の多くは、国立図書館などの公的機関が法律制度に基づいて行っています。法律によってウェブサイトの著作権を制限しているため、事前に発信者の許諾を得る必要はありません。国立国会図書館も2010年4月に施行された改正国立国会図書館法に基づいて、公的機関のウェブサイトを発信者の許諾を得ること無く収集を行っています（インターネット資料の収集-国立国会図書館法に基づく収集）。このように法律制度に基づいて行う収集は「制度収集」とも呼ばれます。

収集

対象となるウェブサイトを実際に収集します。収集ロボット（クローラ）と呼ばれる自動収集プログラムを用いて収集します。収集する頻度や収集する深さなども指定します。

組織化

集めたウェブサイトに対してタイトルや公開者などの情報を付与します。これらの情報はメタデータと呼ばれます。また、全文検索サービスを提供する場合にはインデクス処理を行います。

保存

収集したウェブサイトを電子書庫（ストレージ）に保存します。長期にわたって利用を保障できるように、ウェブアーカイブに適したファイルフォーマットで保存します。多くの機関でウェブアーカイブの保存用ファイルフォーマットであるWARC（Web ARChive）が採用されています。

公開

ウェブアーカイブの目的や事情に応じて公開の範囲は様々です。収集するだけで非公開（ダークアーカイブ）、学術研究など限られた目的に対してのみ公開や施設内でのみ公開（グレイアーカイブ）、インターネット上で公開（ホワイトアーカイブ）など色々な公開レベルがあります。

（最終更新日:2014/10/1）

1. ウェブアーカイブとは<< >> 3. ウェブを収集するしくみ

ページの先頭へ