トップ > ウェブアーカイブのしくみ(おすすめコンテンツ) > 3. ウェブを収集するしくみ

3. ウェブを収集するしくみ

ウェブアーカイブでは収集ロボット(クローラ)と呼ばれる自動プログラムを用いて、ウェブサイトを収集します。

収集ロボットによる収集

収集ロボットは、最初にスタート地点となるウェブページ(起点URL)にアクセスをします。そして、そのページのhtmlファイルを収集すると同時に、htmlファイル内のソースを解析して文書、画像、音声、動画、スタイルシートなどのファイルを収集します。さらにそこからリンクしているページに移動して、同様の処理を繰り返し行います。

このようにリンクをたどりながらページを移動し続け、新たなリンク先がなくなるまで処理を続けます(収集ロボット Heritrix)。

収集ロボットによるウェブサイト収集のイメージ

収集ロボットによるウェブサイト収集のイメージ

ウェブページのつくり

ウェブページは、一見するとページが1枚だけあるように見えますが、実際にはhtmlファイルや画像ファイル、スタイルシート、スクリプトファイルなど、多数のファイルが組み合わさって構成されています。

例えば、2014年9月17日時点の国立国会図書館のトップページは以下のように、1つのhtmlファイル、5つのCSSファイル、8つのJavaScriptファイル、61の画像ファイル、合計75のファイルから構成されています。

収集ロボットがこれら全てのファイルを漏れなく収集することで、ウェブページをオリジナルと同じように再現することができるのです。

2014年9月17日時点の国立国会図書館のトップページ

国立国会図書館のトップページ(2014年9月17日時点)

ファイルのURL ファイルの種類
http://www.ndl.go.jp/ htmlファイル
http://www.ndl.go.jp/common/css/common.css CSSファイル
http://www.ndl.go.jp/common/css/noscript.css
http://www.ndl.go.jp/common/css/re_print.css
http://www.ndl.go.jp/common/css/re_top.css
http://www.ndl.go.jp/common/css/search.css
http://www.ndl.go.jp/common/js/calendar.js JavaScriptファイル
http://www.ndl.go.jp/common/js/calendar_holiday.js
http://www.ndl.go.jp/common/js/calendar_summary.js
http://www.ndl.go.jp/common/js/func.js
http://www.ndl.go.jp/common/js/ndlsearch-inside.js
http://www.ndl.go.jp/common/js/search.js
http://www.ndl.go.jp/common/js/tab_change.js
http://www.ndl.go.jp/urchin.js
http://www.ndl.go.jp/common/images/banner_archive.png 画像ファイル
http://www.ndl.go.jp/common/images/banner_ca.gif
http://www.ndl.go.jp/common/images/banner_digi.gif
http://www.ndl.go.jp/common/images/banner_hourei.gif
http://www.ndl.go.jp/common/images/banner_jikocho.gif
http://www.ndl.go.jp/common/images/banner_kaigiroku.gif
http://www.ndl.go.jp/common/images/banner_kindai.gif
http://www.ndl.go.jp/common/images/banner_ndl_opac.gif
http://www.ndl.go.jp/common/images/banner_reference.gif
http://www.ndl.go.jp/common/images/banner_research.gif
http://www.ndl.go.jp/common/images/bg_header.jpg
http://www.ndl.go.jp/common/images/bg_header_l.jpg
http://www.ndl.go.jp/common/images/bg_r_search.gif
http://www.ndl.go.jp/common/images/bg_title_top.gif
http://www.ndl.go.jp/common/images/bnr_kids.jpg
http://www.ndl.go.jp/common/images/bt_event_off.gif
http://www.ndl.go.jp/common/images/bt_issue_off.gif
http://www.ndl.go.jp/common/images/bt_news_off.gif
http://www.ndl.go.jp/common/images/bt_press_off.gif
http://www.ndl.go.jp/common/images/bt_pulldown.gif
http://www.ndl.go.jp/common/images/bt_recruit_off.gif
http://www.ndl.go.jp/common/images/bt_search-b_off.gif
http://www.ndl.go.jp/common/images/bt_search-b2_off.gif
http://www.ndl.go.jp/common/images/copyright_bg.gif
http://www.ndl.go.jp/common/images/footer_bg.gif
http://www.ndl.go.jp/common/images/ico_arrow.gif
http://www.ndl.go.jp/common/images/ico_arrow_c.gif
http://www.ndl.go.jp/common/images/ico_arrow_down.gif
http://www.ndl.go.jp/common/images/ico_etc.gif
http://www.ndl.go.jp/common/images/ico_event.gif
http://www.ndl.go.jp/common/images/ico_home.gif
http://www.ndl.go.jp/common/images/ico_issue.gif
http://www.ndl.go.jp/common/images/ico_news.gif
http://www.ndl.go.jp/common/images/ico_point.gif
http://www.ndl.go.jp/common/images/ico_recruit.gif
http://www.ndl.go.jp/common/images/ico_rss.gif
http://www.ndl.go.jp/common/images/ico_stop.gif
http://www.ndl.go.jp/common/images/logo.jpg
http://www.ndl.go.jp/common/images/menu1-01_off.jpg
http://www.ndl.go.jp/common/images/menu1-02_off.jpg
http://www.ndl.go.jp/common/images/menu1-03_off.jpg
http://www.ndl.go.jp/common/images/menu1-04_off.jpg
http://www.ndl.go.jp/common/images/menu1-05_off.jpg
http://www.ndl.go.jp/common/images/menu1-06_off.jpg
http://www.ndl.go.jp/common/images/menu1-07_off.jpg
http://www.ndl.go.jp/common/images/menu1-title.jpg
http://www.ndl.go.jp/common/images/menu2-01_off.jpg
http://www.ndl.go.jp/common/images/menu2-02_off.jpg
http://www.ndl.go.jp/common/images/menu2-03_off.jpg
http://www.ndl.go.jp/common/images/menu2-04_off.jpg
http://www.ndl.go.jp/common/images/menu2-05_off.jpg
http://www.ndl.go.jp/common/images/menu2-06_off.jpg
http://www.ndl.go.jp/common/images/menu2-title.jpg
http://www.ndl.go.jp/common/images/tab_top_off.gif
http://www.ndl.go.jp/common/images/tab_top_on.gif
http://www.ndl.go.jp/common/images/title_ndl-opac.jpg
http://www.ndl.go.jp/common/images/top_title1.gif
http://www.ndl.go.jp/common/images/top_title2.gif
http://www.ndl.go.jp/jp/spot/__icsFiles/thumbnail/2014/06/16/spot_survey.gif
http://www.ndl.go.jp/jp/spot/__icsFiles/thumbnail/2014/07/03/spot_space.jpg
http://www.ndl.go.jp/jp/spot/__icsFiles/thumbnail/2014/07/14/spot_forum.jpg

(最終更新日:2014/10/1)

ページの先頭へ

Copyright © 2013- National Diet Library. All Rights Reserved.