wgetコマンドのよく使う3つの使い方

wgetコマンドは、webサイトをクロールするためのコマンドです。よく使う3つの使い方、(1) webサイト全体をクロールする、(2) ディレクトリ以下をクロールする、(3) 1ページをクロールする、について説明します。

webサイト全体をクロールする

短時間で大量アクセスすると、ブロックされてしまうことがあるので、wait = 1 で、ダウンロード間隔を1秒にしています。ページ内のcssやjs、画像も1秒間隔でダウンロードするので、1ページあたり1分以上かかります。

# wgetrc_site mirror = on page_requisites = on timeout = 10 timestamping = on tries = 2 user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36" wait = 1
$ wget --config=wgetrc_site https://example.jp

ディレクトリ以下をクロールする

page_requisites = onで、ページ内の画像やcss、jsもクロールします。

# wgetrc_dir_on mirror = on no_parent = on page_requisites = on timeout = 10 timestamping = on tries = 2 user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36" wait = 1
$ wget --config=wgetrc_dir_on https://example.jp/xxx/

page_requisites = offで、ページだけをクロールします。

# wgetrc_dir_off mirror = on no_parent = on page_requisites = off timeout = 10 timestamping = on tries = 2 user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36" wait = 1
$ wget --config=wgetrc_dir_off https://example.jp/xxx/

1ページをクロールする

page_requisites = onで、ページ内の画像やcss、jsもクロールします。

# wgetrc_page page_requisites = on timeout = 10 timestamping = on tries = 2 user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
$ wget --config=wgetrc_page https://example.jp/xxx/yyy.html
タイトルとURLをコピーしました