wgetコマンドのよく使う3つの使い方

wgetコマンドは、webサイトをクロールするためのコマンドです。よく使う3つの使い方、(1) webサイト全体をクロールする、(2) ディレクトリ以下をクロールする、(3) 1ページをクロールする、について説明します。

webサイト全体をクロールする

短時間で大量アクセスすると、ブロックされてしまうことがあるので、wait = 1 で、ダウンロード間隔を1秒にしています。ページ内のcssやjs、画像も1秒間隔でダウンロードするので、1ページあたり1分以上かかります。

# wgetrc_site
mirror = on
page_requisites = on
timeout = 10
timestamping = on
tries = 2
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
wait = 1Code language: PHP (php)
$ wget --config=wgetrc_site https://example.jpCode language: JavaScript (javascript)

ディレクトリ以下をクロールする

page_requisites = onで、ページ内の画像やcss、jsもクロールします。

# wgetrc_dir_on
mirror = on
no_parent = on
page_requisites = on
timeout = 10
timestamping = on
tries = 2
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
wait = 1Code language: PHP (php)
$ wget --config=wgetrc_dir_on https://example.jp/xxx/Code language: JavaScript (javascript)

page_requisites = offで、ページだけをクロールします。

# wgetrc_dir_off
mirror = on
no_parent = on
page_requisites = off
timeout = 10
timestamping = on
tries = 2
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
wait = 1Code language: PHP (php)
$ wget --config=wgetrc_dir_off https://example.jp/xxx/Code language: JavaScript (javascript)

1ページをクロールする

page_requisites = onで、ページ内の画像やcss、jsもクロールします。

# wgetrc_page
page_requisites = on
timeout = 10
timestamping = on
tries = 2
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
Code language: PHP (php)
$ wget --config=wgetrc_page https://example.jp/xxx/yyy.htmlCode language: JavaScript (javascript)
タイトルとURLをコピーしました