Pocket

wgetコマンドは、webサイトをクロールするためのコマンドです。よく使う3つの使い方、(1) webサイト全体をクロールする、(2) ディレクトリ以下をクロールする、(3) 1ページをクロールする、について説明します。

webサイト全体をクロールする

短時間で大量アクセスすると、ブロックされてしまうことがあるので、wait = 1 で、ダウンロード間隔を1秒にしています。ページ内のcssやjs、画像も1秒間隔でダウンロードするので、1ページあたり1分以上かかります。

ディレクトリ以下をクロールする

page_requisites = onで、ページ内の画像やcss、jsもクロールします。

page_requisites = offで、ページだけをクロールします。

1ページをクロールする

page_requisites = onで、ページ内の画像やcss、jsもクロールします。