クローラーとは?
クローラー(Crawler)とは、インターネット上のWebサイトの情報(文書や画像など)を定期的に取得し、自動的にデータベースに登録するプログラムのことです。
単に「ロボット」、「検索ロボット」とも呼ばれます。Google・Yahoo!・Bing(Microsoftの検索エンジン)など、検索サイトの運営会社がそれぞれ運営してます。
クローラーの役割
クローラーは、検索エンジンがネット上の各サイトの内容を調べ、ランク付けする際などに使われています。
クローラーが収集した情報は、ラベルを付けてデータベースに登録され(=インデックス化)、検索サイトの検索結果に表示されます。
インターネットに公開したばかりのWEBページは、すぐには検索結果に表示されません。
クローラーによってデータベースに登録されることで、初めて検索エンジンの検索結果に表示されるようになります。
そのため、SEO対策として、クローラーが巡回してくれるように、サイトマップを送信したり、インデックス登録のリクエストをしたり、といった対策があります。
また、検索結果に表示させたくないページは、クローリングしないように設定することもできます。
クローラーが収集する情報
クローラーが取得する情報には、以下のようなものがあります。
- HTMLファイル
- テキストファイル
- CSSファイル
- JavaScriptファイル
- 画像ファイル
- PDFファイル