クローラーって何?→インターネットの世界を歩き回っているロボットです!

みなさん、こんにちは!

ブリュの公式ブログ.netにお越しいただきまして、ありがとうございます。

このサイトでは、ITについて特化したサイトを運営しています。

今回は、サイト運営においてよく出てくる「クローラー」について説明します。

スポンサーリンク

クローラーはインターネットの世界を歩き回っているロボット

クローラーは、インターネットの世界を歩き回っているロボットです。

基本的には、リンクをたどっていくことで新しいサイトを発見し、そのサイトのリンクをたどり新しいサイトを見つけることで、インターネットの世界を隅から隅まで歩き回っています。

有名なクローラー

クローラーの中で有名で動きが活発なのが、Googleクローラーとインターネットアーカイブのクローラーでしょう。

Googleは、検索エンジン最大手のGoogleのことです。

検索エンジンの品質向上のために利用しています。

インターネットアーカイブは、世界中のウェブサイトのスナップショットを取得しているサービスです。

では、それぞれのクローラーについて、詳細を見ていきましょう。

Googleクローラーの役割

一番有名なのが、Googleのクローラーでしょう。

Googleクローラーは、Googleボットと呼ばれたりもします。

役割は大きくわけて2つあります。

一つ目は、検索品質の向上のためです。

先にも書いたように、リンクをたどることでインターネットの隅々までを歩き回っているロボットです。

Googleクローラーの大きな特徴として、同じページにも何度もアクセスしてくることです。

これは、Googleが検索結果に表示しているサイトが、今現在も存在しているのかを確認するためです。

Google検索を行ったときに検索結果に出てきたサイトを開くと「お探しのページが見つかりませんでした。」となるとがっかりしますよね。

これを防ぐために、今この瞬間もGoogleクローラーはインターネットの世界を歩き回っています。

もしも、以前は存在していたページが消えていれば、Googleのでインデックスから削除します。

このように、検索結果の品質を保つのが、一つ目の役割です。

2つ目は新しいサイトの発見とランキング決定です。

Googleクローラーは、新しいサイトやページ、更新を確認した場合には、その内容をGoogle本体で評価するために持ち帰ったりもします。

その時に被リンクの情報なども持って帰るのです。

これで、Google本体に、ランキングに必要な情報を集めています。

そんな感じで、検索制度や品質向上のために毎日毎日休むことなく動き回っています。

なお、現在のYahoo!は、Googleのシステムを使っています。

したがって、Yahoo!で検索した場合にはYahoo!のサービス(Yahoo!知恵袋やYahoo!ブログ)が上位表示されやすいですが、基本的な順位は変わりません。

サイト運営において、Yahoo!を危険性にする必要はありません。

インターネット・アーカイブの役割

インターネットアーカイブもクローラーを巡回させています。

インターネットアーカイブは、世界中のウェブサイトのデーターを収集している会社です。

そのサイトの過去の状態を収集し、データーとして集めています。

これで何をしたいのかは分かりませんが、そんなサービスです。

なお、ドメインを取得するときに、過去に誰かが取得していた中古ドメインかを調べるのに役立ちます。

もしもアーカイブに登録されたくないなら、robot.txtに次のように書いてドメイン直下にアップロードすると、ブロックすることができます。

なお、今後はrobot.txtの存在を無視するなんて言い出しているうわさも聞きます。

インターネットアーカイブが、世界中のサイトを保存したいらしいです。

悪意を持ったクローラーも存在する

クローラーの中には、悪意を持ったクローラーもあります。

一番有名なのが、メールアドレスの取得でしょう。

クローラーが巡回し、メールアドレスを発見すると収集していき、迷惑メールを送ってきます。

そのため、メールアドレスの「@」を「★」に変更しているのはそのためです。

もしも、ご自身のウェブサイト上でメールアドレスをそのまま公開しているなら、何かしらの対策をすることをおすすめします。

なお、クローラーはrobot.txtでブロックすることができますが、それは常識のあるクローラーだけです。

悪意を持ったクローラーは、robot.txtなんか気にせず、ズケズケとサイト内を徘徊していきます。

クローラーのまとめ

ここまで、クローラーについて説明してきました。

サイトを運営していくうえで、基本的に気にするべきはGoogleクローラーです。

インターネットアーカイブはrobot.txtでブロックできますし、そもそもスナップショットを取られたところでン何かあるわけではありません。

悪意を持ったクローラーの場合には、メールアドレスの対策をすればそれ以上の悪さはできないでしょう。

悪意を持ったクローラーの影響で、たとえサイトをコピーされても、Googleの検索結果ではオリジナルのほうを上位表示し、コピーサイトはインデックスから削除されます。

したがって、コピーによる被害は限りなく小さいと考えていいでしょう。

以上、サイト運営の参考になれば幸いです。