robots.txt の書き方について

あまり聞きなれない言葉ですが、検索エンジンのクローラーを制限するためには「robots.txt」と呼ばれるファイルを使用します。サイトを運営している人でも、知らないことが多いマニアックな言葉ですね。

このファイルを作成すると、クローラーの動きを好きなように指定することができます。たとえば、検索エンジンに載せたくないページがあったら、クロールさせないように制限させたりすることが可能です。

作成途中のページやテストページなどを仮のURLにアップロードすることがありますが、それがインデックスされると本サイトで重複コンテンツになる可能性があります。そういった不都合を解消するために、robots.txt を使用します。

メタタグの noindex と併用することで、ページのインデックスを防ぎます。

⇒noindex を使って不要なページを整理する

 

robots.txt の必要性について

ページのインデックスを防ぐためなら、noindex だけでも十分に機能します。だから、無理に robots.txt を使う必要はありません。しかし、SEOの観点から考えると、robots.txt を使用した方が有利に働きます。

サイトの評価を高めるためには、クローラーの巡回頻度が大切です。つまり、多くのページがクロールされるほど、サイトの評価が高くなりやすいということですね。ただ、クローラーがサイトにやってきても、1度にクロールできるページ数は限られてしまいます。

その時に、無駄なページがクロールされてしまうと、本来クロールされるべきページを見逃してしまうわけです。だから、robots.txt で無駄なページをブロックすることで、有益なページだけをクロールさせなくてはいけません。

 

robots.txt の記述方法

一般的な robots.txt の記載方法は、以下のようになります。

User-Agent:*
Disallow:
 
Sitemap:http://○○.com/sitemap.xml

User-Agent とは、クローラーを指定するために使います。「*」とすることで、すべての検索エンジンのクローラーに適用されます。GoogleやYahoo!だけを指定するなら、以下のように記述しましょう。

  • Google ⇒ Googlebot
  • Yahoo ⇒ Slurp
  • Bing ⇒ bingbot
  • 百度 ⇒ baiduspider

 

サイト全体を拒否する

全てのクロールを拒否する場合は、以下のように記述します。

Disallow: /

 

特定のディレクトリを拒否する

以下のように記述すると、「abc」というディレクトリはクロール拒否することができます。

Disallow: /abc/

 

特定のページを拒否する

あるページだけを拒否したいなら、以下のようになります。

Disallow: /123.html

 

拒否したディレクトリ内の特定のページだけを許可する

下の場合だと、「abc」のディレクトリ全体のクロールを拒否するが、「/abc/123.html」だけはクロールしてくれます。

Disallow: /abc/
Allow: /abc/123.html

 

サイトマップXMLの記述

サイトマップXMLの場所を記述することで、検索エンジンにサイトマップをクロールしてもらうことができます。

Sitemap:http://○○.com/sitemap.xml

 

robots.txt のアップロード

テキストファイルを開いて、上を参考に記述してください。そして、「robots」という名前を付けて保存します。このファイルをアップロードするのは、ドメインのトップディレクトリとなります。

トップページと同じ場所に、robots.txt をアップロードしましょう。そうすれば、検索エンジンが見つけてくれるはずです。robots.txt は必須ではありませんが、クローラーに優しいサイトにするためには不可欠となります。

クロールの動きを指定することで、サイトの評価を高めることも可能なので、積極的に利用するようにしてください。

サブコンテンツ

このページの先頭へ