2010年06月13日

検索エンジンのクローラーをブロックする方法

 検索エンジンに拾われない為、ロボットをブロックする方法。

 robots.txtへの記述、或いは、metaタグで簡単に指定可。





 rodots.txtでクローラーをブロックする方法。
 例えば、secretフォルダの中身にアクセスさせたくない場合。
User-Agent: *
Disallow: /secret/

 この場合、secretフォルダの機密性を推測され易くなる為、
User-Agent: *
Disallow: /sec

 の様に記述する事も出来る。
 但し、この場合、「sec」から始まるディレクトリやファイルも対象となる。
 尚、大文字/小文字は区別される。

robots.txtはクロールを防ぐだけで、SERPsへの反映を妨げるものではない事に注意。

 SERPsへの反映を妨げるには、
<meta name="robots" content="noindex" />

noindexで指定したWebページはrobots/txtでブロックしてはならない。
 また、SERPsに表示されないだけで、実際にはインデックスされている。


 noindexは実際にはインデックスされているのでリンクジュースを渡す。
 従って、PageRankの流出を防ぐには、
<meta name="robots" content="nofollow" />

 キャッシュを非表示にするには、
<meta name="robots" content="noarchive" />

 スニペットを表示したくなければ、
<meta name="robots" content="nosnippet" />

 尚、Yahoo!カテゴリに登録されたタイトル等を反映したくない場合、
<meta name="robots" content="noydir" />

 または、
<meta name="Slurp" content="noydir" />

Slurpは、YSTのクローラー。
 GoogleはGooglebot、BingはMSNBot。

 DMOZに登録されたタイトル等を反映したくない場合、
<meta name="robots" content="noodp" />


 ちなみに、robots.txtでブロックしたページがSERPsに表示される場合、GoogleではURLのみ表示される。
 完全にインデックスから削除したい場合、Googleウェブマスターツールやサイトエクスプローラー等ウェブマスター向け管理ツールで削除依頼する。

 全てに万能、と云う訳ではないので注意。


 それでは、アリーヴェデルチ♪


posted by EINS at 21:48 | Comment(0) | TrackBack(0) | 備忘録 | この記事をはてなブックマークに登録 | この記事をYahoo!ブックマークに登録 | この記事をBuzzurlに登録 | この記事をニフティクリップに登録 | この記事をlivedoorクリップに登録 | この記事をdel.icio.usに登録 | トピックイットに投稿する
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は180日以上新しい記事の投稿がないブログに表示されております。