ウェブサイトを管理していると、サイトで公開されているウェブページの中で公開したくないページが含まれる場合があります。
そんな場合には「robots.txt」ファイルを作成して、拒否内容を記述、
そしてサイトのルートディレクトリ「http://ドメイン/robots.txt」に設置することで処理できます。
以下、代表的なGoogle、Yahoo!の記述例です
すべての検索エンジンの巡回を拒否する場合
User-agent: *
Disallow: /
一部のディレクトリ(CSS)のみ拒否する場合
User-agent: *
Disallow: /css
Allow: /
検索エンジン毎に巡回を拒否する場合
Google(Googlebot・・Google のウェブ インデックスとニュース インデックス。)
Googlebot を完全にブロックするなら
User-agent: Googlebot
Disallow: /
Yahoo!検索エンジンのクローラーによるすべての巡回を拒否
User-agent: Slurp
Disallow: /