robots.txt 書き方 簡単 便利な使い方 |
robots.txt の記述の仕方「 robots.txt 」 では、「 User-Agent 」 (ユーザー エージェント、ロボットアクセス)に対し、「 Disallow 」、または、「 Allow 」 を指定することにより、特定の、または、全てのユーザー エージェントに対し、特定の、または、全てのサイトページへのアクセスを、禁止、または、許可します robots.txt 書式
行頭と行末の空白、および、「 # 」 以降は行末まで、コメントとして無視されます 「 User-Agent 」 以下が1つのグループとしてまとめられ、「 User-Agent 」 以下に記述された 「 Disallow 」 と 「 Allow 」 はそのグループ( User-Agent )に対して適用されます 「 Sitemap 」でURLパスを記述することで、XMLサイトマップの場所を指示できます robots.txt 記述例
robots.txt パスの記述方法
Google クローラ (Googlebot) への有効な指示
robots.txt の書き方 用途「 robots.txt 」 とは、Google(Uahoo!を含む)等の検索エンジンに、クロール(検索エンジンの評価)して欲しい部分、インデックス(検索サイトに登録)して欲しい部分と、そうでない部分を伝えるためのファイルで、必ず、ファイル名を 「 robots.txt 」 にして、サイトのルートディレクトリに置く必要があります クロールが不要な部分は、robots.txt に記述しておくサブドメインを持つサイトで、ある特定のサブドメイン内のページをクロールさせないようにするには、そのサブドメイン用に、別の robots.txt ファイルを用意する必要があります 検索結果にコンテンツを表示させない方法は他にも、“NOINDEX”をrobotsメタタグに追加、.htaccessを使ってディレクトリにパスワードを設定、GoogleSearch Consoleを使ってすでにクロールされたコンテンツを削除するなどがあります 「Robots Exclusion Standard」に準拠している検索エンジンのロボット全てに対し、「 /image/ 」 以下にあるコンテンツ、及び、「 /search 」 で始まるURLにあるコンテンツに、アクセスもクロールもさせない場合の記述例 Google等の検索エンジンのロボット全てに対して指定する場合、「 User-Agent: * 」 指定します
どのようなシチュエーションで、robots.txt を使用するか見られたくないコンテンツにはより安全な方法を使用します機密事項や見られたくないコンテンツがクロールされないようにするには、robots.txtの設置だけでは十分ではありません クロールできないように設定したURLであっても、そのURLへのリンクがインターネット上のどこか(例えばリファラーログなど)に存在すれば、検索エンジンはそのURLを参照できますし、また、Robots Exclusion Standardに準拠しない検索エンジンや不正な検索エンジンなどは、robots.txtの指示に従わないかもしれません また、好奇心の強いユーザーの中には、robots.txt にあるディレクトリやサブディレクトリを見て、見られたくないコンテンツのURLを推測して見ようとする人がいるかもしれません コンテンツの暗号化や.htaccessを使ってパスワードをかけて保護する方が、より確実で安全な手段だといえます 検索結果のようなページはクロールさせない検索結果のページから、さほど価値が変わらない別の検索結果のページへ飛んでも、ユーザーの利便性を損なうだけです 同一か、ほとんど違いがない自動生成されたページを大量にクロールさせない「重複コンテンツに近いこページは、個別にインデックスされる必要があるか検討しましょう また、プロキシサービスによって生成されたURLはクロールさせないようにします
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||