ホーム > SEO > Search Console > robots.txt テスター の使い方
目次 | 元のページ 前のページ | 次のページ サイトマップ | ページEND

SEO対策 Google Search Console robots.txt テスター の使い方


Google Search Console robots.txt テスター の使い方



“robots.txt”とは、Google(Uahoo!を含む)等の検索エンジンに、クロール(検索エンジンの評価)して欲しい部分、インデックス(検索サイトに登録)して欲しい部分と、そうでない部分を伝えるためのファイルで、必ず、ファイル名を “robots.txt” にして、サイトのルートディレクトリに置く必要があります




「 robots.txt 」の確認方法



作成した「 robots.txt 」が正しく認識されているかどうかは、「Google Search Console」 にログイン後、「Google Search Console」の「クロール」カテゴリにある、「robots.txt テスター」を使用します



ホームページビルダー19 robots.txt の作り方 「robots.txt テスター」をクリックするとチェック結果が表示されます




robots.txt テスター」をクリックするとチェック結果が表示されます

この例では、
「エラー数: 0 警告数: 0」となっています
(結果表示画面下枠左の方の赤字、オレンジ字)
ホームページビルダー19 robots.txt の作り方 「 robots.txt 」が認識されるまで、時間が掛かる場合があります




「 robots.txt 」が認識されるまで、時間が掛かる場合があります

「 robots.txt 」が「見つかりません」エラーになった際は、結果表示画面右肩にある「公開済みの robots.txt を表示する」をクリックして、作成した「 robots.txt 」の内容が正しく表示されれば、後は、待つしかありません
ホームページビルダー19 robots.txt の作り方 結果表示画面下にある「URL がブロックされているかどうかをテストするには、URL を入力してください」蘭に、設定した相対パス(URL)を入力して、右にある「テスト」をクリックします




結果表示画面下にある「URL がブロックされているかどうかをテストするには、URL を入力してください」蘭に、設定した相対パス(URL)を入力して、右にある「テスト」をクリックします

この例では、「アクセスを拒否する」設定をしましたので、「ブロック済み」と表示されています

「ブロック済み」表示の上にある「送信」をクリックします
ホームページビルダー19 robots.txt の作り方 「Google に更新をリクエスト」も右にある「送信」をクリックします




「Google に更新をリクエスト」も右にある「送信」をクリックします
ホームページビルダー19 robots.txt の作り方 「送信しました。すぐにテスターページを再読み込みしてタイムスタンプを確認してください。」と表示されれば、完了です




「送信しました。すぐにテスターページを再読み込みしてタイムスタンプを確認してください。」と表示されます

再読み込み(F5キーを押下)して、戻った画面のテスト結果表示欄の上にある「最新バージョン」の日付、時刻を確認して完了です

最新バージョンが正常にクロールされたかどうかを確認するには、まずブラウザのページを更新してツールのエディタを更新し、公開中の robots.txt のコードを確認します。ページを更新した後、さらにテキスト エディタの上にあるプルダウンをクリックして、robots.txt ファイルの最新バージョンを Google のクローラが初めて読み込んだときのタイムスタンプを確認します。
Search Console ヘルプ 更新した robots.txt を Google に送信 」 より


※1..ホームページビルダー19を使用しての「 robots.txt  」 の作り方につきまして、「 robots.txt の作り方 」 でご紹介しています





robots.txt の使い方



クロールが不要な部分は、robots.txt に記述しておく



サブドメインを持つサイトで、ある特定のサブドメイン内のページをクロールさせないようにするには、そのサブドメイン用に、別の robots.txt ファイルを用意する必要があります


検索結果にコンテンツを表示させない方法は他にも、“NOINDEX”をrobotsメタタグに追加、.htaccessを使ってディレクトリにパスワードを設定、GoogleSearch Consoleを使ってすでにクロールされたコンテンツを削除するなどがあります


「Robots Exclusion Standard」に準拠している検索エンジンのロボット全てに対し、「 /image/ 」 以下にあるコンテンツ、及び、「 /search 」 で始まるURLにあるコンテンツに、アクセスもクロールもさせない場合の記述例

Google等の検索エンジンのロボット全てに対して指定する場合、「 User-agent: * 」 指定します

User-agent: *
Disallow: /image/
Disallow: /search



どのようなシチュエーションで、robots.txt を使用するか



見られたくないコンテンツにはより安全な方法を使用します


機密事項や見られたくないコンテンツがクロールされないようにするには、robots.txtの設置だけでは十分ではありません

クロールできないように設定したURLであっても、そのURLへのリンクがインターネット上のどこか(例えばリファラーログなど)に存在すれば、検索エンジンはそのURLを参照できますし、また、Robots Exclusion Standardに準拠しない検索エンジンや不正な検索エンジンなどは、robots.txtの指示に従わないかもしれません

また、好奇心の強いユーザーの中には、robots.txt にあるディレクトリやサブディレクトリを見て、見られたくないコンテンツのURLを推測して見ようとする人がいるかもしれません

コンテンツの暗号化や.htaccessを使ってパスワードをかけて保護する方が、より確実で安全な手段だといえます


検索結果のようなページはクロールさせない


検索結果のページから、さほど価値が変わらない別の検索結果のページへ飛んでも、ユーザーの利便性を損なうだけです


同一か、ほとんど違いがない自動生成されたページを大量にクロールさせない


「重複コンテンツに近いこページは、個別にインデックスされる必要があるか検討しましょう
また、プロキシサービスによって生成されたURLはクロールさせないようにします




robots.txt の記述の仕方



robots.txt  書式



field:value#comment

field 設定値 value 設定値 #comment 設定値
User-Agent
(半角スペース)
* 等 # + 任意のコメント文
Disallow
Allow
Sitemap
URLパス


行頭と行末の空白、および、「 # 」 以降は、行末までコメントとして無視されます
「 User-agent 」 以下が1つのグループとしてまとめられ、「 User-agent 」 以下に記述された 「 Disallow 」 と 「 Allow 」 はそのグループ( User-agent  )に対して適用されます
「 Sitemap 」でURLパスを記述することで、XMLサイトマップの場所を指示できます



robots.txt  記述例



User-Agent:*
Disallow:/fc2/FC2_010500.html
Disallow:/html/3100_SBI_Stock_Rental.html
Sitemap: http://example.com/sitemap.xml



robots.txt  パスの記述方法



記述 適用されるパス 説明
/ / すべてのパス
/a
/b.html
/* / すべてのパス
/a
/b.html
/aa /aa /aaから始まる、すべてのパス
/aabb.html
/aa/c.html
/aa* /aa /aaから始まる、すべてのパス
/aabb.html
/aa/c.html
/aa/ /aa/ /aa/から始まる、すべてのパスで、/aa/フォルダ以下に配置された、すべてのファイルに効果がおよびます
/aa/c.html
/aa/dd/e.php
/*.php /aa.phpbb.html .phpに部分一致するすべてのパス
パス文字列中一部でも一致する文字列が含まれていると影響が及びます
/*.php$ /aa.php 末尾が.phpとなっているパスのみに影響し、「.php?a=b 」 のようにパラメータが付加されているパスには効果がおよびません



Google クローラ (Googlebot) への有効な指示



記述 意味
Disallow: / サイト全体へのアクセスをブロック
Disallow: /directory1/ 特定のディレクトリ以下へのアクセスをブロック
Disallow: /directory1/directory2/
Disallow: /private_file.html 特定のページへのアクセスをブロック
User-agent: Googlebot-Image
Disallow: /
Google検索からの、すべての画像へのアクセスをブロック
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
Google検索からの、特定の画像へのアクセスをブロック
User-agent: Googlebot
Disallow: /*.gif$
特定の拡張子のファイルへのアクセスをブロック
User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
AdSenseのクローラ以外からのアクセスをブロック




Google Search Console Google AdSense 等 Googleで使用、表示される日時について


Google Search Console Google AdSense 等 Googleで使用、表示される日時は、Google アメリカ本社のある「アメリカ合衆国 カリフォルニア州 マウンテンビューアンフィシアターパークウェイ1600番」の時間である「ロサンゼルス時間」(タイムゾーンの名称 「アメリカ合衆国 太平洋時間」)になっています
日本との時差は、「-16」で、日本の方が、16時間進んでいます (日本で日付が変わっても、現地で日付が変わるのは 16 時間後です)

日本時間に置き換えたい時は、Google Search Console で表示される日時に、16 時間足すことにより求められます
例えば、、Google Search Consoleでの表示時間、「2014.4.27 0:00」 は、日本時間、「2014.4.27 16:00」のことになります

目次 | 元のページ 前のページ | 次のページ サイトマップ | ページTOP
ホーム > SEO > Search Console > robots.txt テスター の使い方
   

© 2014 abhp.net All Rights Reserved.

関連情報サイト


 Search Console ヘルプ robots.txt テスターで robots.txt をテストする
 Search Console ヘルプ 更新した robots.txt を Google に送信
 robots.txtの記述方法
 ホームページビルダーで「robots.txt」設定!内部SEO

コンテンツ一覧

ページTOP
ページTOP
ページTOP
ページTOP