HPB19 | HPB18 コンテンツ一覧
ホーム > HPB18 > ホームページビルダー18 robots.txt の作り方
目次 | 元のページ 前のページ | 次のページ サイトマップ | ページEND

ホームページビルダー18 robots.txt の作り方



ホームページビルダー18 robots.txt の作り方



“robots.txt”とは、Google(Uahoo!を含む)等の検索エンジンに、クロール(検索エンジンの評価)して欲しい部分、インデックス(検索サイトに登録)して欲しい部分と、そうでない部分を伝えるためのファイルで、必ず、ファイル名を “robots.txt” にして、サイトのルートディレクトリに置く必要があります

ホームページビルダー18で、robots.txt を作成する方法について、ご説明します



ホームページビルダー19 robots.txt の作り方 ホームページビルダー上端のメニューから、「サイト」 → 「アクセス向上」 → 「robots.txt の作成」をクリックします




ホームページビルダー上端のメニューから、「サイト」 → 「アクセス向上」 → 「robots.txt の作成」をクリックします
ホームページビルダー19 robots.txt の作り方 初めて作成する場合は、「新規作成する」にチェックが付いた状態のまま、「OK」をクリックします




初めて作成する場合は、「新規作成する」にチェックが付いた状態のまま、「OK」をクリックします
ホームページビルダー19 robots.txt の作り方 「参照」をクリックします




「参照」をクリックします
ホームページビルダー19 robots.txt の作り方 パソコン上のサイトを作成しているフォルダーを指定して、「OK」をクリックします




パソコン上のサイトを作成しているフォルダーを指定して、「OK」をクリックします
ホームページビルダー19 robots.txt の作り方 「追加」をクリックします




「追加」をクリックします
ホームページビルダー19 robots.txt の作り方 「追加」をクリックします




「追加」をクリックします
ホームページビルダー19 robots.txt の作り方 「検索エンジン」も右側にある「▼」をクリックします




「検索エンジン」も右側にある「▼」をクリックします
ホームページビルダー19 robots.txt の作り方 「検索エンジン」で「全て」を選択して、「OK」をクリックします




「検索エンジン」で「全て」を選択して、「OK」をクリックします
ホームページビルダー19 robots.txt の作り方 「検索エンジン」で「全て」が選択された状態です




「検索エンジン」で「全て」が選択された状態です

「検索ロボットの制御」の「制御項目」は、デフォルトで、「アクセス拒否ディレクトリ」になっていますので、必要に応じて変更します
ホームページビルダー19 robots.txt の作り方 下の方にある「ディレクトリ名(相対パス)」に、クローラーアクセスを制御したいフォルダー(ディレクトリ)、または、ファイル(ページ)名を相対パス(URL)指定で入力し、「追加」をクリックします




下の方にある「ディレクトリ名(相対パス)」に、クローラーアクセスを制御したいフォルダー(ディレクトリ)、または、ファイル(ページ)名を相対パス(URL)指定で入力し、「追加」をクリックします
ホームページビルダー19 robots.txt の作り方 この例では、ルートディレクトリ直下の「fc2」フォルダーに入っている「FC2_010500.html」ファイル(ページ)へのクロールアクセスを拒否しています




この例では、ルートディレクトリ直下の「fc2」フォルダーに入っている「FC2_010500.html」ファイル(ページ)へのクロールアクセスを拒否しています
ホームページビルダー19 robots.txt の作り方 制御したい項目が複数ある場合、続けて、「ディレクトリ名(相対パス)」に入力し、「追加」をクリックします




制御したい項目が複数ある場合、続けて、「ディレクトリ名(相対パス)」に入力し、「追加」をクリックします

この例では、ルートディレクトリ直下の「html」フォルダーに入っている「3100_SBI_Stock_Rental.htm」ファイル(ページ)へのクロールアクセス拒否を追加しています

全て入力し終えたら「OK」をクリックします
ホームページビルダー19 robots.txt の作り方 「OK」をクリックします




「OK」をクリックします
ホームページビルダー19 robots.txt の作り方 作成された「 robots.txt 」ファイルの中身 「閉じる」をクリックします
作成された「 robots.txt 」ファイルの中身
User-Agent:*
Disallow:/fc2/FC2_010500.html
Disallow:/html/3100_SBI_Stock_Rental.html






「 robots.txt 」の確認方法



作成した「 robots.txt 」が正しく認識されているかどうかは、「Google Search Console」※1 にログイン後、「Google Search Console」の「クロール」カテゴリにある、「robots.txt テスター」を使用します



ホームページビルダー19 robots.txt の作り方 「robots.txt テスター」をクリックするとチェック結果が表示されます




robots.txt テスター」をクリックするとチェック結果が表示されます

この例では、
「エラー数: 0 警告数: 0」となっています
(結果表示画面下枠左の方の赤字、オレンジ字)
ホームページビルダー19 robots.txt の作り方 「 robots.txt 」が認識されるまで、時間が掛かる場合があります




「 robots.txt 」が認識されるまで、時間が掛かる場合があります

「 robots.txt 」が「見つかりません」エラーになった際は、結果表示画面右肩にある「公開済みの robots.txt を表示する」をクリックして、作成した「 robots.txt 」の内容が正しく表示されれば、後は、待つしかありません
ホームページビルダー19 robots.txt の作り方 結果表示画面下にある「URL がブロックされているかどうかをテストするには、URL を入力してください」蘭に、設定した相対パス(URL)を入力して、右にある「テスト」をクリックします




結果表示画面下にある「URL がブロックされているかどうかをテストするには、URL を入力してください」蘭に、設定した相対パス(URL)を入力して、右にある「テスト」をクリックします

この例では、「アクセスを拒否する」設定をしましたので、「ブロック済み」と表示されています

「ブロック済み」表示の上にある「送信」をクリックします
ホームページビルダー19 robots.txt の作り方 「Google に更新をリクエスト」も右にある「送信」をクリックします




「Google に更新をリクエスト」も右にある「送信」をクリックします
ホームページビルダー19 robots.txt の作り方 「送信しました。すぐにテスターページを再読み込みしてタイムスタンプを確認してください。」と表示されれば、完了です




「送信しました。すぐにテスターページを再読み込みしてタイムスタンプを確認してください。」と表示されます

再読み込み(F5キーを押下)して、戻った画面のテスト結果表示欄の上にある「最新バージョン」の日付、時刻を確認して完了です

最新バージョンが正常にクロールされたかどうかを確認するには、まずブラウザのページを更新してツールのエディタを更新し、公開中の robots.txt のコードを確認します。ページを更新した後、さらにテキスト エディタの上にあるプルダウンをクリックして、robots.txt ファイルの最新バージョンを Google のクローラが初めて読み込んだときのタイムスタンプを確認します。
Search Console ヘルプ 更新した robots.txt を Google に送信 」 より


※1..Google Search Console の使い方、ログイン方法等につきましては、「 Google Search Console の使い方 」 をご参照下さい





robots.txt の使い方



クロールが不要な部分は、robots.txt に記述しておく



サブドメインを持つサイトで、ある特定のサブドメイン内のページをクロールさせないようにするには、そのサブドメイン用に、別の robots.txt ファイルを用意する必要があります


検索結果にコンテンツを表示させない方法は他にも、“NOINDEX”をrobotsメタタグに追加、.htaccessを使ってディレクトリにパスワードを設定、GoogleSearch Consoleを使ってすでにクロールされたコンテンツを削除するなどがあります


「Robots Exclusion Standard」に準拠している検索エンジンのロボット全てに対し、「 /image/ 」 以下にあるコンテンツ、及び、「 /search 」 で始まるURLにあるコンテンツに、アクセスもクロールもさせない場合の記述例

Google等の検索エンジンのロボット全てに対して指定する場合、「 User-agent: * 」 指定します

User-agent: *
Disallow: /image/
Disallow: /search



どのようなシチュエーションで、robots.txt を使用するか



見られたくないコンテンツにはより安全な方法を使用します


機密事項や見られたくないコンテンツがクロールされないようにするには、robots.txtの設置だけでは十分ではありません

クロールできないように設定したURLであっても、そのURLへのリンクがインターネット上のどこか(例えばリファラーログなど)に存在すれば、検索エンジンはそのURLを参照できますし、また、Robots Exclusion Standardに準拠しない検索エンジンや不正な検索エンジンなどは、robots.txtの指示に従わないかもしれません

また、好奇心の強いユーザーの中には、robots.txt にあるディレクトリやサブディレクトリを見て、見られたくないコンテンツのURLを推測して見ようとする人がいるかもしれません

コンテンツの暗号化や.htaccessを使ってパスワードをかけて保護する方が、より確実で安全な手段だといえます


検索結果のようなページはクロールさせない


検索結果のページから、さほど価値が変わらない別の検索結果のページへ飛んでも、ユーザーの利便性を損なうだけです


同一か、ほとんど違いがない自動生成されたページを大量にクロールさせない


「重複コンテンツに近いこページは、個別にインデックスされる必要があるか検討しましょう
また、プロキシサービスによって生成されたURLはクロールさせないようにします




robots.txt の記述の仕方



robots.txt  書式



field:value#comment

field 設定値 value 設定値 #comment 設定値
User-Agent
(半角スペース)
* 等 # + 任意のコメント文
Disallow
Allow
Sitemap
URLパス


行頭と行末の空白、および、「 # 」 以降は、行末までコメントとして無視されます
「 User-agent 」 以下が1つのグループとしてまとめられ、「 User-agent 」 以下に記述された 「 Disallow 」 と 「 Allow 」 はそのグループ( User-agent  )に対して適用されます
「 Sitemap 」でURLパスを記述することで、XMLサイトマップの場所を指示できます



robots.txt  記述例



User-Agent:*
Disallow:/fc2/FC2_010500.html
Disallow:/html/3100_SBI_Stock_Rental.html
Sitemap: http://example.com/sitemap.xml



robots.txt  パスの記述方法



記述 適用されるパス 説明
/ / すべてのパス
/a
/b.html
/* / すべてのパス
/a
/b.html
/aa /aa /aaから始まる、すべてのパス
/aabb.html
/aa/c.html
/aa* /aa /aaから始まる、すべてのパス
/aabb.html
/aa/c.html
/aa/ /aa/ /aa/から始まる、すべてのパスで、/aa/フォルダ以下に配置された、すべてのファイルに効果がおよびます
/aa/c.html
/aa/dd/e.php
/*.php /aa.phpbb.html .phpに部分一致するすべてのパス
パス文字列中一部でも一致する文字列が含まれていると影響が及びます
/*.php$ /aa.php 末尾が.phpとなっているパスのみに影響し、「.php?a=b 」 のようにパラメータが付加されているパスには効果がおよびません



Google クローラ (Googlebot) への有効な指示



記述 意味
Disallow: / サイト全体へのアクセスをブロック
Disallow: /directory1/ 特定のディレクトリ以下へのアクセスをブロック
Disallow: /directory1/directory2/
Disallow: /private_file.html 特定のページへのアクセスをブロック
User-agent: Googlebot-Image
Disallow: /
Google検索からの、すべての画像へのアクセスをブロック
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
Google検索からの、特定の画像へのアクセスをブロック
User-agent: Googlebot
Disallow: /*.gif$
特定の拡張子のファイルへのアクセスをブロック
User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
AdSenseのクローラ以外からのアクセスをブロック





Google Search Consoleで表示される日時

Google Search Consoleで表示される日時は、Google アメリカ本社のある「アメリカ合衆国 カリフォルニア州 マウンテンビューアンフィシアターパークウェイ1600番」の時間である 「アメリカ合衆国 太平洋時間」で表示されています
日本との時差は、「-16」です (日本で日付が変わっても、現地で日付が変わるのは 16 時間後です)

日本時間に置き換えるには、Google Search Consoleで表示される日時に、16 時間足すことにより求められます
例えば、、Google Search Consoleでの表示時間、「2014.4.27 0:00」 は、日本時間、「2014.4.27 16:00」のことになります




お断り  説明内容に支障のないところでは、ホームページビルダー19 のハードコピーが使われておりますこと、ご了承下さい

目次 | 元のページ 前のページ | 次のページ サイトマップ | ページTOP
ホーム > HPB18 > ホームページビルダー18 robots.txt の作り方
   

© 2014 abhp.net All Rights Reserved.
ページTOP
ページTOP
ページTOP
ページTOP
ページTOP
ページTOP