ホームページビルダー18 robots.txt の作り方 |
ホームページビルダー18 robots.txt の作り方“robots.txt”とは、Google(Uahoo!を含む)等の検索エンジンに、クロール(検索エンジンの評価)して欲しい部分、インデックス(検索サイトに登録)して欲しい部分と、そうでない部分を伝えるためのファイルで、必ず、ファイル名を “robots.txt” にして、サイトのルートディレクトリに置く必要があります ホームページビルダー18で、robots.txt を作成する方法について、ご説明します |
||
ホームページビルダー上端のメニューから、「サイト」 → 「アクセス向上」 → 「robots.txt の作成」をクリックします | ||
初めて作成する場合は、「新規作成する」にチェックが付いた状態のまま、「OK」をクリックします | ||
「参照」をクリックします | ||
パソコン上のサイトを作成しているフォルダーを指定して、「OK」をクリックします | ||
「追加」をクリックします | ||
「追加」をクリックします | ||
「検索エンジン」も右側にある「▼」をクリックします | ||
「検索エンジン」で「全て」を選択して、「OK」をクリックします | ||
「検索エンジン」で「全て」が選択された状態です 「検索ロボットの制御」の「制御項目」は、デフォルトで、「アクセス拒否ディレクトリ」になっていますので、必要に応じて変更します |
||
下の方にある「ディレクトリ名(相対パス)」に、クローラーアクセスを制御したいフォルダー(ディレクトリ)、または、ファイル(ページ)名を相対パス(URL)指定で入力し、「追加」をクリックします | ||
この例では、ルートディレクトリ直下の「fc2」フォルダーに入っている「FC2_010500.html」ファイル(ページ)へのクロールアクセスを拒否しています | ||
制御したい項目が複数ある場合、続けて、「ディレクトリ名(相対パス)」に入力し、「追加」をクリックします この例では、ルートディレクトリ直下の「html」フォルダーに入っている「3100_SBI_Stock_Rental.htm」ファイル(ページ)へのクロールアクセス拒否を追加しています 全て入力し終えたら「OK」をクリックします |
||
「OK」をクリックします |
「閉じる」をクリックします |
||
|
||
「 robots.txt 」の確認方法作成した「 robots.txt 」が正しく認識されているかどうかは、「Google Search Console」※1 にログイン後、「Google Search Console」の「クロール」カテゴリにある、「robots.txt テスター」を使用します |
|||
「robots.txt テスター」をクリックするとチェック結果が表示されます この例では、 「エラー数: 0 警告数: 0」となっています (結果表示画面下枠左の方の赤字、オレンジ字) |
|||
|
|||
結果表示画面下にある「URL がブロックされているかどうかをテストするには、URL を入力してください」蘭に、設定した相対パス(URL)を入力して、右にある「テスト」をクリックします この例では、「アクセスを拒否する」設定をしましたので、「ブロック済み」と表示されています 「ブロック済み」表示の上にある「送信」をクリックします |
|||
「Google に更新をリクエスト」も右にある「送信」をクリックします | |||
「送信しました。すぐにテスターページを再読み込みしてタイムスタンプを確認してください。」と表示されます 再読み込み(F5キーを押下)して、戻った画面のテスト結果表示欄の上にある「最新バージョン」の日付、時刻を確認して完了です |
|
robots.txt の使い方クロールが不要な部分は、robots.txt に記述しておくサブドメインを持つサイトで、ある特定のサブドメイン内のページをクロールさせないようにするには、そのサブドメイン用に、別の robots.txt ファイルを用意する必要があります 検索結果にコンテンツを表示させない方法は他にも、“NOINDEX”をrobotsメタタグに追加、.htaccessを使ってディレクトリにパスワードを設定、GoogleSearch Consoleを使ってすでにクロールされたコンテンツを削除するなどがあります 「Robots Exclusion Standard」に準拠している検索エンジンのロボット全てに対し、「 /image/ 」 以下にあるコンテンツ、及び、「 /search 」 で始まるURLにあるコンテンツに、アクセスもクロールもさせない場合の記述例 Google等の検索エンジンのロボット全てに対して指定する場合、「 User-agent: * 」 指定します
どのようなシチュエーションで、robots.txt を使用するか見られたくないコンテンツにはより安全な方法を使用します機密事項や見られたくないコンテンツがクロールされないようにするには、robots.txtの設置だけでは十分ではありません クロールできないように設定したURLであっても、そのURLへのリンクがインターネット上のどこか(例えばリファラーログなど)に存在すれば、検索エンジンはそのURLを参照できますし、また、Robots Exclusion Standardに準拠しない検索エンジンや不正な検索エンジンなどは、robots.txtの指示に従わないかもしれません また、好奇心の強いユーザーの中には、robots.txt にあるディレクトリやサブディレクトリを見て、見られたくないコンテンツのURLを推測して見ようとする人がいるかもしれません コンテンツの暗号化や.htaccessを使ってパスワードをかけて保護する方が、より確実で安全な手段だといえます 検索結果のようなページはクロールさせない検索結果のページから、さほど価値が変わらない別の検索結果のページへ飛んでも、ユーザーの利便性を損なうだけです 同一か、ほとんど違いがない自動生成されたページを大量にクロールさせない「重複コンテンツに近いこページは、個別にインデックスされる必要があるか検討しましょう また、プロキシサービスによって生成されたURLはクロールさせないようにします |
|
robots.txt の記述の仕方robots.txt 書式
行頭と行末の空白、および、「 # 」 以降は、行末までコメントとして無視されます 「 User-agent 」 以下が1つのグループとしてまとめられ、「 User-agent 」 以下に記述された 「 Disallow 」 と 「 Allow 」 はそのグループ( User-agent )に対して適用されます 「 Sitemap 」でURLパスを記述することで、XMLサイトマップの場所を指示できます robots.txt 記述例
robots.txt パスの記述方法
Google クローラ (Googlebot) への有効な指示
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|