robots.txt の作り方　-　ホームページビルダー18 使い方

		ホームページビルダー18　robots.txt の作り方 “robots.txt”とは、Google（Uahoo!を含む）等の検索エンジンに、クロール（検索エンジンの評価）して欲しい部分、インデックス（検索サイトに登録）して欲しい部分と、そうでない部分を伝えるためのファイルで、必ず、ファイル名を “robots.txt” にして、サイトのルートディレクトリに置く必要がありますホームページビルダー18で、robots.txt を作成する方法について、ご説明します

		ホームページビルダー上端のメニューから、「サイト」 → 「アクセス向上」 → 「robots.txt の作成」をクリックします
		初めて作成する場合は、「新規作成する」にチェックが付いた状態のまま、「OK」をクリックします
		「参照」をクリックします
		パソコン上のサイトを作成しているフォルダーを指定して、「OK」をクリックします
		「追加」をクリックします
		「追加」をクリックします
		「検索エンジン」も右側にある「▼」をクリックします
		「検索エンジン」で「全て」を選択して、「OK」をクリックします
		「検索エンジン」で「全て」が選択された状態です「検索ロボットの制御」の「制御項目」は、デフォルトで、「アクセス拒否ディレクトリ」になっていますので、必要に応じて変更します
		下の方にある「ディレクトリ名（相対パス）」に、クローラーアクセスを制御したいフォルダー（ディレクトリ）、または、ファイル（ページ）名を相対パス（URL）指定で入力し、「追加」をクリックします
		この例では、ルートディレクトリ直下の「fc2」フォルダーに入っている「FC2_010500.html」ファイル（ページ）へのクロールアクセスを拒否しています
		制御したい項目が複数ある場合、続けて、「ディレクトリ名（相対パス）」に入力し、「追加」をクリックしますこの例では、ルートディレクトリ直下の「html」フォルダーに入っている「3100_SBI_Stock_Rental.htm」ファイル（ページ）へのクロールアクセス拒否を追加しています全て入力し終えたら「OK」をクリックします
		「OK」をクリックします

「 robots.txt 」の確認方法

作成した「 robots.txt 」が正しく認識されているかどうかは、「Google Search Console」※1 にログイン後、「Google Search Console」の「クロール」カテゴリにある、「robots.txt テスター」を使用します

ホームページビルダー19　robots.txt の作り方　「robots.txt テスター」をクリックするとチェック結果が表示されます

「robots.txt テスター」をクリックするとチェック結果が表示されます

この例では、
「エラー数: 0　警告数: 0」となっています
（結果表示画面下枠左の方の赤字、オレンジ字）

ホームページビルダー19　robots.txt の作り方　「 robots.txt 」が認識されるまで、時間が掛かる場合があります

「 robots.txt 」が認識されるまで、時間が掛かる場合があります

「 robots.txt 」が「見つかりません」エラーになった際は、結果表示画面右肩にある「公開済みの robots.txt を表示する」をクリックして、作成した「 robots.txt 」の内容が正しく表示されれば、後は、待つしかありません

ホームページビルダー19　robots.txt の作り方　結果表示画面下にある「URL がブロックされているかどうかをテストするには、URL を入力してください」蘭に、設定した相対パス（URL）を入力して、右にある「テスト」をクリックします

結果表示画面下にある「URL がブロックされているかどうかをテストするには、URL を入力してください」蘭に、設定した相対パス（URL）を入力して、右にある「テスト」をクリックします

この例では、「アクセスを拒否する」設定をしましたので、「ブロック済み」と表示されています

「ブロック済み」表示の上にある「送信」をクリックします

「Google に更新をリクエスト」も右にある「送信」をクリックします

ホームページビルダー19　robots.txt の作り方　「送信しました。すぐにテスターページを再読み込みしてタイムスタンプを確認してください。」と表示されれば、完了です

「送信しました。すぐにテスターページを再読み込みしてタイムスタンプを確認してください。」と表示されます

再読み込み（F5キーを押下）して、戻った画面のテスト結果表示欄の上にある「最新バージョン」の日付、時刻を確認して完了です

最新バージョンが正常にクロールされたかどうかを確認するには、まずブラウザのページを更新してツールのエディタを更新し、公開中の robots.txt のコードを確認します。ページを更新した後、さらにテキストエディタの上にあるプルダウンをクリックして、robots.txt ファイルの最新バージョンを Google のクローラが初めて読み込んだときのタイムスタンプを確認します。

「 Search Console ヘルプ　更新した robots.txt を Google に送信」より

※1.．Google Search Console の使い方、ログイン方法等につきましては、「 Google Search Console の使い方」をご参照下さい

robots.txt の使い方

クロールが不要な部分は、robots.txt に記述しておく

サブドメインを持つサイトで、ある特定のサブドメイン内のページをクロールさせないようにするには、そのサブドメイン用に、別の robots.txt ファイルを用意する必要があります

検索結果にコンテンツを表示させない方法は他にも、“NOINDEX”をrobotsメタタグに追加、.htaccessを使ってディレクトリにパスワードを設定、GoogleSearch Consoleを使ってすでにクロールされたコンテンツを削除するなどがあります

「Robots Exclusion Standard」に準拠している検索エンジンのロボット全てに対し、「 /image/ 」以下にあるコンテンツ、及び、「 /search 」で始まるURLにあるコンテンツに、アクセスもクロールもさせない場合の記述例

Google等の検索エンジンのロボット全てに対して指定する場合、「 User-agent: * 」指定します

User-agent: *
Disallow: /image/
Disallow: /search

どのようなシチュエーションで、robots.txt を使用するか

見られたくないコンテンツにはより安全な方法を使用します

機密事項や見られたくないコンテンツがクロールされないようにするには、robots.txtの設置だけでは十分ではありません

クロールできないように設定したURLであっても、そのURLへのリンクがインターネット上のどこか（例えばリファラーログなど）に存在すれば、検索エンジンはそのURLを参照できますし、また、Robots Exclusion Standardに準拠しない検索エンジンや不正な検索エンジンなどは、robots.txtの指示に従わないかもしれません

また、好奇心の強いユーザーの中には、robots.txt にあるディレクトリやサブディレクトリを見て、見られたくないコンテンツのURLを推測して見ようとする人がいるかもしれません

コンテンツの暗号化や.htaccessを使ってパスワードをかけて保護する方が、より確実で安全な手段だといえます

検索結果のようなページはクロールさせない

検索結果のページから、さほど価値が変わらない別の検索結果のページへ飛んでも、ユーザーの利便性を損なうだけです

同一か、ほとんど違いがない自動生成されたページを大量にクロールさせない

「重複コンテンツに近いこページは、個別にインデックスされる必要があるか検討しましょう
また、プロキシサービスによって生成されたURLはクロールさせないようにします

robots.txt の記述の仕方

robots.txt 　書式

field:value#comment

field 設定値		value 設定値	#comment 設定値
User-Agent	△ （半角スペース）	* 等	# + 任意のコメント文
Disallow Allow Sitemap	△ （半角スペース）	URLパス	# + 任意のコメント文

行頭と行末の空白、および、「 # 」以降は、行末までコメントとして無視されます
「 User-agent 」以下が１つのグループとしてまとめられ、「 User-agent 」以下に記述された「 Disallow 」と「 Allow 」はそのグループ（ User-agent ）に対して適用されます
「 Sitemap 」でURLパスを記述することで、XMLサイトマップの場所を指示できます

robots.txt 　記述例

User-Agent:*
Disallow:/fc2/FC2_010500.html
Disallow:/html/3100_SBI_Stock_Rental.html
Sitemap: https://example.com/sitemap.xml

robots.txt 　パスの記述方法

記述	適用されるパス	説明
/	/	すべてのパス
	/a
	/b.html
/*	/	すべてのパス
	/a
	/b.html
/aa	/aa	/aaから始まる、すべてのパス
	/aabb.html
	/aa/c.html
/aa*	/aa	/aaから始まる、すべてのパス
	/aabb.html
	/aa/c.html
/aa/	/aa/	/aa/から始まる、すべてのパスで、/aa/フォルダ以下に配置された、すべてのファイルに効果がおよびます
	/aa/c.html
	/aa/dd/e.php
/*.php	/aa.phpbb.html	.phpに部分一致するすべてのパスパス文字列中一部でも一致する文字列が含まれていると影響が及びます
/*.php$	/aa.php	末尾が.phpとなっているパスのみに影響し、「.php?a=b 」のようにパラメータが付加されているパスには効果がおよびません

Google クローラ (Googlebot) への有効な指示

記述	意味
Disallow: /	サイト全体へのアクセスをブロック
Disallow: /directory1/	特定のディレクトリ以下へのアクセスをブロック
Disallow: /directory1/directory2/	特定のディレクトリ以下へのアクセスをブロック
Disallow: /private_file.html	特定のページへのアクセスをブロック
User-agent: Googlebot-Image Disallow: /	Google検索からの、すべての画像へのアクセスをブロック
User-agent: Googlebot-Image Disallow: /images/dogs.jpg	Google検索からの、特定の画像へのアクセスをブロック
User-agent: Googlebot Disallow: /*.gif$	特定の拡張子のファイルへのアクセスをブロック
User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /	AdSenseのクローラ以外からのアクセスをブロック

Google Search Consoleで表示される日時

Google Search Consoleで表示される日時は、Google アメリカ本社のある「アメリカ合衆国カリフォルニア州マウンテンビューアンフィシアターパークウェイ1600番」の時間である「アメリカ合衆国太平洋時間」で表示されています
日本との時差は、「-16」です　（日本で日付が変わっても、現地で日付が変わるのは 16 時間後です）

日本時間に置き換えるには、Google Search Consoleで表示される日時に、16 時間足すことにより求められます
例えば、、Google Search Consoleでの表示時間、「2014.4.27 0:00」は、日本時間、「2014.4.27 16:00」のことになります


目次　｜　元のページ	前のページ　｜　次のページ	サイトマップ　｜　ページTOP

ホームページビルダー18 robots.txt の作り方