robots.txt 書き方　簡単便利な使い方　-　ネットワークサービス

robots.txt の記述の仕方

「 robots.txt 」では、「 User-Agent 」（ユーザーエージェント、ロボットアクセス）に対し、「 Disallow 」、または、「 Allow 」を指定することにより、特定の、または、全てのユーザーエージェントに対し、特定の、または、全てのサイトページへのアクセスを、禁止、または、許可します

robots.txt 　書式

field 設定値	区切り	value 設定値	#comment コメント
User-Agent	: （半角コロン）	* （全てのロボットアクセス）特定のユーザーエージェント（ロボット）名	# + 任意のコメント文
Disallow Allow Sitemap	: （半角コロン）	URLパス	# + 任意のコメント文

行頭と行末の空白、および、「 # 」以降は行末まで、コメントとして無視されます
「 User-Agent 」以下が１つのグループとしてまとめられ、「 User-Agent 」以下に記述された「 Disallow 」と「 Allow 」はそのグループ（ User-Agent ）に対して適用されます
「 Sitemap 」でURLパスを記述することで、XMLサイトマップの場所を指示できます

robots.txt 　記述例

User-Agent:*
Disallow:/fc2/FC2_010500.html
Disallow:/html/3100_SBI_Stock_Rental.html
Sitemap: https://example.com/sitemap.xml

robots.txt 　パスの記述方法

記述	適用されるパス	説明
/	/	すべてのパス
	/a
	/b.html
/*	/	すべてのパス
	/a
	/b.html
/aa	/aa	/aaから始まる、すべてのパス
	/aabb.html
	/aa/c.html
/aa*	/aa	/aaから始まる、すべてのパス
	/aabb.html
	/aa/c.html
/aa/	/aa/	/aa/から始まる、すべてのパスで、/aa/フォルダ以下に配置された、すべてのファイルに効果がおよびます
	/aa/c.html
	/aa/dd/e.php
/*.php	/aa.phpbb.html	.phpに部分一致するすべてのパスパス文字列中一部でも一致する文字列が含まれていると影響が及びます
/*.php$	/aa.php	末尾が.phpとなっているパスのみに影響し、「.php?a=b 」のようにパラメータが付加されているパスには効果がおよびません

Google クローラ（Googlebot）への有効な指示

記述	意味
Disallow: /	サイト全体へのアクセスをブロック
Disallow: /directory1/	特定のディレクトリ以下へのアクセスをブロック
Disallow: /directory1/directory2/	特定のディレクトリ以下へのアクセスをブロック
Disallow: /private_file.html	特定のページへのアクセスをブロック
User-Agent: Googlebot-Image Disallow: /	Google検索からの、すべての画像へのアクセスをブロック
User-Agent: Googlebot-Image Disallow: /images/dogs.jpg	Google検索からの、特定の画像へのアクセスをブロック
User-Agent: Googlebot Disallow: /*.gif$	特定の拡張子のファイルへのアクセスをブロック
User-Agent: * Disallow: / User-Agent: Mediapartners-Google Allow: /	AdSenseのクローラ以外からのアクセスをブロック

robots.txt の書き方用途

「 robots.txt 」とは、Google（Uahoo!を含む）等の検索エンジンに、クロール（検索エンジンの評価）して欲しい部分、インデックス（検索サイトに登録）して欲しい部分と、そうでない部分を伝えるためのファイルで、必ず、ファイル名を「 robots.txt 」にして、サイトのルートディレクトリに置く必要があります

クロールが不要な部分は、robots.txt に記述しておく

サブドメインを持つサイトで、ある特定のサブドメイン内のページをクロールさせないようにするには、そのサブドメイン用に、別の robots.txt ファイルを用意する必要があります

検索結果にコンテンツを表示させない方法は他にも、“NOINDEX”をrobotsメタタグに追加、.htaccessを使ってディレクトリにパスワードを設定、GoogleSearch Consoleを使ってすでにクロールされたコンテンツを削除するなどがあります

「Robots Exclusion Standard」に準拠している検索エンジンのロボット全てに対し、「 /image/ 」以下にあるコンテンツ、及び、「 /search 」で始まるURLにあるコンテンツに、アクセスもクロールもさせない場合の記述例

Google等の検索エンジンのロボット全てに対して指定する場合、「 User-Agent: * 」指定します

User-Agent: *
Disallow: /image/
Disallow: /search

どのようなシチュエーションで、robots.txt を使用するか

見られたくないコンテンツにはより安全な方法を使用します

機密事項や見られたくないコンテンツがクロールされないようにするには、robots.txtの設置だけでは十分ではありません

クロールできないように設定したURLであっても、そのURLへのリンクがインターネット上のどこか（例えばリファラーログなど）に存在すれば、検索エンジンはそのURLを参照できますし、また、Robots Exclusion Standardに準拠しない検索エンジンや不正な検索エンジンなどは、robots.txtの指示に従わないかもしれません

また、好奇心の強いユーザーの中には、robots.txt にあるディレクトリやサブディレクトリを見て、見られたくないコンテンツのURLを推測して見ようとする人がいるかもしれません

コンテンツの暗号化や.htaccessを使ってパスワードをかけて保護する方が、より確実で安全な手段だといえます

検索結果のようなページはクロールさせない

検索結果のページから、さほど価値が変わらない別の検索結果のページへ飛んでも、ユーザーの利便性を損なうだけです

同一か、ほとんど違いがない自動生成されたページを大量にクロールさせない

「重複コンテンツに近いこページは、個別にインデックスされる必要があるか検討しましょう
また、プロキシサービスによって生成されたURLはクロールさせないようにします

ホームページビルダー19を使用しての「 robots.txt 」の作り方につきましては、「 robots.txt の作り方」をご参照下さい　（別タブ（ウィンドウ）が開きます）


目次　｜　元のページ	前のページ　｜　次のページ	サイトマップ　｜　ページTOP

robots.txt 書き方 簡単 便利な使い方

robots.txt の記述の仕方

robots.txt 書式

robots.txt 記述例

robots.txt パスの記述方法

Google クローラ （Googlebot） への有効な指示

robots.txt の書き方 用途