ホーム > ネット > 魚拓サービス (インターネットアーカイブ) 等 拒否方法
目次 | 元のページ 前のページ | 次のページ サイトマップ | ページEND

魚拓サービス (インターネットアーカイブ) 等 拒否方法


魚拓サービス (インターネットアーカイブ) クリックジャッキング 等 拒否方法



魚拓サービス (インターネットアーカイブ) クリックジャッキング (クリックジャック攻撃) 等 を拒否(回避)するには、「 robots.txt 」 ファイル、「 .htaccess 」ファイルそれぞれに下記指定を記述し、自サイトのルートディレクトリに配置しておきます


記述場所 記述内容 対応
robots.txt User-Agent:Megalodon
Disallow:/
ウェブ魚拓
.htaccess Header always append X-Frame-Options SAMEORIGIN クリックジャッキング
deny from 46.166.136.0/21
deny from 78.46.0.0/15
deny from 78.108.176.0/20
deny from 139.162.192.0/19
deny from 146.0.72.0/24
deny from 146.0.75.0/24
deny from 178.62.128.0/17
deny from 104.16.0.0/12
archive.is


それぞれの、設定内容の意味、詳細につきましては、下記をご参照下さい




「ウェブ魚拓」 魚拓(インターネットアーカイブ) 回避(拒否)方法



「ウェブ魚拓」は、日本の会社(株式会社アフィリティー (愛知県豊橋市 2005年6月28日設立))が運営しており、「 robots.txt 」 ファイルに書かれたサイトポリシーを考慮すると表明していますので、「 robots.txt 」 に下記のように書いておけば、魚拓をとられることを回避できます


記述場所 記述内容 説明
robots.txt User-Agent:Megalodon
Disallow:/
「 robots.txt 」 ファイルは、サイトのルートディレクトリに配置します
中身は、テキストエディタでテキスト文字列(左記「記述内容」)を記述しておきます



「ウェブ魚拓」のQ&A にもこのことは明記されています

キャッシュの取得を禁止するにはどうすればいいですか?


以下の3つの方法のどれかを行うことでキャッシュの取得を禁止できます。
(1) 以下のMETAタグをHEADタグ内に書く
<meta name="robots" content="noindex,nofollow">
(2) ルートディレクトリにrobots.txtを設置して、"Megalodon"が取得不可能なパスを指定する
なお、robots.txtはキャッシュしておりますので、変更が反映されるまで長くて3日かかります。
大変申し訳ありませんが、これらについての技術的な質問はお受けしておりません。
Q&A - ウェブ魚拓 」 より

筆者注.
 方法が 2つしか書かれていないのに、「以下の3つの方法」と書かれているのは、かつて、その下に、「(3) ウェブサイトオーナーとして削除依頼を行い、その際にキャッシュ禁止登録のチェックボックスをONにする」との記載がありましたが、2017年3月30日現在、その項目は削除されており、同項目を削除した際の修正漏れと思われます
 また、「(1) 以下のMETAタグをHEADタグ内に書く」方法は、「robots」アクセスそのものを禁じており、自分のサイト自体、GoogleやYahoo!など検索サイトにも表示されなくなってしまい、好ましい方法ではないのですが、そのような注意書きが無く、同社サポートの姿勢には、ちょっと首を傾げます



robots.txt の書き方 用途の詳細につきましては、「 robots.txt の書き方 簡単 便利な使い方 」 を
「ウェブ魚拓」 の詳細につきましては、「 魚拓サービス ウェブ魚拓 とは 」 をご参照下さい
(別タブ(ウィンドウ)が開きます)




クリックジャッキング (クリックジャック攻撃) <frame> <iframe> 表示 回避(拒否)方法



自分のサイトがクリックジャッキング (クリックジャック攻撃) に利用されないようにするには、他のサイトから自分のサイトページが <frame> (フレーム)、<iframe> (アイフレーム)で呼び出さないよう、「 .htaccess 」 ファイルで 「 X-Frame-Options 」 HTTPレスポンスヘッダーを設定する必要があります

クリックジャッキング (クリックジャック攻撃)については、「 クリックジャッキング (クリックジャック攻撃) とは 」 をご参照下さい (別ページが開きます)


「linkis.com」「toorbo.ir」 は、このような悪意ある攻撃ではないようですが、許可無く、また、明確な断り書きも無く、他人のサイトを自分のサイトのコンテンツであるかのように見せており、それは違うんでないかい・・・と言いたくなります

クリックジャッキング (クリックジャック攻撃) にしろ、「linkis.com」「toorbo.ir」にしろ、手法は、他人のサイトをフレーム(アイフレーム)として自分のページ内に取り込んでいますので、対策は同じく、下記のように、「 .htaccess 」 ファイルに、「 X-Frame-Options 」 HTTPレスポンスヘッダーを設定することで防げます


記述場所 記述内容 説明
.htaccess Header always append X-Frame-Options SAMEORIGIN 「 .htaccess 」 ファイルは、サイトのルートディレクトリに配置しておくと、配下のディレクトリにも効果がおよびます
中身は、テキストエディタでテキスト文字列(左記「記述内容」)を記述しておきます



HTTP レスポンスヘッダ(応答ヘッダ) 「 X-Frame-Options 」 パラメータ



「 X-Frame-Options 」 HTTP レスポンスヘッダ(応答ヘッダ)は、ブラウザがページを <frame> または <iframe> の内部に表示することを許可するかを指定することができます

サイトはこの 「 X-Frame-Options 」 HTTP レスポンスヘッダを、クリックジャッキング攻撃を防止するために使用することができ、自分のサイトのコンテンツが他のサイトに埋め込まれないと保証することになります


「 X-Frame-Options 」 パラメータには 3種類の値を設定でき、それぞれの指定方法、意味は下記になります

パラメータ 意味
SAMEORIGIN 元(取り込まれる側)のページが、別のサイトからフレーム表示される場合、元のページ内容は表示されません
DENY 元(取り込まれる側)のページが、別のサイト、及び、自分のサイトからであっても、一切、フレーム内では、元のページ内容は表示されません
ALLOW-FROM uri 指定された uri  ページに限り、元(取り込まれる側)のページが、フレーム内で表示されます


注.uri  は 1つしか指定できず、ドメインではなく、特定の 1ページにのみ許可する指定で、それぞれのページ毎に指定する必要があり、「 .htaccess 」 でまとめて設定するという使用方法はできないことに注意が必要です


注.ブラウザのバージョンによって、ChromeとFirefoxの場合は単に空白を表示、IEの場合はエラーメッセージが表示されますが、いずれにしても、元のページ内容は表示されません

「クリックジャッキング (クリックジャック攻撃)」 の詳細については、「 クリックジャッキング (クリックジャック攻撃) とは 」 を、
「toorbo.ir」 の詳細については、「 魚拓サービス toorbo.ir って何? 」 をご参照下さい (別ページが開きます)




HTTP レスポンスヘッダ(応答ヘッダ) Header ディレクティブ 設定方法



Header ディレクティブは HTTP 応答ヘッダを置換、追加、削除でき、HTTP レスポンスヘッダはコンテントハンドラや出力フィルタが実行された直後に実行され、 出て行くヘッダを変更できるようになっています

早期処理モードの場合以外では、 Header ディレクティブは応答がネットワークに送られる直前に 処理されます
これは、ヘッダフィルタにより追加されるヘッダを 除き、ほとんどのヘッダを設定したり上書きしたりすることが 可能、ということを意味します


Header ディレクティブ
説明 HTTP 応答ヘッダの設定
構文 Header [condition] set|append|add|unset|echo header [value] [early|env=[!]variable]
設定ファイル中のディレクティブの書式を示します
この構文はディレクティブ特有なので、詳細はディレクティブの説明を 参照してください
一般的に、ディレクティブ名の後には 空白により分割されたいくつかの引数が続きます
引数が空白を含むときは二重引用符 (訳注: ") で囲まれています
オプショナルな引数は括弧 (訳注: []) で囲まれています
引数が複数の値を取り得る場合は、それらの値は垂直の棒 "|" で 分割されています
変更されないテキストはデフォルトのフォントで表示され、置換の必要な 引数は強調されて表示されます
引数の数が変わるディレクティブは最後の 引数が繰り返されることを示すために "..." で終わります
[condition]
オプションである condition は onsuccess か always のどちらかを指定でき、内部ヘッダテーブルのどれを 操作するかを決定します
onsuccess は 2xx ステータスコードの、always は全てのステータスコード (2xx を含む) の意味になります
あるモジュールでセットされるヘッダをアンセットしたい場合は特に、 どのテーブルが影響を受けるかを実際に試したほうがよいでしょう
set|append|add|unset|echo
set 応答ヘッダを設定します。同じ名前のヘッダが存在する場合はそれを 置き換えます。value にはフォーマット文字列を 指定することもできます。
append 応答ヘッダを既に存在する同じ名前のヘッダに追加します。 新しい値が既存のヘッダに追加されるときには、既存のヘッダの 後にコンマで区切られて追加されます。これはヘッダに複数の値を 指定するときの HTTP の標準の方法です。
add ヘッダが既に存在しているときでさえも、応答ヘッダを 既存のヘッダに追加します。これにより、二つ (かそれ以上) の ヘッダの名前が同じになることがあります。その結果、想定できない ことが起こる可能性がありますので、一般的には append の方を 使う方が良いでしょう。
unset もし指定された名前の応答ヘッダが存在していれば、削除されます。 同じ名前のヘッダが複数あるときは、すべて削除されます。 value をつけてはいけません。
echo 指定されたものと同じ名前のリクエストヘッダを応答ヘッダで そのまま返します。header には正規表現も指定できます。 value をつけてはいけません。
header
ヘッダ (header) 名を指定します。 ヘッダ名には最後にコロンを含めることもできますが、無くても構いません。 set, append, add, unset では大文字小文字は 区別されません。echo の header 名は大文字小文字を区別し、 正規表現を指定することもできます。
[value]
add, append, set では value を引数として指定します。value に空白がある場合は二重引用符で 囲む必要があります。value は文字のみからなる文字列、 フォーマット指示子を含む文字列、もしくは両方からなる文字列を指定できます。 value は以下のフォーマット指示子をサポートします
フォーマット 解説
%% パーセント記号
%t リクエストを受け取った時刻を、 Universal Coordinated Time での始まりの時刻 (Jan. 1, 1970) から経過した 時間をマイクロ秒として現したもの。値の最初には t= が付加されます。
%D リクエストを受け取った時刻と、ヘッダを送り出した 時間との差。これは、リクエストが存在していた期間を現します。 値の最初には D= が付加されます。
%{FOOBAR}e 環境変数 FOOBAR の値です。
%{FOOBAR}s mod_ssl が有効な場合、 SSL 環境変数 FOOBAR の内容


注.%s フォーマット指定子は 2.1 以降でのみ利用できます。 SSLOptions +StdEnvVars を有効にすることによるオーバーヘッドを 避けるため、%e の代わりとして使えます。 他の理由などがあって、どうしても SSLOptions +StdEnvVars を有効にしなければならない場合は、%e のほうが %s よりも処理効率は良いです。

コンテキスト サーバ設定ファイル, バーチャルホスト, ディレクトリ, .htaccess
サーバの設定ファイル中のどこでディレクティブが有効なのかを示します
次に示す値が一つ以上カンマ区切りで列挙されています
「 .htaccess 」 は、ディレクトリ毎の .htaccess ファイル内で 使用可能であることを示しますが、上書き の設定によっては、処理されないかもしれません
上書き FileInfo
このディレクティブの属性は、.htaccess ファイル中に ディレクティブが現れたときに、それの処理を有効にするために どの設定の上書きが必要かを示します
ディレクティブの コンテキスト が、.htaccess ファイル中では許可していない場合は、 この属性は "適用不可" と書かれます
上書きは、AllowOverride ディレクティブによって有効にされ、 特定のスコープ(ディレクトリなど)と、 さらに下位のレベルの AllowOverride で修正されない限り、 その配下に対して適用されます
ディレクティブのドキュメントは取り得る上書きの名前も挙げます
ステータス Extension
ディレクティブが Apache ウェブサーバにどれくらいきつく組み込まれているかを 示します
言い換えれば、ディレクティブとその機能を利用するために、 モジュールの数を増やして、サーバを再コンパイルする必要があるかもしれない ということを示します
「 Extension 」 は、 Apache サーバの配布物に同梱されているモジュールの一つで提供されているものの、 通常ではサーバに組み込まれていないことを示します
ディレクティブとその機能を有効にするには、サーバビルド用の設定ファイルを 変更して Apache を再コンパイルする必要があります
モジュール mod_headers
ディレクティブが定義されているモジュールの名前を記載しています

Header ディレクティブには追加の引数を持たせることができ、どういったアクションが行われたかの条件を指定したり、早期処理 を指定する early キーワードを 指定できます
env=... 引数で指定された 環境変数 が存在する (もしくは env=!... が指定されていて環境変数が存在しない) 場合は、Header ディレクティブで指定された動作が行なわれます
そうでない場合は、 ディレクティブはそのリクエストには何もしません

ディレクティブ一覧 - Apache HTTP サーバ バージョン 2.4 」 より





「archive.is」 魚拓(インターネットアーカイブ) 回避(拒否)方法



「archive.is」 は、「 robots.txt 」 を考慮しませんので、「 .htaccess 」 ファイルで、「archive.is」 からのアクセス IP を拒否する必要があります

「archive.is」 からのアクセス IP 拒否記述は、下記のように、サブネットマスク(「/xx」の部分)を利用して、範囲指定で記述します


記述場所 記述内容 説明
.htaccess deny from 46.166.136.0/21
deny from 78.46.0.0/15
deny from 78.108.176.0/20
deny from 139.162.192.0/19
deny from 146.0.72.0/24
deny from 146.0.75.0/24
deny from 178.62.128.0/17
deny from 104.16.0.0/12
「 .htaccess 」 ファイルは、サイトのルートディレクトリに配置しておくと、配下のディレクトリにも効果がおよびます
中身は、テキストエディタでテキスト文字列(左記「記述内容」)を記述しておきます



「archive.is」 使用 アクセス IP



「archive.is」 が使用している最新のアクセス IP は、下記サイトにて調査、公開されています
最新情報、詳細情報は、下記サイトにてご確認下さい


archive.is サーバーIPアドレス一覧 « REIMA's Blog


2017年3月24日現在、下記が掲載されていました


更新日 開始IP 終了IP マスク 「 .htaccess 」ファイル記述
2016/04/22 46.166.136.0 46.166.143.255 /21 deny from 46.166.136.0/21
2016/07/31 78.46.0.0 78.47.255.255 /15 deny from 78.46.0.0/15
2016/05/19 78.108.176.0 78.108.191.255 /20 deny from 78.108.176.0/20
2016/06/24 139.162.192.0 139.162.223.255 /19 deny from 139.162.192.0/19
2016/09/30 146.0.72.0 146.0.72.255 /24 deny from 146.0.72.0/24
2016/04/22 146.0.75.0 146.0.75.255 /24 deny from 146.0.75.0/24
2016/04/22 178.62.128.0 178.62.255.255 /17 deny from 178.62.128.0/17
2016/06/24 104.16.0.0 104.31.255.255 /12 deny from 104.16.0.0/12



「開始IP」 「終了IP」 「マスク」 設定値 確認方法



下記サイトにて、「開始IP」と「マスク」を入力することにより、終了IP(IPの範囲)を求めることができ、「 archive.is サーバーIPアドレス一覧 « REIMA's Blog 」 での記載が、その点も考慮されていることが確認できます


サブネットマスク計算(IPv4)/サブネット一覧(早見表)



「archive.is」 の詳細につきましては、「 魚拓サービス archive.is とは 」 をご参照下さい (別ページが開きます)

目次 | 元のページ 前のページ | 次のページ サイトマップ | ページTOP
ホーム > ネット > 魚拓サービス (インターネットアーカイブ) 等 拒否方法
   

© 2014 abhp.net All Rights Reserved.

参考情報


archive.is に魚拓取られてイヤな思いをしている子はいねがー – やわなべ.net
株式会社アフィリティー (愛知県豊橋市 2005年6月28日設立)
Q&A - ウェブ魚拓
ウェブ魚拓を拒否する方法 ちほちゅう
linkisとかいう微妙サービス経由でシェアされるのをカドが立たないように回避する方法 – やわなべ.net
iframe内からWebページが読み込まれるのを防止する X-Frame-Options HTTP レスポンスヘッダ - buzzword update
X-Frame-Options レスポンスヘッダ - HTTP MDN
葉っぱ日記
X-Frame-Options検証01 - COMPUTER
mod_headers - Apache HTTP サーバ バージョン 2.4
ディレクティブ一覧 - Apache HTTP サーバ バージョン 2.4
archive.is サーバーIPアドレス一覧 « REIMA's Blog
サブネットマスク計算(IPv4)/サブネット一覧(早見表)
archive.is - Wikipedia
ウェブ魚拓 - Wikipedia

ページTOP
ページTOP
ページTOP
ページTOP