ホーム > ネット > 魚拓サービス archive.is とは
目次 | 元のページ 前のページ | 次のページ サイトマップ | ページEND

魚拓サービス archive.is とは


魚拓サービス archive.is とは



archive.is は、WWW上のホームページ(ウェブページ)を別サイト(archive.fo等)に取得(コピー)、公開してくれる 無料のウェブアーカイブサービスで、公開されるページは、archive.fo等別サイトのページとして取り込まれます(URLも archive.fo 配下のページに変換されます)


archive.is は、WWW上のホームページ(ウェブページ)を別サイト(archive.fo等)に取得(コピー)、公開してくれる 無料のウェブアーカイブサービスで、公開されるページは、archive.fo等別サイトのページとして取り込まれます(URLも archive.fo 配下のページに変換されます)


URL https://archive.is/
使用言語 日本語、英語、フランス語、イタリア語、ドイツ語、スペイン語、ポルトガル語、朝鮮語、ロシア語、中国語、ポーランド語(インターフェース)
営利性 非営利 (寄付)
設立 2012年
ドメイン所有者 チェコ所在
is アイスランドのカントリードメイン



「 archive.is 」 の特徴



「 archive.is 」の特徴として、「 archive.is に魚拓取られてイヤな思いをしている子はいねがー – やわなべ.net 」 では、「キャッシュ拒否のサイトでも保存できる」、「一旦とった魚拓が削除されにくい」、サイトサービスとし、下記の検証結果が掲載されています (下記枠内そのまま引用紹介)


1. 画像ファイルはどのようにコピーされるのか?

サイトのコピーは「https://archive.is/XXXXXXX/」というURLで保存されますが、そこに貼っつけた画像も「https://archive.is/XXXXXXX/YYYYYYYYYY.jpg」といった別のファイル名で保存されるようでした。キャッシュはコピーした日時ごとに保存されるので、都合が悪くてあとで消した画像なんかがここに残ってたりすると、かなり厄介な感じです。

2. GoogleAnalyticsのスクリプトは丸コピされるのか?

ヘッダーにGoogleアナリティクスのアクセス解析のコードは書いたページをアーカイブさせたんですが、その部分はまるごと削除されてました。

自サイトのAnalyticsのアクセス解析が汚染されるということはないようですが、マイナーなアクセス解析なんかだと、スクリプト丸ごとコピーされる可能性はあるかも。

3. アドセンスのタグもそのままコピーされるのか?

同じように、Googleアドセンスの広告タグも入れてみたんですが、これもきれいに除去されてました。 キャッシュ先での規約違反によって、アドセンスを止められるといったリスクはないようです。

4. サイトURLの一意性を示す「canonical」タグは尊重されるのか?

canonical指定は、同じコンテンツ内容を返すページのURLが複数あるときに、「このURLがメインだよ」と、検索エンジンなどに教えるためのものです。
(参考)Google、ドメイン間の rel=”canonical” タグのサポート開始 | 海外SEO情報ブログ

具体的にはHTMLのヘッダー部分に、
<link rel="canonical" href="https://ywnb.net/p/201508/12345">
のように記述します。Wordpressだと勝手についてるんじゃないでしょうか。

で、魚拓サイトがコピーページによる、検索エンジンへの悪影響を配慮してくれるなら、コピー元のソースの「canonical」指定をそのまま記載して欲しいところなんですが….

<link rel="canonical" href="https://archive.is/XXXXXX/">

はい、アーカイブページのソースを見ると、せっかくつけたcanonical指定もタグも、アーカイブページのURLに差し替えられてしまってました。

悪意というよりは何も考えずに元ドメインのURLを全変換してるんでしょう。せめてここは改善してもらいたいなぁ。




実際にやってみた



筆者も、「 archive.is 」 にページがどのように取り込まれるのか、実際に試してみました

「 archive.is 」 トップページの赤枠内「記録したい URL を入れてボタンを押してください。」にURLをコピペして「ページを保存」をクリックしますと、入力された URL ページを解析しているような画面が 7~8秒(ページによっては、20秒くらい掛かることもあった)表示された後、アーカイブされた 「 https://archive.is/yyyy 」 ページが表示されました


元のページの URL は、「 https://xxx.xxx.xxx/xxx/xxxx 」 ですので、元の URL とは無関係に、全く新しい URL を生成しているようです

生成されたページの最上部には、アーカイブした日時とともに、「 https://xxx.xxx.xxx/xxx/xxxx 」 からアーカイブと示されていますが、その横の「検索」をクリックしても、アーカイブ元ページではなく、生成された 「 https://archive.is/yyyy 」 ページが表示されました


同じページをもう一度アーカイブしようとすると、ページ解析画面が表示されること無く、瞬時に、
「 This page was last archived 12 minutes ago
If this snapshot looks obsolete you can 「save the page」 again 」
と表示されましたので、アーカイブ元の URL 重複チェックは行っているようです

また、アーカイブ URL 「 https://archive.is/yyyy 」 をアーカイブしようとすると、
「 Invalid URL: https://archive.fo/frTYP 」 と表示され、受け付けられませんでした


さらに、生成された 「 https://archive.is/yyyy 」 ページにある内部リンクをクリックすると、「 archive.is 」 にアーカイブされたページが表示される場合と、実際の(本物の)リンク先ページが表示されるものとがありました

「 archive.is 」 にアーカイブされたページが表示されるのは、今、筆者が内部リンクをクリックしたことにより、新たに生成されたのか、既に 「 archive.is 」 に取り込まれていたのかは、わかりません


ページを解析するような画面は表示されませんでしたので、既に取り込まれていたのかなとも思いますが、「 archive.is 」 管理者が、アーカイブページを増やすため、自動的に取り込む仕掛けを設けておくのは容易なことでしょうから、そのようにして増殖している可能性もあるようにも思われます

まあ、安易に自サイトを 「 archive.is 」 にアーカイブするのは、やめておいた方がよさそうです



「archive.is」 の評価について



archive.is サーバーIPアドレス一覧 « REIMA's Blog 」 では、「archive.is」について、下記のように評しています

リストを作ったわけ


archive.isはWebマスターからのアーカイブ削除要求を無視し、対象サイトのcanonical、description、keywordsやOGP、Twitter情報を書き換え、対象のサイトを自身のコンテンツと偽って公開しています。
アーカイブされたページにはきっちりとインデックス許可のアーカイブ拒否属性が指定されています。
その為、サイトに使用している素材等のライセンス/使用条件によっては違反する可能性があります。

また、サイトのdescription、keywordsを流用する為、同じコンテンツ同じキーワードのサイトとなり検索エンジンにヒットするようになります。
さらに、canonicalの設定がarchive.isに書き換えられるため、アーカイブされたサイトのオリジナルはがarchive.isとして設定されます。
検索エンジンにインデックスされていないサイトの場合はほぼ確実にarchive.isがオリジナルサイトとしてインデックスに登録されると思います。

アーカイブされたコンテンツの削除


archive.isは自身が使用しているサーバーの規約で禁止されているコンテンツは削除される可能性があると書いています。
また、白紙ページや500エラーなども削除するようです。

それ以外はいくら削除フォームから申請してもメールで連絡しても削除される事はありません。
ですので、法律に触れない普通のサイトであればarchive.isにアーカイブされたページは削除されないでしょう。

指をくわえて見てるだけなの?って思いますが、ささやかながら反撃はできます。

Googleの検索エンジンはDMCAに則っていますので、DMCA申請を行うことで検索結果から削除が可能です。
https://www.google.com/webmasters/tools/dmca-notice (筆者注:「著作権侵害による削除」)
また、DMCA申請で著作権違反が複数認められたドメインは検索結果の順位が上がり難くなるペナルティが発生します。
archive.isが複数ドメインで運用しているのはこの辺りが絡んでいるのだと思います。

アーカイブされて困っているWebマスターさんはDMCA申請をして検索結果から削除してもらいましょう。
これだけでアーカイブされたサイトにユーザーが訪問する確率は低くなります。


筆者注:「著作権侵害による削除」 (by Google)

著作権侵害による削除


著作権侵害の報告: ウェブ検索

Google では、デジタル ミレニアム著作権法(原文はアメリカ合衆国著作権局ウェブサイト https://www.copyright.gov を参照)およびその他の適用される知的財産法に基づく著作権侵害の申し立てに対して、適切な対応をとることをポリシーとしています。Google による対応としては、権利侵害行為の対象であるとの申し立てを受けた著作物を削除するかアクセス不可能にする、登録ユーザーへのサービスを停止するなどがあります。このような申し立てを受けて Google が著作物を削除またはアクセス不可能にする場合は、影響を受けるサイトまたはコンテンツの所有者や管理者による異議申し立てができるように、所有者または管理者に通知を行うことがあります。Google のポリシーではこの他に、Google が対応する権利侵害に関するすべての通知を記録しておくことも定められており、たとえば通知の写しを第三者に送付することや一般に公開することがあります。これに該当する公開の例は、https://lumendatabase.org/notices/861(英語)をご覧ください。

権利侵害の通知

著作権侵害通知を提出するには、以下のフォームをご利用ください。

重要: 著作物または行為が権利を侵害しているかどうかに関する通知に虚偽記載があった場合は、申立人に損害賠償責任が課せられることがあります(費用および弁護士料を含みます)。判例では、申立人には通知提出前に著作権の抗弁、制限、例外について検討することが義務付けられています。オンライン コンテンツに関するある訴訟では、対象のコンテンツがアメリカ合衆国の公正使用の原則によって保護されていたために、申し立てを行った会社は裁判費用および弁護士料として 100,000 ドルを超える金額を支払いました。したがって、オンラインで公開されている著作物が自分の著作権を侵害しているかどうかについて確信が持てない場合は、まず弁護士に相談することをおすすめします。


魚拓サービス (インターネットアーカイブ) クリックジャッキング 等 拒否方法 の詳細につきましては、「 魚拓サービス (インターネットアーカイブ) 等 拒否方法 」 をご参照下さい (別ページが開きます)

目次 | 元のページ 前のページ | 次のページ サイトマップ | ページTOP
ホーム > ネット > 魚拓サービス archive.is とは
   

© 2014 abhp.net All Rights Reserved.

参考情報


archive.is に魚拓取られてイヤな思いをしている子はいねがー – やわなべ.net
archive.is サーバーIPアドレス一覧 « REIMA's Blog
archive.is - Wikipedia

ページTOP
ページTOP
ページTOP
ページTOP