Wayback Machineがrobots.txtを無視するようになるかも?

[レベル: 上級]

Internet Archive の Wayback Machine

ウェブページをアーカイブ(取得、保存)する Wayback Machine が robots.txt に従わなくなる仕様変更を検討中です。
Wayback Machine の運営元である Internet Archive が公式ブログで通告しました。

ウェブページの完全なスナップショットを取得するため

Internet Archive が Wayback Machine を提供する目的は、世界中のウェブページの“スナップショット”を取得するためです。
ウェブページのその瞬間の姿をそのままに保存し続け、過去から現在に至るまでの移り変わりを記録し続けることが Internet Archive のミッションと言っていいでしょう。

重複コンテンツであろうが巨大なファイルであろうが、すべてのページを Internet Archive は Wayback Machine でアーカイブしたいと考えています。

ところが robots.txt によるクロールのブロック命令に従うと、この目的を達成できなくなります。

また、ドメイン名が放棄され所有者がいなくなったものの、ウェブに公開されている、いわゆる “Park Domain(パークドメイン)” でも robots.txt による問題が出てきました。

多くのパークドメインが robots.txt でクロールをブロックするようになってきました。
robots.txt でブロックされると、現状では、過去のアーカイブが消去されます。
つまり、たとえ以前にアーカイブが取得されていたとしても、いったん robots.txt でブロックされたサイトは Wayback Machine では過去の姿を見ることができなくなってしまうのです。

以前がどのようなサイトだったかを調べることができない利用者から不満や失望の声が挙がっているとのことです。

米国政府サイトですでに試験済み

米国の政府と軍のサイトにおいては数か月前から robots.txt の参照を Internet Archive はすでにやめているそうです(削除リクエストには応じている)。
これらの2つのサイトでは、robots.txt でブロックされているページでも、アーカイブを提供しています。

しかし、目立った問題は発生していようです。

そこで robots.txt 無視の適用範囲をもっと広げることを Internet Archive は検討しています。

ia_archiver が robots.txt に従わなくなるのはプラス?マイナス?

Wayback Machine のクローラは ia_archiver という UA (User-Agent: ユーザーエージェント) を持っています。
サーバーのアクセスログを見ると、きっと ia_archiver が見つかるはずです。

さて ia_archiver が robots.txt に従わなくなるのは僕たちにとって良いことなのでしょうか?
それとも悪いことなのでしょうか?

内容が変わってしまって以前の情報を参照したいサイトや、取得したいドメイン名が、robots.txt でブロックされていて過去の状態を知ることができないのは残念なことです。
robots.txt に関係なくアーカイブを参照できれば利便性が増します。

一方で、自分のサイトのアーカイブは取得してほしくないと望む人もいることでしょう
事実、僕は ia_archiver のクロールをブロックしています(強い拒否理由があるわけではないけれど、なんとなく)。

もっとも、全サイトにおける ia_archiver の robots.txt 無視を Internet Archive は決定したわけではありません。
その方向で考えている段階です。

Internet Archive の判断が気になる人は、状況を気にかけておくといいでしょう。