2004/12 許せないクローラー
sorry Japanese only
最終更新日 2004/12/25
page size = Mbyte


関連するページ 許せないクローラー ファイルの内容を表示する 見て欲しくない人を拒否する設定 .htaccessを使った個別に拒否する方法 検索エンジンの拒否をする設定

NTT DATA作成の非常識なクローラー

2004/12/25

遂に非常識極まるクローラーが現れました。
19時〜23時にかけて、8Gbyteも動画を Downloadしていきました。

「デジタルアーカイブのための日本のウェブサイトの実態調査
と言う名目で、試験的にクロールをしているみたいです。
試験的にクロールするなら、自分でサイトを立てて、それに向けてテストをしろと言いたい。

容量わきまえずリンクされている物を Downloadしまくり。
robots.txt無視。

と言う訳で、NTT DATAの該当部署と思われる IPアドレスからのアクセスを /dougaディレクトリーの
.htaccessで 拒否する設定にしました。

クロールに使われている IPアドレスは 202.217.35.14と 202.217.35.16みたいなんですが、
これを APNIC Whois Databaseにて調査すると以下のようになっています。
inetnum:      202.217.35.0 - 202.217.35.31
netname:      WEBARCHIVE
descr:        NTT DATA CORPORATION Public Business Unit

と言うことで、.htaccessを以下のように記述し、拒否設定としました。
order allow,deny
allow from all
deny from 202.217.35.0/255.255.255.224

株式会社NTTデータ 公共システム事業本部の、該当先のアドレスにも、抗議を出しました。
自宅サーバーで動画配信をしている宮崎と言います。
そちらの会社で行っている
http://e-public.nttdata.co.jp/bulkresearch2004/index.html
は非常識すぎます。

私の所は、一人1日 1Gbyteの制限をお願いしています。
所が、そちらは、一気に 10Gbyteも Downloadしていきました。
プロバイダーからアカウント削除されてしまいます。
もう少し考えてクロールするプログラムを作成してください。
非常識にも程があると思うのは私だけではないでしょう。

それと
User-agent: *
Disallow: /douga/*.avi$
Disallow: /douga/*.mpg$
Disallow: /douga/*.iso$

と robots.txtを作っているにも関わらず、aviと mpgは
ファイルを downloadしていきました。
robots.txtを正常に認識していません。

と思ったら、こんなメールが返ってきました。
あなたはこのメーリングリスト <bulkresearch-nttdata@rd.nttdata.co.jp> のメンバーではありません。

メーリングリストについての一般的な案内はメールの本文に

	guide

と書いたメールを

	bulkresearch-nttdata-ctl@rd.nttdata.co.jp

宛に送ると送られてきます。
不特定多数へ再送信してしまう可能性のあるメールアドレスを、苦情受け付けのように書いておくなよなぁ。

-------------------------------------------------

NTT DATA経由で、国立国会図書館が、私の作った動画を大事に保存しておいてくれる。
っていうのだったら、喜んで Download OK出します。
ではなく、一気に Downloadしたときの影響を調査する為のクローラー。と言い切ってるんだから非常識だ。

その時のアクセスログはこちら。=> 20041224.txt



2004/12/30日に『Bulk research 2004 担当』殿よりメールがありました。
こっちが名乗っているのに、いきなり名乗らずメールを寄越すとはどういう事なのかはおいといて。

相手の書いてきたことを要約すると

返事が送れて申し訳ない。
メール受信用の MLサーバーの設定変更を間違っていた。
あなたのメール見付けて引っ張り出してきたので送れてしまった。
robots.txtの記述は、あなたが www.robotstxt.orgの指定通りに書いてないのが悪いが、こちらの設定変更で対応する。
あなたのサーバーへ負荷かけたのは申し訳ないが、クローラーの安定運用を目指してがんばるので理解して欲しい。
メールアドレスが、全角の@になっていたのはただの間違えだ。指摘感謝する。

書き方は、こんなぶっきらぼうでなく、とても考えられた文書でした。

で、私は再びこんなメールをしました。

デジタルアーカイブのための日本のウェブサイトの実態調査
(bulkresearch2004)」担当の者 殿

まず1件目
http://e-public.nttdata.co.jp/bulkresearch2004/index.html
の下に書いてあるメールアドレスへ苦情のメールを送信したら、
メーリングリストのアドレスだとエラーの返信がありました。

個人の情報を書いて送ってしまうかもしれない苦情受け付けの
メールアドレスが、メーリングリストのアドレスで倫理上問題は
無いのでしょうか?
送る側は、不特定(特定の)多数に読まれると認識して送っては
いませんよ?
その旨書いておくべきではないでしょうか?

2件目
> クローラーの安定運用を目指してがんばるので理解して欲しい。

相手への負担、容量、回線の制限などを考慮に入れない実験を
これからもされたのではたまったものではありません。

国から費用を得て実験をしているのであれば、自分で実験対象の
サイトを立ち上げて、そこへ向けて実験するべきでしょう。

1日 10Mbyte、10ページ、間をあけてクロール出来るようなソフト
になってから、一般へ向けてクロールして下さい。

すぐ返事が来ました。また要約して書きます
さっきは説明不足ですまんかった。
個人情報の保護は非常に重要な課題だ。
メールの送り先が MLになっていたのは、担当者 3人に間違えなく届くようにしてあるだけだ。
今やってるのは、総量、平均サイズの調査なので、全部ダウンするのは我慢してくれ。
30秒あいだを開ける設定にはしてあったが、それ以外も考えてみる。


暖簾に腕押しなので返事はしませんでした。
アクセス拒否にしてしまってますし、どうでも良いです。


2005/01/08 追加

企業と違って、自宅サーバー運用している一般人は、UP側の転送量制限がつきまといます。
自宅サーバーWebRingからリンク辿って、全部一気にダウンなんて無茶は、余りにいじめがひどすぎます。
強い回線を持った者が、制限のある一般人をいじめている以外の何者でもありません。

容量大きいファイルもダウンしていくクローラーを作るのなら、そこら辺を考慮に入れて下さい。
google,yahoo,msn,altavista,never,etc,etc,色々なクローラーが来ますが、動画のファイルをダウンしていった
クローラーは NTT DATAさんのが初めてです。
そこだけを見ても、通常とは異なるクローラーなのだと認識するべきです。

UP側転送量無制限の回線を用意していただければ、どんなにダウンしても構わないんですけどね。
と言うか、もし次、アクセス拒否している以外の別の IPで同じようにダウンし、プロバイダーのアカウントを削除されたら、
OCNの光アクセスIP1を 1年無償供与でお願いしたいと思います。

19673
戻る