inetnum: 202.217.35.0 - 202.217.35.31 netname: WEBARCHIVE descr: NTT DATA CORPORATION Public Business Unit |
order allow,deny allow from all deny from 202.217.35.0/255.255.255.224 |
自宅サーバーで動画配信をしている宮崎と言います。 そちらの会社で行っている http://e-public.nttdata.co.jp/bulkresearch2004/index.html は非常識すぎます。 私の所は、一人1日 1Gbyteの制限をお願いしています。 所が、そちらは、一気に 10Gbyteも Downloadしていきました。 プロバイダーからアカウント削除されてしまいます。 もう少し考えてクロールするプログラムを作成してください。 非常識にも程があると思うのは私だけではないでしょう。 それと User-agent: * Disallow: /douga/*.avi$ Disallow: /douga/*.mpg$ Disallow: /douga/*.iso$ と robots.txtを作っているにも関わらず、aviと mpgは ファイルを downloadしていきました。 robots.txtを正常に認識していません。 |
あなたはこのメーリングリスト <bulkresearch-nttdata@rd.nttdata.co.jp> のメンバーではありません。 メーリングリストについての一般的な案内はメールの本文に guide と書いたメールを bulkresearch-nttdata-ctl@rd.nttdata.co.jp 宛に送ると送られてきます。 |
デジタルアーカイブのための日本のウェブサイトの実態調査 (bulkresearch2004)」担当の者 殿 まず1件目 http://e-public.nttdata.co.jp/bulkresearch2004/index.html の下に書いてあるメールアドレスへ苦情のメールを送信したら、 メーリングリストのアドレスだとエラーの返信がありました。 個人の情報を書いて送ってしまうかもしれない苦情受け付けの メールアドレスが、メーリングリストのアドレスで倫理上問題は 無いのでしょうか? 送る側は、不特定(特定の)多数に読まれると認識して送っては いませんよ? その旨書いておくべきではないでしょうか? 2件目 > クローラーの安定運用を目指してがんばるので理解して欲しい。 相手への負担、容量、回線の制限などを考慮に入れない実験を これからもされたのではたまったものではありません。 国から費用を得て実験をしているのであれば、自分で実験対象の サイトを立ち上げて、そこへ向けて実験するべきでしょう。 1日 10Mbyte、10ページ、間をあけてクロール出来るようなソフト になってから、一般へ向けてクロールして下さい。 |