検索エンジン色々
sorry Japanese only
PAGE作成日 2004/02/03
最終更新日 2005/03/09
page size = Mbyte

googleサジェスト

検索窓の入力中に、どのような語句を入力していけば良いのか?
googleにて、このようなアドバイスの出てくるサービスが始まりました。

みやざき と入力すると、見事にインプレッサが出てくるではありませんか!
なんかうれしくなってしまいますね。

a9.com

2004/09/16

通販サイトの amazonが検索エンジンを立ち上げたとのこと。
どういう意味なのかは知りませんが a9.comという名前です。

インプレッサ みやざき にて検索し、site infoへ入っていくと、こんな画面を出すことが出来ます。

www.subaru.co.jpのような大きいサイトは、アクセス解析まで付いているようです。

検索エンジン大賞

2004/05/30 ニュースサイトを見ていたら、検索エンジン大賞?のページがありました。=>ここ
おもしろそうなんで、ここに載っている検索エンジンへ片っ端から登録してやろうでないか!
って事で、その結果です。

Google - 登録済み,無料,ロボット型クローラー,検索エンジンに反映されるのが非常に遅く 3ヶ月以上かかる,勝手に登録されるかもしれないけど登録簡単なので登録するべき
AllTheWeb - ここの一番下 free submitから登録する,登録済み,無料,Yahoo USAの IDが必要
Yahoo - 日本人にとっては超重要検索エンジン,このページから Yahooディレクトリーへの登録しておくことをお奨めします,Yahooの人が自分の hpを確認しに来てコメントなどを考えてくれます,無料
Ask Jeeves - 日本語がダメみたい,有料のみ,登録してない
Vivisimo - 色々な検索エンジンから検索してくれるサイトのようで、登録ページがありませんでした。日本語検索可
Mamma - 日本語文字化けますが検索可,但し有料登録のみのようだったので登録しませんでした
Daypop - blog用でした
Overture - 確か有料登録のみだったと思いましたが、インプレッサで検索すると TOP10に私のサイトが入ってます・・?
Dogpile - 有料のみ,試しに submitしてみたら 399ドルとか言われました。趣味の hpなのに、そんなお金かけて登録しないよなぁ・・

Yahooの新しい mmsクローラー

2004/07/17

mmsorbet19.search.re2.yahoo.com - - [17/Jul/2004:05:19:53 +0900] "GET /douga/waste-gate-valve_352x240_MPEG1_CQ85_224kMP2.mpg HTTP/1.1" 200 4298756 "-" "Yahoo-MMAudVid/1.0 (mms dash mmaudvidcrawler dash support at yahoo dash inc dot com)"
mmsorbet32.search.re2.yahoo.com - - [17/Jul/2004:05:20:31 +0900] "GET /douga/HID_352x240_MPEG1.mpg HTTP/1.1" 200 4057092 "-" "Yahoo-MMAudVid/1.0 (mms dash mmaudvidcrawler dash support at yahoo dash inc dot com)"
mmsorbet26.search.re2.yahoo.com - - [17/Jul/2004:05:19:37 +0900] "GET /douga/HID_MPEG2.mpg HTTP/1.1" 200 15291197 "-" "Yahoo-MMAudVid/1.0 (mms dash mmaudvidcrawler dash support at yahoo dash inc dot com)"
mmsorbet31.search.re2.yahoo.com - - [17/Jul/2004:05:21:08 +0900] "GET /douga/compressor_352x240_MPEG1_CQ85_224kMP2.mpg HTTP/1.1" 200 2734084 "-" "Yahoo-MMAudVid/1.0 (mms dash mmaudvidcrawler dash support at yahoo dash inc dot com)"
mmsorbet32.search.re2.yahoo.com - - [17/Jul/2004:05:21:06 +0900] "GET /douga/HID_640x480_DivX511.avi HTTP/1.1" 200 3518218 "-" "Yahoo-MMAudVid/1.0 (mms dash mmaudvidcrawler dash support at yahoo dash inc dot com)"
mmsorbet69.search.re2.yahoo.com - - [17/Jul/2004:05:21:47 +0900] "GET /douga/waste-gate-valve_DivX511_640x480_CQ90_128kMP3.avi HTTP/1.1" 200 3742112 "-" "Yahoo-MMAudVid/1.0 (mms dash mmaudvidcrawler dash support at yahoo dash inc dot com)"
mmsorbet31.search.re2.yahoo.com - - [17/Jul/2004:05:25:09 +0900] "GET /douga/compressor_DivX511_640x480_CQ90_128kMP3.avi HTTP/1.1" 200 1922218 "-" "Yahoo-MMAudVid/1.0 (mms dash mmaudvidcrawler dash support at yahoo dash inc dot com)"
mmsorbet59.search.re2.yahoo.com - - [17/Jul/2004:12:17:01 +0900] "GET /10sec_352x240_MPEG1.mpg HTTP/1.1" 404 363 "-" "Yahoo-MMAudVid/1.0 (mms dash mmaudvidcrawler dash support at yahoo dash inc dot com)"
mmsorbet50.search.re2.yahoo.com - - [17/Jul/2004:12:18:53 +0900] "GET /nejime-monnki_640x480_DivX511_CQ77_slowest_128kMP3_7m36s_20040404.avi HTTP/1.1" 404 363 "-" "Yahoo-MMAudVid/1.0 (mms dash mmaudvidcrawler dash support at yahoo dash inc dot com)"
mmsorbet36.search.re2.yahoo.com - - [17/Jul/2004:12:19:19 +0900] "GET /utinoura-kisira_640x480_DivX511_CQ77_128kMP3_20031228PM3.avi HTTP/1.1" 404 363 "-" "Yahoo-MMAudVid/1.0 (mms dash mmaudvidcrawler dash support at yahoo dash inc dot com)"
mmsorbet41.search.re2.yahoo.com - - [17/Jul/2004:12:19:36 +0900] "GET /funama-kisira_640x480_DivX511_CQ77_128kMP3.avi HTTP/1.1" 404 363 "-" "Yahoo-MMAudVid/1.0 (mms dash mmaudvidcrawler dash support at yahoo dash inc dot com)"
mmsorbet50.search.re2.yahoo.com - - [17/Jul/2004:12:20:15 +0900] "GET /nejime-monnki_352x240_MPEG1_CQ77_7m36s_20040404.mpg HTTP/1.1" 404 363 "-" "Yahoo-MMAudVid/1.0 (mms dash mmaudvidcrawler dash support at yahoo dash inc dot com)"
mmsorbet41.search.re2.yahoo.com - - [17/Jul/2004:12:20:17 +0900] "GET /funama-kisira_352x240_MPEG1_CQ77_128kMP2_20031230PM5.mpg HTTP/1.1" 404 363 "-" "Yahoo-MMAudVid/1.0 (mms dash mmaudvidcrawler dash support at yahoo dash inc dot com)"
mmsorbet36.search.re2.yahoo.com - - [17/Jul/2004:12:20:53 +0900] "GET /utinoura-kisira_352x240_MPEG1_CQ77_128kMP2_20031228PM3.mpg HTTP/1.1" 404 363 "-" "Yahoo-MMAudVid/1.0 (mms dash mmaudvidcrawler dash support at yahoo dash inc dot com)"
mmsorbet70.search.re2.yahoo.com - - [17/Jul/2004:12:24:06 +0900] "GET /kusira-utinoura_640x480_DivX511_CQ77_20031228PM3.avi HTTP/1.1" 404 363 "-" "Yahoo-MMAudVid/1.0 (mms dash mmaudvidcrawler dash support at yahoo dash inc dot com)"
mmsorbet70.search.re2.yahoo.com - - [17/Jul/2004:12:24:51 +0900] "GET /kushira-utinoura_352x240_MPEG1_CQ77_2500ScY_128kMP2_20031228PM3.mpg HTTP/1.1" 404 363 "-" "Yahoo-MMAudVid/1.0 (mms dash mmaudvidcrawler dash support at yahoo dash inc dot com)"
mmsorbet37.search.re2.yahoo.com - - [17/Jul/2004:12:25:09 +0900] "GET /10sec_640x480_DivX511.avi HTTP/1.1" 404 363 "-" "Yahoo-MMAudVid/1.0 (mms dash mmaudvidcrawler dash support at yahoo dash inc dot com)"

びっくり仰天、いい加減にしろと言いたい。(実際の転送量をログへ残す mod_logio.soを組み込んだ所、全部を転送してはいないようです)
途中からは、どういう訳かアドレス間違えで 404エラーとなっていますが、入れ替わり立ち替わり、一気に来るのはやめて欲しいなぁ。
転送量制限で、プロバイダーからあぼーんされちゃうよ・・・

という訳で /robots.txtを変更しました。
今までは、動画ファイルを downloadしようとしたのは msnbotだけだったのでこのようにしていました。
User-agent: msnbot
Disallow: /douga/*.avi$
Disallow: /douga/*.mpg$
Disallow: /douga/*.iso$

全てのロボットクローラーが動画ファイルの downloadを行わないよう以下のようにしました。
User-agent: *
Disallow: /douga/*.avi$
Disallow: /douga/*.mpg$
Disallow: /douga/*.iso$

しかし、この mmsorbetとか名前の付いたロボット、robots.txtを見てないみたいだから、いくら拒否しても無理か。
駄目なようだったら apacheの httpd.confの方で拒否する方法を考えなければなりませんね。

dmoz

2004/04/11

internetを徘徊していたら、新しい検索エンジンを発見。
dmoz open directory projectなる所のようで、試しに 車=>整備って分類の所へ URL登録してみました。
昔の YAHOOのように人の手による登録を行った後、ロボット検索をするのでしょうか。

その後、色々な情報を聞く所によると、この dmozという検索サイトは googleのサイトランクの元ネタに利用されてるとのことで、非常に重要な検索サイトとのことです。
しかし、2004/11月になっても登録されません。
スルーされてしまったようです・・

と思ったら、忘れた頃に 車・バイク メーカーとモデル スバル に登録していただけました。
ありがとうございました>エディターの方

robots.txtの設定

2004/03/27

検索エンジン、昔は色々な所が独自の検索エンジンで運用していましたが、2004年時点で自分の所にデーターベースを持って検索サービスを提供している所は、google,infoseekぐらいだと思います。

2004年5月 MSNも独自検索エンジンを持っていることが判明。
しかし、MSNのページからサイトを登録するへ進むと overtuneの有料登録ページになりますが、私は登録していないにも関わらず MSNサーチで引っかかりますから、どこかに登録した情報を元にデーターベース作成して入るんだと思います。

注:但し msnの robotクローラーは極悪です。

msnbot64084.search.msn.com - - [04/Jun/2004:10:28:59 +0900] "GET /douga/kushira-utinoura_352x240_MPEG1_CQ77_2500ScY_128kMP2_20031228PM3.mpg HTTP/1.0" 200 329848836 "-" "msnbot/0.11 (+http://search.msn.com/msnbot.htm)"

オイオイ 300Mbyteもある動画まで取得していくなよなぁ。
まあ MSNの検索エンジン内に cacheで保存しておいてくれるというのなら、それはそれでもし HDD飛んだ時のバックアップになって良いんですが・・・ってことも無いんだろうな。

2004年6月には Yahoo Japanも YST(Yahoo Search Technorogy)という独自エンジンになりました。
しかし、Yahoo Japanは Yahoo USAのようにロボット検索登録ページというのはありません。
知ってる所は勝手にロボットクロールするよ。ってことらしいです。
Yahoo USAのロボット検索登録しておくとか、Yahoo JAPANのディレクトリー登録するとかをしておけば良いんではないでしょうか。

FleshEYE,goo等も検索サービスを独自データーベースで運営しているようですが、登録が有料で、わざわざお金出して登録というのも変です。
まあこれらも、登録してない割には検索に引っかかりますが。


で、検索エンジンのロボット型クローラーに対して重要な設定が robots.txtなんですが、robots.txtの書き方はここに正式?な説明があるようです。
googleの日本語説明はここにあるようです。

----------------------------------------
User-agent: *
Disallow: /cgi-bin/
Disallow: /ruby_counter/
Disallow: /wcnt/
Disallow: /c_count/
このように書くと、robots.txtを読んで書かれているディレクトリーはクロールから除外、それ以外の所はクロール。
----------------------------------------
robots.txt無しだと robots.txtの読み込みに失敗し、全てのページをクロールします。

msnbot対策

2004/06/18

上にも書きましたが、大容量のファイルもクロールして転送量も凄いんで、拒否の設定にしてみました。
(最初の部分だけ転送して、全部を転送してはいないのかもしれませんが。)
User-agent: msnbot
Disallow: /douga/*.avi$
Disallow: /douga/*.mpg$
Disallow: /douga/*.iso$
上記内容で /robots.txtに登録してみました。

google検索

2004/02/03

この前 googleの robotが、やっと私の自宅サーバーにも来たのですが、googleに登録されたとたん、色々な検索ワードで私の所へで飛んできます。
特に恐いのが DivX511の検索結果
オイオイ、何でこんな良くある単語で検索した結果のトップが私のサイトなんだぁ?と思うのですが、
まあ期待外れだったようで、動画ページ開いただけで去っていくようです。
DivX511の作り方とか、見方とかを知りたくて検索したんでしょうね、多分。

ちなみに googleの robotが来たときの apache access.logは次のようになってました。

crawler10.googlebot.com - - [27/Jan/2004:19:01:49 +0900] "GET /douga/ " 200 15764 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"
11054
戻る