かなり想像で書いていますので、軽めにお読み下さい。全面的にガセネタかもしれません。
googlebotは、時々、存在しないファイルにアクセスしてきます。
存在しないYYYYMMDDSS形式のディレクトリやファイルへのアクセスに関しては、よく言われているようです。
しかし、以下のような不思議な出来事がありました。
(よくあることかもしれませんが、うちではこれだけでした)
以下、A.com B.com xxx.php などの名称は、すべて変えてあります。また、当サイトなどを対象に、
プログラム名やディレクトリ名で検索されましても、見つかりません。
現象以外は完全にボカして書いています。
ただでさえ、ややこしい話ですが、ボカしているため、更にややこしくなっています。
ここでの「存在しないファイル」とは、
http://www.B.com/には存在して、http://www.A.com/には存在しないファイルです。
まず、http://www.A.com/ と http://www.B.com/ という別のサイトがありました。
http://www.B.com/には、
http://www.B.com/dir/uhauha.php?aa= という掲示板がありました。
bbs.phpから名前を変えただけですが、Googleで「uhauha.php」というキーワードで検索すると、
http://www.B.com/dir/uhauha.php?aa= 1件だけがヒットする名前でした。
http://www.A.com/には、存在しませんでした。
http://www.B.com/dir/uhauha.php?aa=は、インデックスされていました。
2003年のある日、A.comに以下のようなアクセスがありました。
crawl31.googlebot.com - - [04/xxx/2003:09:57:04 +0900] "GET /dir/ HTTP/1.0" 404 281
crawl31.googlebot.com - - [05/xxx/2003:08:56:06 +0900] "GET /dir/uhauha.php?aa= HTTP/1.0" 404 281
crawl31.googlebot.com - - [06/xxx/2003:01:12:44 +0900] "GET /dir/uhauha.php?aa= HTTP/1.0" 404 282
crawl34.googlebot.com - - [06/xxx/2003:05:40:21 +0900] "GET /dir/uhauha.php?aa= HTTP/1.0" 404 280
crawl31.googlebot.com - - [06/xxx/2003:07:20:44 +0900] "GET /dir/hoge/?aa= HTTP/1.0" 404 278
いずれもA.comには存在しませんので、404です。
不思議でしたが、ロボットを走らせるためのデータベースが混乱しているのかと思っただけでした。
その後、ずっと忘れていましたが、2004年2月に、Google Inc.とは別の会社のIPアドレスで、
http://www.A.com/ に "GET /dir/uhauha.php?aa= HTTP/1.0" 404 というアクセスがありました。
上でも書きましたが http://www.A.com/ には /dir/uhauha.php?aa= というものはなく、
唯一のアクセスが
crawl31.googlebot.com - - [05/xxx/2003:08:56:06 +0900] "GET /dir/uhauha.php?aa= HTTP/1.0" 404 281
昨年のgooglebotの間違ったアクセスでした。
当然、リンクを辿ってくることは考えられませんので、Googleがスパム発見(特にクローキング)用に
走らせている別会社のロボットが、Googleのクロール用データベースを使用して巡回している
のかなと思ったわけです。
時期的に、こちらの記事→Googlebotの新種登場
と関係があるのかとも思いまして。
クローキングは、REMOTE_ADDR・REMOTE_HOST・HTTP_USER_AGENTで振り分けるしかない
(これくらいしか思い浮かびません)と思いますが、
Googleとは無関係のロボットが来た場合、見破られますので、やめた方がよいようです。
これもなんとなくですが、現時点(2004/03)では、Location(302)を使っているクローキングを特に厳しく
チェックしているように思います。
例えば、ランキングシステムのOUT用プログラム(リダイレクトさせるタイプ)ですが、それに多くアクセス
していました。
尚、たぶんそうではないかと思うだけで、絶対にその会社だとは断言できませんので、
IPアドレスなどの公表は、控えさせていただきます。仮に、ここでの想像が当たっていたとして、
必死でクローキングをしている業者さんには、けっこう価値があるかもしれませんが、ほとんどの方に
とっては、まったく意味のない情報ですし。(何よりも、違っていた場合、恥ずかしいので)
興味がある方や、必死でクローキングをしている方は、頑張って探し出して下さい。
ちなみに、HTTP_USER_AGENTは普通のIEで、少々不自然ながら、HTTP_REFERERも出してきます。
いずれにしても、スパムをしていなければ、どうでもいい話ですが、プログラムの
連続起動を制限している場合などは、googlebotが間隔を空けてアクセスしてきた時(普通に表示される)と、
チェック用ロボットが間隔を空けずにアクセスしてきた時(「時間を空けてアクセスして下さい」というエラーが
表示される)とは違うものが表示(場合によっては数十URL分)されてしまいますので、その点は少し不安です。