スパム発見用ロボットっぽいもの

Google Dance Checker トップページ　 Google Ranking Checker 　 Link Count Checker

スパム発見用ロボットっぽいもの

かなり想像で書いていますので、軽めにお読み下さい。全面的にガセネタかもしれません。

googlebotは、時々、存在しないファイルにアクセスしてきます。
存在しないYYYYMMDDSS形式のディレクトリやファイルへのアクセスに関しては、よく言われているようです。

しかし、以下のような不思議な出来事がありました。
(よくあることかもしれませんが、うちではこれだけでした)

以下、A.com B.com xxx.php などの名称は、すべて変えてあります。また、当サイトなどを対象に、プログラム名やディレクトリ名で検索されましても、見つかりません。現象以外は完全にボカして書いています。
ただでさえ、ややこしい話ですが、ボカしているため、更にややこしくなっています。

ここでの「存在しないファイル」とは、 http://www.B.com/には存在して、http://www.A.com/には存在しないファイルです。

まず、http://www.A.com/　と　http://www.B.com/　という別のサイトがありました。

http://www.B.com/には、 http://www.B.com/dir/uhauha.php?aa= という掲示板がありました。
bbs.phpから名前を変えただけですが、Googleで「uhauha.php」というキーワードで検索すると、 http://www.B.com/dir/uhauha.php?aa= 1件だけがヒットする名前でした。
http://www.A.com/には、存在しませんでした。

http://www.B.com/dir/uhauha.php?aa=は、インデックスされていました。

2003年のある日、A.comに以下のようなアクセスがありました。
crawl31.googlebot.com - - [04/xxx/2003:09:57:04 +0900] "GET /dir/ HTTP/1.0" 404 281
crawl31.googlebot.com - - [05/xxx/2003:08:56:06 +0900] "GET /dir/uhauha.php?aa= HTTP/1.0" 404 281
crawl31.googlebot.com - - [06/xxx/2003:01:12:44 +0900] "GET /dir/uhauha.php?aa= HTTP/1.0" 404 282
crawl34.googlebot.com - - [06/xxx/2003:05:40:21 +0900] "GET /dir/uhauha.php?aa= HTTP/1.0" 404 280
crawl31.googlebot.com - - [06/xxx/2003:07:20:44 +0900] "GET /dir/hoge/?aa= HTTP/1.0" 404 278
いずれもA.comには存在しませんので、404です。
不思議でしたが、ロボットを走らせるためのデータベースが混乱しているのかと思っただけでした。

その後、ずっと忘れていましたが、2004年2月に、Google Inc.とは別の会社のIPアドレスで、 http://www.A.com/ に "GET /dir/uhauha.php?aa= HTTP/1.0" 404 というアクセスがありました。
上でも書きましたが http://www.A.com/ には /dir/uhauha.php?aa= というものはなく、唯一のアクセスが
crawl31.googlebot.com - - [05/xxx/2003:08:56:06 +0900] "GET /dir/uhauha.php?aa= HTTP/1.0" 404 281
昨年のgooglebotの間違ったアクセスでした。

当然、リンクを辿ってくることは考えられませんので、Googleがスパム発見(特にクローキング)用に走らせている別会社のロボットが、Googleのクロール用データベースを使用して巡回しているのかなと思ったわけです。
時期的に、こちらの記事→Googlebotの新種登場と関係があるのかとも思いまして。

クローキングは、REMOTE_ADDR・REMOTE_HOST・HTTP_USER_AGENTで振り分けるしかない (これくらいしか思い浮かびません)と思いますが、 Googleとは無関係のロボットが来た場合、見破られますので、やめた方がよいようです。
これもなんとなくですが、現時点(2004/03)では、Location(302)を使っているクローキングを特に厳しくチェックしているように思います。
例えば、ランキングシステムのOUT用プログラム(リダイレクトさせるタイプ)ですが、それに多くアクセスしていました。

尚、たぶんそうではないかと思うだけで、絶対にその会社だとは断言できませんので、 IPアドレスなどの公表は、控えさせていただきます。仮に、ここでの想像が当たっていたとして、必死でクローキングをしている業者さんには、けっこう価値があるかもしれませんが、ほとんどの方にとっては、まったく意味のない情報ですし。(何よりも、違っていた場合、恥ずかしいので)
興味がある方や、必死でクローキングをしている方は、頑張って探し出して下さい。
ちなみに、HTTP_USER_AGENTは普通のIEで、少々不自然ながら、HTTP_REFERERも出してきます。

いずれにしても、スパムをしていなければ、どうでもいい話ですが、プログラムの連続起動を制限している場合などは、googlebotが間隔を空けてアクセスしてきた時(普通に表示される)と、チェック用ロボットが間隔を空けずにアクセスしてきた時(「時間を空けてアクセスして下さい」というエラーが表示される)とは違うものが表示(場合によっては数十URL分)されてしまいますので、その点は少し不安です。

Google Dance Checker トップページへ

2026/06/24 18:49:48