Google Dance Checker トップページ   Google Ranking Checker   Link Count Checker

スパム発見用ロボットっぽいもの

かなり想像で書いていますので、軽めにお読み下さい。全面的にガセネタかもしれません。

googlebotは、時々、存在しないファイルにアクセスしてきます。
存在しないYYYYMMDDSS形式のディレクトリやファイルへのアクセスに関しては、よく言われているようです。


しかし、以下のような不思議な出来事がありました。
(よくあることかもしれませんが、うちではこれだけでした)

以下、A.com B.com xxx.php などの名称は、すべて変えてあります。また、当サイトなどを対象に、 プログラム名やディレクトリ名で検索されましても、見つかりません。 現象以外は完全にボカして書いています。
ただでさえ、ややこしい話ですが、ボカしているため、更にややこしくなっています。

ここでの「存在しないファイル」とは、 http://www.B.com/には存在して、http://www.A.com/には存在しないファイルです。

まず、http://www.A.com/ と http://www.B.com/ という別のサイトがありました。

http://www.B.com/には、 http://www.B.com/dir/uhauha.php?aa= という掲示板がありました。
bbs.phpから名前を変えただけですが、Googleで「uhauha.php」というキーワードで検索すると、 http://www.B.com/dir/uhauha.php?aa= 1件だけがヒットする名前でした。
http://www.A.com/には、存在しませんでした。

http://www.B.com/dir/uhauha.php?aa=は、インデックスされていました。

2003年のある日、A.comに以下のようなアクセスがありました。
crawl31.googlebot.com - - [04/xxx/2003:09:57:04 +0900] "GET /dir/ HTTP/1.0" 404 281
crawl31.googlebot.com - - [05/xxx/2003:08:56:06 +0900] "GET /dir/uhauha.php?aa= HTTP/1.0" 404 281
crawl31.googlebot.com - - [06/xxx/2003:01:12:44 +0900] "GET /dir/uhauha.php?aa= HTTP/1.0" 404 282
crawl34.googlebot.com - - [06/xxx/2003:05:40:21 +0900] "GET /dir/uhauha.php?aa= HTTP/1.0" 404 280
crawl31.googlebot.com - - [06/xxx/2003:07:20:44 +0900] "GET /dir/hoge/?aa= HTTP/1.0" 404 278
いずれもA.comには存在しませんので、404です。
不思議でしたが、ロボットを走らせるためのデータベースが混乱しているのかと思っただけでした。

その後、ずっと忘れていましたが、2004年2月に、Google Inc.とは別の会社のIPアドレスで、 http://www.A.com/ に "GET /dir/uhauha.php?aa= HTTP/1.0" 404 というアクセスがありました。
上でも書きましたが http://www.A.com/ には /dir/uhauha.php?aa= というものはなく、 唯一のアクセスが
crawl31.googlebot.com - - [05/xxx/2003:08:56:06 +0900] "GET /dir/uhauha.php?aa= HTTP/1.0" 404 281
昨年のgooglebotの間違ったアクセスでした。

当然、リンクを辿ってくることは考えられませんので、Googleがスパム発見(特にクローキング)用に 走らせている別会社のロボットが、Googleのクロール用データベースを使用して巡回している のかなと思ったわけです。
時期的に、こちらの記事→Googlebotの新種登場 と関係があるのかとも思いまして。

クローキングは、REMOTE_ADDR・REMOTE_HOST・HTTP_USER_AGENTで振り分けるしかない (これくらいしか思い浮かびません)と思いますが、 Googleとは無関係のロボットが来た場合、見破られますので、やめた方がよいようです。
これもなんとなくですが、現時点(2004/03)では、Location(302)を使っているクローキングを特に厳しく チェックしているように思います。
例えば、ランキングシステムのOUT用プログラム(リダイレクトさせるタイプ)ですが、それに多くアクセス していました。

尚、たぶんそうではないかと思うだけで、絶対にその会社だとは断言できませんので、 IPアドレスなどの公表は、控えさせていただきます。仮に、ここでの想像が当たっていたとして、 必死でクローキングをしている業者さんには、けっこう価値があるかもしれませんが、ほとんどの方に とっては、まったく意味のない情報ですし。(何よりも、違っていた場合、恥ずかしいので)
興味がある方や、必死でクローキングをしている方は、頑張って探し出して下さい。
ちなみに、HTTP_USER_AGENTは普通のIEで、少々不自然ながら、HTTP_REFERERも出してきます。

いずれにしても、スパムをしていなければ、どうでもいい話ですが、プログラムの 連続起動を制限している場合などは、googlebotが間隔を空けてアクセスしてきた時(普通に表示される)と、 チェック用ロボットが間隔を空けずにアクセスしてきた時(「時間を空けてアクセスして下さい」というエラーが 表示される)とは違うものが表示(場合によっては数十URL分)されてしまいますので、その点は少し不安です。

Google Dance Checker トップページへ

2024/04/25 09:50:53