検索エンジンとクローラー

この記事は約4分で読めます。

WEBページを立ち上げて、1ヶ月がたった。
1ヶ月前と様変わりして、アクセスログがかなり賑やかになってきた。

ずっと契約していた「さくらのメールボックス」でも実はWEBサーバも立ち上がっていて、アクセスすると「このサーバーは、さくらのレンタルサーバで提供されています。」ページが表示され「403 Forbidden」の応答があるようにできていた。
普通に「403 Forbidden」のページを表示すれば良いのに、しっかりと自社の宣伝をしていることに感心をしていたものだ。もちろん契約変更しないとこのページの変更もできない。

このサイトのことを誰にも教えてないので、誰も見に来るはずもないのだが、1日軽く1,000アクセスはある。20世紀なら人気サイトだ。ただ、そのほとんどがボットと不正アクセスである。
SEO対策的なことはまるでしていないのに、たった1ヶ月でクローリングの対象になるのはとても不思議だ。そもそもどのようにして「www.nouno.com」を見つけているのかが未だに分からず、なんか自分のPCかスマホから情報が漏れている様な気がしてならない。

実のところこのサイトを見て欲しいと言うより、今時の技術的な知見を得たいのが目的だ。
クローリングされるにも「ユーザーの役に立つコンテンツ」でなければダメなようで、ボケ防止のためにも、そこそこ意味のありそうな投稿を続けている。

Googleの検索ロボットは、今のところ1日50~100アクセス位ある。
想定していたよりかなり多くて驚いている。数日に一回、数ページをクローリングする程度だと思っていた。実際に20年前はその位だったのを記憶しているのだが、さすがにもう自分の知識はヤバすぎる程古いようだ。
仕組みとしてはとりあえず、/robots.txtの内容を確認して、/wp-sitemap.xmlの中から更新されているページを探しだして、クロールするようだ。
もし更新が無かった場合は、折角なので古いページも再度クロールするようになっているらしい。
一度に数アクセス程度なので、サーバーに優しい設計だ。
これが「Googlebot」の名前でやってくる。
その後しばらくしてから「Googlebot-Image」の名前で、画像も収集しているようだ。

注意が必要なのは「Nexus 5X」というスマホを名乗ってやってくることだ。一応このサイトもスマホで閲覧できるようになっているのだが、スマホ前提でサイト作りをしなくてはならないらしい。ちょっと前まで「i-modeはこちら」というURL案内でユーザが手動でアクセスするのが当たり前だったが、それは許されないようだ。アクセスした瞬間にスマホかPCかの判断をして、適切に表示を分けるのは中々難しい。「Wordpress」の様なツールが何故必要になるのがよく理解できた。

検索サイトの「Bing」も似たようなものだ。
こちらは控えめだが、それでも一日20~30のアクセスがある。
他にもfacebookやChatGPTなんかのクローラーもやってきている。
何度も書くが、どうやって見つけてくるのだろう。facebookなんかはアカウントも持ってないし。。。

それ以上に凄いのは「MJ12bot」とかいうクローラーだ。
アクセスログを見て初めて知ったのだが非常に評判の悪いクローラーらしく、一日150位のアクセスがある。
どうやらイギリスのSEO対策会社らしい。
他にもSEO対策会社のクローラーが山ほどやってきている。
今のところ枯れ木も山の賑わいなので放置しているが、そのうち/robots.txtで排除してみようと思う。
どのくらいのクローラーが言うことを聞いてくれるかの実験してみたい。

情報漏洩では無いのだが、注意が必要な事柄があった。
投稿完了してから、まぁ投稿内容を再度確認するのだが、何度も見直しているのに誤字脱字に気がつくのである。
メールの送信をしてから、誤字脱字に気がつくあれだ。
もちろん修正できるのだが、投稿した瞬間に「Google様」がやってきたことがあった。
「Google様」はその情報で素早く検索エンジンに登録するわけで、誤字脱字のある文章を掲載してしまう。
なぜか修正後の文章は中々更新してくれない。ちょっと恥ずかしい。
個人だからいいけど、企業とかだと「推敲」「校正」「校閲」をしてくれるツールがあるので導入が必須かもしれない。
インターネット上に一度公開した物は、消えないのだと身をもって知ったのだった。

コメント