立ち上げたWEBサイトへのアクセスログを解析するとき、googleのクローラかどうか判別するための方法のメモ。
googleのウェブマスターツールにサイトを登録すると、googleから度々アクセス(検索に引っ掛けるための情報収取)があり、実際のユーザからのアクセスかどうか判断しずらくなります。
アクセスログのipアドレスのサーバをnslookupコマンドで確認する(Windowsの場合)
nslookupコマンドで、アクセス元のサーバを確認し、googlebot.comとなっていればクローラからのアクセスということになります。
逆にUnknown hostとかほかのプロバイダ系のものであれば、普通のユーザという判断ができます。
C:\Users\xxx>nslookup 66.249.79.16 サーバー: UnKnown Address: 192.168.0.1 名前: crawl-66-249-79-16.googlebot.com Address: 66.249.79.16
2015年3月に確認した感じでは「66.249.64.xx」~「66.249.93.xx」がgoogleのクローラになっていました。(xxは任意)
というわけで、解析するときはこのIPからのアクセスは除外すればよいということになります。(他の検索サイトやボットからもアクセスはあると思いますがとりあえず・・・)