私がメインサイトでアクセス拒否しているBOT一覧を紹介!(.htaccess用の拒否サンプル付き!)

今回の投稿では、私がメインサイトで使用しているBOT拒否用の.htaccessを公開。
そして、それらのBOTが何をしにやってくるのかも改めて認識するためにメモしていこうかと思います。
※正直、どれも要らないと判断したから拒否している訳ですが…

 

こいつなんのBOTやねんって調べてる方の参考になれば幸いです。

 

私がメインサイトで使用している.htaccessのBOT拒否リスト

不要と判断したBOT(もとい迷惑者)達のアクセスをごっそり403で弾いてます。
段階的に追加していっているので、これはまだ少ない方だと思います。

 

.htaccess

 

こいつら いったい なんやねん

AhrefsBot

ahrefs (SEOチェックツール/英語/有料)のための情報を収集しているクローラー。
利用予定が無ければ拒否して差詰め問題無いと思われる。

 

▼ユーザーエージェント

 

robots.txtにも対応しており、クロール拒否及び、クロール頻度を指定する事も出来る。

 

Baiduspider

百度 (検索エンジン)のための情報を収集しているクローラー。
中国で最大の検索エンジンで、主流の検索エンジンらしい。
過去にサイトに多大な負荷をかけるクローリングをしていた事でも有名。

 

▼ユーザーエージェント

 

robots.txtにてクロール拒否する事も出来るそうだが、Wikipediaには以下のようにも記載されているので注意が必要。

 

robots.txtを利用することで、Baiduspiderによるサイトへの全アクセス、もしくは一部のアクセスを禁止することができる[3]とされているが、実際にはrobots.txtを無視してアクセスを続ける例が報告されている。またUAの詐称も報告されている。[4].htaccessで対処しても、大量のエラーメッセージを残すので、サーバーの負担になる。

– Baiduspider – Wikipedia

 

BLEXBot

WebMeUp (SEOツール/英語/有料)のための情報を収集するクローラー。
利用予定が無ければ拒否して差詰め問題無いと思われる。

 

▼ユーザーエージェン

 

DotBot

電子商取引の検索エンジンとして、電子商取引のウェブサイトを調べているクローラーらしい。アメリカ シアトル産。

 

▼ユーザーエージェント

 

robots.txtによるクロール拒否も可能との事。

 

GrapeshotCrawler

Grapeshot (Webマーケティング企業/英語/有料)のコンテンツデータ収集・解析用クローラー。
言うまでもなく個人サイトには一切メリットのないボットで、ログをしっかり眺めた訳ではないがクロール頻度は高く感じる鬱陶しい系BOT。

 

▼ユーザーエージェント

 

robots.txtによるクロール拒否も可能との事。

 

Mappy

株式会社Core (Webマーケティング企業)のコンテンツデータ収集・解析用クローラー。
個人サイトでは拒否して差詰め問題無いと思われる。

 

▼ユーザーエージェント

 

robots.txt及び、メールフォームによるアクセス制限に対応しているとの事。

 

そもそも迷惑でしか無いから動かさないで

 

MauiBot

情報が少なく、詳細不明。
クロール頻度が高く、注意した方が良い。

 

▼ユーザーエージェント

 

MegaIndex

MegaIndex (SEO分析/英語・ロシア語/有料)のコンテンツデータ収集・解析用クローラー。

個人サイトでは拒否して差詰め問題無いと思われる。

 

▼ユーザーエージェント

 

robots.txtによるクロール拒否も可能との事。

 

MJ12bot

以前にも紹介した、イギリスのMajestic12社による分散型Webクローラー。
拒否してかなり経つので、最近の事は分かりませんが、アクセスが多く厄介なBotだった印象。

▼ユーザーエージェント

 

このBOTの最大の特徴はニセモノも多く存在する事。
本物は robots.txt に対応しているが、ニセモノには効果が見込めないので注意。

 

SemrushBot

SEMrush (SEO・マーケティングツール/英語/有料)のための情報を収集しているクローラー。
利用予定が無ければ拒否して差詰め問題無いと思われる。

 

▼ユーザーエージェント

 

robots.txtによるクロール拒否も可能との事。

 

Yandexシリーズ

Yandex (検索エンジン)のための情報を収集しているクローラー。
ロシアでは、Googleロシア語版などと首位争いとなっている規模の検索エンジン。
BOTの種類は多いが、お行儀は良いらしい…と言っても日本ではほぼ無意味なので、拒否しても差して問題は無いかと思います。

 

FeedWordPress

以前にも紹介した、投稿丸パクリWordpressプラグイン。
RSSを定期チェックして記事を盗んでいく悪質なプラグインなので、問答無用で拒否しましょう。

 

▼ユーザーエージェント

 

思っただけでやってはいないのですが、ダミーのRSSを返してやろうかと思うくらいの苛立ちを覚えるBOTなので要注意!

 

site.ru (リファラ)

WordPressを攻撃してくる悪質なBOT。
ユーザーエージェントがChrome(但しバージョンがとても低い)になっているため、気付きにくい。

 

▼ユーザーエージェント

 

いくらバージョンが低いといえど、ChromeはChromeなので、ユーザーエージェントで弾くのは如何なものか…ということで、唯一の特徴であるリファラの「site.ru」を用いてアクセス拒否をする。