烦,真的很烦,这种天天占服务器内存又不带来流量的爬虫真的超恶心,之前设置的robots.txt它们不遵守,这次只好直接通过返回403封杀它们了!
Amazon、Facebook这种又不是搜索引擎,爬数据拿去训练AI大模型的,一直爬干什么都不知道,就这么点内容,每天重复爬,网站都打不开。
还有Semrush、AhrefsBot、MJ12bot这些爬人数据打包卖给别人做SEO的也恶心,特别是Semrush,我的所有网站基本都有它,而且频率还很高!
气死了,直接给大家一个整个服务器封杀这些爬虫的方法:
1、找到文件httpd.conf,宝塔面板的一般在/www/server/apache/conf/文件夹下;
2、打开文件,在最后一行加上:
<Directory “/”>
RewriteEngine On
# 封杀 Semrush
RewriteCond %{HTTP_USER_AGENT} Semrush [NC]
RewriteRule ^ – [F,L]
# 封杀 Facebook / Meta
RewriteCond %{HTTP_USER_AGENT} (meta-webindexer|facebookexternalhit|ExternalFetcher) [NC]
RewriteRule ^ – [F,L]
# 封杀 Amazonbot
RewriteCond %{HTTP_USER_AGENT} Amazonbot [NC]
RewriteRule ^ – [F,L]
# 封杀 Ahrefs(竞品SEO爬手)
RewriteCond %{HTTP_USER_AGENT} Ahrefs [NC]
RewriteRule ^ – [F,L]
# 封杀 Majestic(外链爬虫)
RewriteCond %{HTTP_USER_AGENT} (Majestic|MJ12bot) [NC]
RewriteRule ^ – [F,L]
# 封杀 Screaming Frog(网站审计爬虫)
RewriteCond %{HTTP_USER_AGENT} ScreamingFrog [NC]
RewriteRule ^ – [F,L]
# 封杀 Sitechecker / Seoscout
RewriteCond %{HTTP_USER_AGENT} (Sitechecker|Seoscout) [NC]
RewriteRule ^ – [F,L]
# 封杀 华为花瓣爬虫
RewriteCond %{HTTP_USER_AGENT} PetalBot [NC]
RewriteRule ^ – [F,L]
# 封杀 各种SEO扫描器
RewriteCond %{HTTP_USER_AGENT} (SEO|Scan|Audit|Checker) [NC]
RewriteRule ^ – [F,L]
</Directory>
3、重启Apache,然后看日志,就会出现一堆403
后面这些爬虫会越来越少,但是不会立刻死心,还会是不是的来爬,都会返回403,不加载php和MySQL,对服务器压力减小90%!
本文来自投稿,不代表瓜5博客立场,如若转载,请注明出处:https://blog.gua5.com/xing/173