网站的robots.txt怎么写?不同网站写法不一样,主要是看你用的什么程序,像是WordPress有个默认的robots.txt文件,你直接在网站后加上robots.txt按回车就能看到。
但是这个默认的robots.txt不够用啊,只是不让爬虫爬你的后台,对于爬虫的蜘蛛类型就没有什么限制了,搜索引擎的蜘蛛还好,每天爬点新内容,还给你流量,但是最近很多AI的爬虫跟疯了一样,直接把你服务器爬宕机,所以我们需要屏蔽掉这些没用的恶意垃圾爬虫。
下面我会给大家分享WordPress版和通用版,都是屏蔽了AI恶意爬虫的,对哪个搜索引擎开发就看你们自己选择了,除WordPress外,都可以用通用版,也可以在通用版上方加你的程序不让爬的地址,例如:后台地址。
通用版robots.txt
1、仅允许国内搜索引擎爬取,禁止国外搜索引擎以及所有其它爬虫
下载地址:https://pan.quark.cn/s/e9da15ccbeb8
2、允许常用搜索引擎(包含国外的Google、Yandex等),禁止其它爬虫
下载地址:https://pan.quark.cn/s/4642266ae948
3、全部屏蔽,任何爬虫和蜘蛛都不允许爬,小红书原版robots.txt,屏蔽所有爬虫,并二次强调屏蔽搜索引擎
下载地址:https://pan.quark.cn/s/ff8e55719207
4、仅允许百度爬,屏蔽其它搜索引擎和其它所有爬虫
下载地址:https://pan.quark.cn/s/5ff9a893df28
5、仅允许Bing爬,屏蔽其它搜索引擎和其它所有爬虫
下载地址:https://pan.quark.cn/s/174fcaf2f105
6、仅允许360搜索爬,屏蔽其它搜索引擎和其它所有爬虫
下载地址:https://pan.quark.cn/s/67d145160f71
7、仅允许搜狗爬,屏蔽其它搜索引擎和其它所有爬虫
下载地址:https://pan.quark.cn/s/fa3864c65365
8、仅允许谷歌爬,屏蔽其它搜索引擎和其它所有爬虫
下载地址:https://pan.quark.cn/s/34461a129610
WordPress版robots.txt
1、仅允许国内搜索引擎爬取,禁止国外搜索引擎以及所有其它爬虫
下载地址:https://pan.quark.cn/s/d3b68cf08d9a
2、允许常用搜索引擎(包含国外的Google、Yandex等),禁止其它爬虫
下载地址:https://pan.quark.cn/s/29e01dfa9fd5
3、全部屏蔽,任何爬虫和蜘蛛都不允许爬,小红书原版robots.txt,屏蔽所有爬虫,并二次强调屏蔽搜索引擎
下载地址:https://pan.quark.cn/s/9e3e3fb5b342
4、仅允许百度爬,屏蔽其它搜索引擎和其它所有爬虫
下载地址:https://pan.quark.cn/s/e2898af07a4d
5、仅允许Bing爬,屏蔽其它搜索引擎和其它所有爬虫
下载地址:https://pan.quark.cn/s/003fabf70406
6、仅允许360搜索爬,屏蔽其它搜索引擎和其它所有爬虫
下载地址:https://pan.quark.cn/s/a548d0036f5f
7、仅允许搜狗爬,屏蔽其它搜索引擎和其它所有爬虫
下载地址:https://pan.quark.cn/s/42970d9cbace
8、仅允许谷歌爬,屏蔽其它搜索引擎和其它所有爬虫
下载地址:https://pan.quark.cn/s/e59f56ee0c5e
WordPress版和通用版的区别在于,WordPress版在上方加入了重要地址禁止所有爬虫爬取,包含允许爬取本站的蜘蛛也都禁止爬取这些地址。
本文来自投稿,不代表瓜5博客立场,如若转载,请注明出处:https://blog.gua5.com/buou/152
网友热评(1)
[…] 原文转自:https://blog.gua5.com/buou/152 […]