WordPress教程之通过robots协议屏蔽搜索引擎抓取网站部分内容

陌涛 • 2020年8月12日下午6:26 • WordPress • 阅读 1575

大家做网站难免有些时候不想让某些搜索引擎抓取某些页面，当然可以在根目录下放robots.txt文件屏蔽搜索引擎或者设置搜索引擎可以抓取文件范围以及规则。Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

一、Robots协议写法说明

User-agent: 这里的代表的所有的搜索引擎种类，*是一个通配符；
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录；
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录；
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录；
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)；
Disallow: /? 禁止访问网站中所有包含问号 (?) 的网址；
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片；
Disallow: /ab/adc.html 禁止爬取ab文件夹下面的adc.html文件；
Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录；
Allow: /tmp 这里定义是允许爬寻tmp的整个目录；
Allow: .htm$ 仅允许访问以”.htm”为后缀的URL；
Allow: .gif$ 允许抓取网页和gif格式图片；
Sitemap: 网站地图地址告诉爬虫这个页面是网站地图；

二、Robots协议举例

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt”)

User-agent: *
Allow: /

例3. 禁止某个搜索引擎的访问

User-agent: BadBot
Disallow: /

例4. 允许某个搜索引擎的访问

User-agent: Baiduspider
Allow:/

三、本站使用的Robots协议

User-agent: *
Disallow: /wp-*/
Disallow: /*?connect=*
Disallow: /date/*
Disallow: /kod/*
Disallow: /api/*
Disallow: /*/trackback
Disallow: /*.js$
Disallow: /*.css$
Disallow:/*?replytocom*
Disallow: /comments/
Disallow: /*/comments/
Disallow: /feed/*
Disallow: /*/*/feed/*
Disallow: /*/*/*/feed/*
Disallow:/articles/*
Disallow:/shuoshuo/*
Sitemap: https://imotao.com/sitemap.xml

原创文章，作者：陌涛，如若转载，请注明出处：https://imotao.com/3578.html

赞 (0)

使用纯代码给WordPress添加文章目录功能,支持快速定位和多级目录

上一篇 2020年8月12日

WordPress更换域名和替换文章内部超链接教程

下一篇 2020年8月12日

WordPress

WordPress评论回复添加验证码防止垃圾评论

WordPress一旦开启文章评论时，垃圾评论就会多。特别是一些英文评论，很多都是通过软件机器自动回复发布，而IP地址都一样。而防止垃圾评论方法也很多。最方便的就是在后台讨论设置开…

陌涛
2019年8月22日
2.2K010
WordPress

WordPress 5.4.2版本发布，BUG维护和安全更新

WordPress 5.4.2版本于6月10日发布，11日很多站长都收到了自动推送更新的邮件。自动更新邮件内容嗨！您位于 https://www.baidu.com 的站点已被…

陌涛
2020年6月12日
1.7K000
WordPress

解决网站被利用xmlrpc.php文件攻击的方法

用Wordpres程序的朋友应该都知道xmlrpc.php文件，它是我们客户端远程管理编辑网站、小程序等需使用的接口文件，但很多不良人士会利用xmlrpc.php文件来绕过Word…

陌涛
2022年5月12日
1.2K000
WordPress

WordPress插件WooCommerce运行内存不足怎么办

WooCommerce是WordPress内一款使用率非常高的插件，该插件能够让简单的博客拥有完善的电商功能，从而受到很多做电商独立站及出海需求客户的欢迎。但是有些用户在使用过程中…

陌涛
2022年10月4日
927000
WordPress

禁用WordPress Gutenberg古腾堡编辑器两个方法

前几天，我们如果有在使用WordPress的网友肯定看到5.0版本是强制更新使用Gutenberg古腾堡编辑器的。有不少的网友反馈确实是比较难用，主要是与以往的编辑习惯不同。陌涛个…

陌涛
2019年8月19日
1.3K000
WordPress

WordPress网站文章标题分隔符-被转义成–怎么解决？

如果我们使用默认的WordPress程序和主题且没有进行转义字符处理的话，当网站Title标题带有分隔符’-‘横线时，往往会被自动转义为HTML字符&#8211。本文将介绍…

陌涛
2022年5月28日
879000
WordPress

在WordPress主题中添加一个复制按钮

有时可能需要在WordPress主题中添加一个复制按钮，方便用户复制链接或验证码之类的，这里提供一段简单的复制代码，供参考。 html代码： js代码：代码实现同时复制一段文字和…

陌涛
2023年12月7日
857000
WordPress

WordPress如何判断移动端设备函数

WordPress已集成移动设备判断检测函数： [php]wp_is_mobile();[/php] 实例1： [php] if ( wp_is_mobile() ) {/* Di…

陌涛
2022年11月12日
647000
WordPress

WordPress 插件：WP-China-Yes 解决国内访问官网慢的最有效方法

自去年10月份开始，国内无法正常访问WordPress官网，一直显示“429 Too Many Requests”，给升级程序、插件等造成极大的不便。有位WP爱好者向我推荐了一款自…

陌涛
2020年3月17日
1.3K000
WordPress

WordPress使用腾讯云COS对象存储+CDN及跨域问题解决方法

联系陌涛QQ:787066679 新用户购买享受75折优惠 CDN Response Header配置对象储存-COS 刷新CDN缓存

陌涛
2021年3月27日
1.5K000

发表回复

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据。