1. 浪旅seo >百度算法 robotstxt(如何创建R)

robotstxt(如何创建R)

robotstxt(如何创建R)

robots是什么以及如何正确建立robots文件

robots是什么? robots是一个协议,是建立在网站根目录下的一个以(robots。txt)结尾的文本文件,对搜索引擎蜘蛛的一种限制指令。 是蜘蛛程序爬行网站第一个要访问抓取的页面,网站可以通过robots协议来告诉搜索引擎蜘蛛程序哪些页面可以抓取,哪些页面不可以抓取。

robots协议用来告诉搜索引擎哪些页面能被抓取,哪些页面是不能被抓取的,我们通常用 robots来屏蔽网站的一些垃圾页面、重复页面、死链接通、动态和静态多路径的同一页面。 这么做的好处是可以节省一部分的服务器带宽,同时也方便蜘蛛程序更好的来抓取网站内容。

其实robots就像一个指路标一样,引导着蜘蛛程序爬取网站页面。 robots符号介绍 首先我们先来认识一下书写robots时常用到的几个字符 User-agent!写义搜索引擎类型,这里的首字母要大写U,结尾冒号!后要加一个空格键,如 User-agent!* 不带空格,User-agent! * 带空格的。

* 这里的星号是一个通配符,匹配0或多个任意字符 $ 是一个结束符 Disallow!表示不希望被访问的目录或URL Allow!表示希望被访问的目录或URLrobots的确定写法 写法一:禁止所有搜索引擎来抓取网站任何页面 User-agent! *(此处*号也可以写成禁止某个蜘蛛抓取,例如百度的 User-agent! Baiduspider) Disallow! / 写法二:允许所有搜索引擎抓取网站任何页面 User-agent! * Allow! / 当然如果允许的话也可以写个空的robots。txt放网站根目录 其它写法举例! User-agent! * 代表所有搜索引擎Disallow! /abc/ 表示禁止抓取abc目录下的目录 Disallow! /abc/*。html 表示禁止抓取此目录下所有以 。html为后缀的URL包含子目录 Disallow! /*?*禁止抓取所有带?问号的URL Disallow! /*jpg$ 禁止所有以。jpg结尾格式的图片 Disallow! /ab 禁止抓取所有以ab 开头的文件 Disallow! /ab/a。html 禁止抓取ab文件夹下面的a。html 文件 Allow! /ABC/ 表示允许抓取abc目录下的目录百度robots的写法淘宝robots的写法最后附上我自己网站robots的写法好了就先举例这些,最后让提醒各位站长,慎重写robots协议,确保网站上线之前解决所有问题后,建立robots。txt文本到根目录。

robots。txt在哪

所谓的根目录就是你的网站程序所在的那个目录,一般的根目录貌似都是个叫web或者www文件夹


robots。txt文件必须驻留在域的根目录,并且必须命名为“robots。txt”。


位于子目录中的robots。txt文件无效,因为漫游器只在域的根目录这个文件。


例如,http!//www。baidu。com/robots。txt是有效位置。


但是,http!//www。baidu。com/mysite/robots。txt不是。

如何创建Robots。txt文件

如何创建Robots。txt文件如果你使用wordpress建站的,那么安装插件rank math seo或其他主流seo插件后,基本都能直接在插件中找到robots。txt文件的编辑功能,你只需要按下文所述,学习如何编辑指令规则即可。

以rank math seo插件为例,你可以按照下图所示,编辑robots。txt文件。

如果你不是用wordpress建站的,且建站系统本身不提供robots。txt编辑功能,你可以按照下文的教程自制。

第一步:本地创建Robots。Txt文件请用记事本或者其他文本型的软件(譬如Emeditor)创建一个名为robots。txt的文件,注意名字不能改,也不能大写,必须全小写。

第二步:编写指令规则Robots。txt文件怎么写呢?

请用记事本继续编辑这个文件,输入指令规则,示例如下:

User-agent! * #搜索引擎抓取工具名称(即蜘蛛):任意,不限,谁都行Disallow! / #禁止抓取:根目录下的所有内容Allow:/post/ #允许抓取:/post/及其目录下的所有内容上面这段是一组指令规则的构成,你可以参照写多段。

user-agent表示搜索引擎抓取工具的名字,disallow就表示禁止抓取,allow表示允许抓取,#号后的内容为注释,实际使用时可以去掉。注意,规则部分区分大小写,譬如/post/和/POST/不是相同的内容。

搜索引擎抓取工具的名字是多种多样的,谷歌、百度、必应都各自有自己的蜘蛛,并且每家搜索引擎的蜘蛛还不止一种,譬如谷歌有Googlebot、Googlebot-Image等等,如果你想了解谷歌蜘蛛种类,可以查看此文。

下表是常见的搜索引擎的蜘蛛名称。

我们可以针对不同的蜘蛛写不同的规则,下面以示例进行详解。

下面的指令表示:针对谷歌和百度的蜘蛛,禁止抓取的内容=无,也就是什么都可以抓取。

User-agent! Googlebot User-agent! BaiduspiderDisallow!下面的指令是基于WordPress建站的网址结构的,解释已在备注中

User-agent! Googlebot Disallow!/wp-admin/ #禁止抓取wordpress网站后台的内容Disallow!/my-account/ #禁止抓取会员中心目录下的内容Disallow!*/feed/ #wordpress会自动生成feed,为了不消耗抓取份额,可以禁用,其中*表示/feed/之前可以是任意内容Disallow!/?s= #在wordpress网站中,这是关键词搜索结果的网址结构,所以禁止抓取关键词搜索结果页,避免重复内容被抓取Disallow!/*。gif$ #禁止抓取所有gif文件User-agent! *Disallow!/ #除了谷歌,其他搜索引擎都不允许爬取网站Sitemap! https!//example。com/sitemap。xml #sitemap规则不是必须写的,但是建议写,以便蜘蛛抓取。Sitemap! http!//www。example。com/sitemap。xml如果你想知道更多的robots。txt规则撰写方法,请点击此处。

第三步:上传文件至网站根目录robots。txt文件应该放到哪里呢?

由于网站建站系统不同、服务器架构不同,上传文件的方法没有统一的,譬如可以借助主机的管理面板,又或是用FTP,在连通到网站所在的文件目录后,将robots。txt放在网站所在文件夹第一层中(也就是根目录)。

当成功上传后,通常在浏览器中访问域名/robots。txt就可以查看到文件。

第四步:测试 Robots。Txt 文件测试robots。txt中所写的规则是否正确有效,需借助搜索引擎站长工具中提供的功能,以谷歌为例,我们用google search console的robots。txt测试工具(如下图)来进行测试,但这要求你先要将网站添加到google search console中。

打开工具页面后,在选择资源里找到你的网站

当打开测试工具后,我们能看到谷歌获取了我们网站里的robots文件内容,如果你发现它不是最新版的,请把规则部分复制到输入框中,然后点击提交进行更新。接下来,在图的左下角,输入你需要测试的网址,点击右侧的测试按钮后,系统会反馈已拦截或已允许,当被拦截时,还会突出显示是哪条规则拦截了它。

在图中,你还可以选择爬取工具,默认是Googlebot,表示谷歌全部的爬虫。你也可以按需选择谷歌图片、视频的爬虫等等。

如果网址是允许抓取的,那么会提示已允许。所以当发现想要被禁止爬取的网址被允许,那你就要检查一下规则是否撰写正确。

常见问题Robots。Txt文件是必须的吗?可以不要吗?如果你的网站较小,且索引符合你的预期,你可以不要robots。txt文件,主流搜索引擎足够聪明的去识别你的内容。但建议还是要有一个Robots。txt文件,因为搜索引擎访问网站时,首先就是查阅它。

可以将资源类文件(Css、Js)禁止抓取吗?不要这么做,因为搜索引擎需要靠资源类文件来解读你的网页。

当成功上传后,通常在浏览器中访问域名/robots。txt就可以查看到文件。

第四步:测试 Robots。Txt 文件

robotstxt(如何创建R)

测试robots。txt中所写的规则是否正确有效,需借助搜索引擎站长工具中提供的功能,以谷歌为例,我们用google search console的robots。txt测试工具(如下图)来进行测试,但这要求你先要将网站添加到google search console中。

打开工具页面后,在选择资源里找到你的网站当打开测试工具后,我们能看到谷歌获取了我们网站里的robots文件内容,如果你发现它不是最新版的,请把规则部分复制到输入框中,然后点击提交进行更新。接下来,在图的左下角,输入你需要测试的网址,点击右侧的测试按钮后,系统会反馈已拦截或已允许,当被拦截时,还会突出显示是哪条规则拦截了它。

在图中,你还可以选择爬取工具,默认是Googlebot,表示谷歌全部的爬虫。你也可以按需选择谷歌图片、视频的爬虫等等。如果网址是允许抓取的,那么会提示已允许。所以当发现想要被禁止爬取的网址被允许,那你就要检查一下规则是否撰写正确。

常见问题

Robots。Txt文件是必须的吗?可以不要吗?

如果你的网站较小,且索引符合你的预期,你可以不要robots。txt文件,主流搜索引擎足够聪明的去识别你的内容。但建议还是要有一个Robots。txt文件,因为搜索引擎访问网站时,首先就是查阅它。

可以将资源类文件(Css、Js)禁止抓取吗?

不要这么做,因为搜索引擎需要靠资源类文件来解读你的网页。

本文标题:robotstxt(如何创建R)

本文链接:https://www.xiaojinseo.cn/bdsf/10117.html

联系我们

在线咨询:点击这里给我发消息

微信号:ll12135989274

工作日:9:30-18:30,节假日休息