网站网络技术(网站的技术分析)

sukai 2023-10-27 213

默认

　　一、Robots文件使用方法

　　搜索引擎通过一种程序robot（又称spider），自动访问互联网上的网页并获取网页信息。

　　您可以在您的网站中创建一个纯文本文件robots.txt，在这个文件中声明该网站中不想被robot访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。robots.txt文件应该放在网站根目录下。

　　当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索机器人就沿着链接抓取。

　　在服务器设置有问题的情况下，robots文件不存在时会返回200状态码及一些错误信息，而不是404状态码，这样可能会使搜索引擎错误解读robots文件信息，所以就算允许抓取所有内容，也要建一个空的robots.txt文件放在根目录下；

　　robots.txt文件的格式：

　　“robots.txt”文件包含一条或更多的记录，这些记录通过空行分开，每一条记录的格式如下所示：

　　field:optionalspacevalueoptionalspace

　　域:可选空格域值可选空格

　　例1. 禁止所有搜索引擎抓取任何内容，该robots.txt文件：

　　User-agent: *

　　Disallow: /

　　例2. 禁止某个搜索引擎的访问

　　User-agent: baiduspider

　　Disallow: /

　　例3. 允许某个搜索引擎的访问

　　User-agent: baiduspider

　　例4.告诉蜘蛛不要抓取/cgi-bin/和/tmp/目录下的内容及文件/aa/index.html

　　User-agent: *

　　Disallow: /cgi-bin/

　　Disallow: /tmp/

　　Disallow: /aa/index.html

　　例5.Allow告诉蜘蛛应该抓取某些文件，单独写没有意义，需要和Disallow配合使用，可以告诉蜘蛛某个目录下大部分不允许抓取，只允许抓取一部分

　　User-agent: *

　　Disallow: /ab/

　　Allow: /ab/cd/

　　例6.$通配符匹配URL结尾的字符，如允许蜘蛛抓取以.htm为后缀的URL

　　User-agent: *

　　Allow: .htm$

　　禁止百度抓取所有.jpg文件

　　User-agent: Baiduspider

　　Disallow: .jpg$

　　例7.*通配符告诉蜘蛛匹配任意一段字符，如禁止蜘蛛抓取所有htm文件

　　User-agent: *

　　Disallow: /*.htm

　　只要有导入链接指向这个URL，搜索引擎就知道这个URL的存在，虽然不抓取页面内容，但会以一下几种形式显示在搜索引擎结果中：

　　1.只显示URL，没有标题，描述；

　　2.显示开放目录或雅虎等重要目录的标题和描述；

　　3.导入链接的锚文字显示为标题和描述；

　　4.要想使URL完全不出现在结果中，需要使用页面上的meta robots标签；

　　主流搜索引擎都支持robots文件指令，robots.txt禁止抓取的文件搜索引擎将不访问，不抓取。但注意的是，被禁止抓取的URL还是可能出现在结果中。只要有导入链接指向这个URL，搜索引擎就知道这个URL的存在，虽然不抓取页面内容，但会以一下几种形式显示在搜索引擎结果中：

　　1.只显示URL，没有标题，描述；

　　2.显示开放目录或雅虎等重要目录的标题和描述；

　　3.导入链接的锚文字显示为标题和描述；

　　要想使URL完全不出现在结果中，需要使用页面上的meta robots标签；

　　二、Meta robots文件使用方法

　　Meta robots标签是页面head部分meta标签的一种，用于指令搜索引擎禁止索引本页内容

　　最简单的meta robots标签格式为：

　　meta name=“robots” content=“noindex,nofollow”

　　禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接

　　标签不区分大小写

　　各标签使用方法：

　　1、NOINDEX:告诉蜘蛛不要搜索本页面

　　2、NOFOLLOW:告诉蜘蛛不要跟踪本页面上的链接

　　3、NOSNIPPET:告诉搜索引擎不要在搜索结果中显示说明文字

　　4、NOARCHIVE:告诉搜索引擎不要显示快照

　　5、NOODP:告诉搜索引擎不要使用开放目录中的标题和说明

　　百度官方目前只支持NOFOLLOW和NOARCHIVE

　　meta name=“robots” content=“index,follow”

　　没有意义。需要被收录、索引，链接需要被跟踪的页面，不用写meat robots标签

　　三、Nofollow文件使用方法

　　Nofollow属性只适用于本链接。

　　Nofollow代码形式为：

　　：a href=“https://www.example.com” rel=“nofollow”这里是锚文字/a。

　　Nofollow标签常用于博客、论坛、社会化网站、留言板等地方

标签：网站网络技术

海报

阅读

相关推荐

云南网络技术服务资费(云南省网络公司)

中国的网络技术现状分析(中国的网络技术现状分析论文)

网络技术与数据挖掘考研(网络数据挖掘技术有哪些)

工业控制网络技术概述总结(工业控制网络的理解和认识)

南京迈康网络技术有限公司(广州诈骗公司名单曝光)

嘉兴云网络技术(嘉兴互联网学院)

邯郸网络技术选择什么(邯郸学院网络工程专业)

河北网络技术服务价值(网络技术服务内容)