[限制网站内的索引和链接爬网:七彩学堂]-七彩空间

七彩课堂[企业建站知识系列]

限制网站内的索引和链接爬网

允许所有 robot 有完全访问权限，避免出现“未找到文件：robots.txt”错误创建空的 robots.txt 文件
允许 robots 完全访问 User-agent: *
Disallow:
仅允许 MSNBot 访问 User-agent: msnbotDisallow:User-agent: *Disallow: /
服务器拒绝 robot User-agent: *Disallow: /
仅拒绝 MSNBot User-agent: msnbotDisallow: /
仅拒绝 Psbot（图片搜索） User-agent: psbotDisallow: /
限制网站内的索引和链接爬网
您可以阻止 MSNBot 对您的网站上的指定文件类型的链接进行爬网。具体方法：指定对 User-Agent MSNBot 使用 Disallow 标记，该标记用来指定拒绝的文件类型。
设置：语法：示例
限制 MSNBot 索引指定类型的文件 User-agent: msnbotDisallow: /*.[文件扩展名]$
（必须有 “$”符号） User-agent: msnbotDisallow: /*.PDF$Disallow: /*.jpeg$
Disallow: /*.exe$
注意
有关 robots.txt 文件的详细信息，请转到 Web Robots 页面。
使用 metadata 标记控制页面索引和链接爬网(返回页首)
您可以允许 MSNBot 爬网您的网站，但限制其访问其中的某些网页，方法是在网页代码中使用 noindex 和 nofollow 元标记。使用 noindex 标记，能找到该网页，但MSNBot 不能索引其内容。使用 nofollow 标记，可以阻止爬网软件跟踪网页中的链接，从而防止其转到其他网页或文档。请注意，这些标记并非适用于所有网络爬网 robot。
若要设置网站的访问权限和索引限制，请在下面的标记语法示例中，将 robots 替换为 msnbot 或 “*”.msnbot。可以单独使用每个标记，或将标记合并成一个单独的元标记。
设置：在页眉添加：
限制 MSNBot 索引某页 <META NAME="msnbot" CONTENT="noindex" />
限制所有 robots 索引某页 <META NAME="*" CONTENT="noindex" />
限制 MSNBot 跟踪某页上的链接 <META NAME="msnbot" CONTENT="nofollow" />
限制所有 robot 跟踪某页上的链接 <META NAME="robots" CONTENT="nofollow" />
阻止 MSNBot 索引和跟踪链接 <META NAME="msnbot" CONTENT="noindex,nofollow" />
禁止 MSNBot 缓存页面 <META NAME="msnbot" CONTENT="nocache" />
或
<META NAME="msnbot" CONTENT="noarchive" />
限制爬网频率
如果遇到 MSNBot 拥堵, 可以通过在 robots.txt 中指定爬网延迟参数，来指定 MSNBot 访问您的网站的频率，以秒为单位。若要执行此设置，请将此语法添加到您的 robots.txt 文件：
User-agent: msnbotCrawl-delay: 120
您遇到问题需要联系我们时，请在其中包含以下信息，以便我们更快地向您提供帮助：
MSNBot 放在 robots.txt 文件中的目标网站地址
遇到问题时的日期范围
访问日志