限制网站内的索引和链接爬网
允许所有 robot 有完全访问权限,避免出现“未找到文件:robots.txt”错误 创建空的 robots.txt 文件
允许 robots 完全访问 User-agent: *
Disallow:
仅允许 MSNBot 访问 User-agent: msnbotDisallow:User-agent: *Disallow: /
服务器拒绝 robot User-agent: *Disallow: /
仅拒绝 MSNBot User-agent: msnbotDisallow: /
仅拒绝 Psbot(图片搜索) User-agent: psbotDisallow: /
限制网站内的索引和链接爬网
您可以阻止 MSNBot 对您的网站上的指定文件类型的链接进行爬网。具体方法:指定对 User-Agent MSNBot 使用 Disallow 标记,该标记用来指定拒绝的文件类型。
设置: 语法: 示例
限制 MSNBot 索引指定类型的文件 User-agent: msnbotDisallow: /*.[文件扩展名]$
(必须有 “$”符号) User-agent: msnbotDisallow: /*.PDF$Disallow: /*.jpeg$
Disallow: /*.exe$
注意
有关 robots.txt 文件的详细信息,请转到 Web Robots 页面。
使用 metadata 标记控制页面索引和链接爬网(返回页首)
您可以允许 MSNBot 爬网您的网站,但限制其访问其中的某些网页,方法是在网页代码中使用 noindex 和 nofollow 元标记。使用 noindex 标记,能找到该网页,但MSNBot 不能索引其内容。使用 nofollow 标记,可以阻止爬网软件跟踪网页中的链接,从而防止其转到其他网页或文档。请注意,这些标记并非适用于所有网络爬网 robot。
若要设置网站的访问权限和索引限制,请在下面的标记语法示例中,将 robots 替换为 msnbot 或 “*”.msnbot。可以单独使用每个标记,或将标记合并成一个单独的元标记。
设置: 在页眉添加:
限制 MSNBot 索引某页 <META NAME="msnbot" CONTENT="noindex" />
限制所有 robots 索引某页 <META NAME="*" CONTENT="noindex" />
限制 MSNBot 跟踪某页上的链接 <META NAME="msnbot" CONTENT="nofollow" />
限制所有 robot 跟踪某页上的链接 <META NAME="robots" CONTENT="nofollow" />
阻止 MSNBot 索引和跟踪链接 <META NAME="msnbot" CONTENT="noindex,nofollow" />
禁止 MSNBot 缓存页面 <META NAME="msnbot" CONTENT="nocache" />
或
<META NAME="msnbot" CONTENT="noarchive" />
限制爬网频率
如果遇到 MSNBot 拥堵, 可以通过在 robots.txt 中指定爬网延迟参数,来指定 MSNBot 访问您的网站的频率,以秒为单位。若要执行此设置,请将此语法添加到您的 robots.txt 文件:
User-agent: msnbotCrawl-delay: 120
您遇到问题需要联系我们时,请在其中包含以下信息,以便我们更快地向您提供帮助:
MSNBot 放在 robots.txt 文件中的目标网站地址
遇到问题时的日期范围
访问日志