为什么谷歌关心重复内容
转载自:谷歌中文网站管理员博客
最近,搜索引擎战略会议在寒冷的芝加哥举行。许多谷歌参加者总是被问及关于重复内容的问题。对于这个话题,我们发现有许多破碎的并且有些混乱的理解。我们想在此予以澄清。
什么是内容重复?
重 复的内容一般是指在不同域名间存在大量的相同或相似的内容。很多时候,它并非绞意或至少本无恶意。譬如说,有些论坛会生成一些专为手机屏幕的页面;商店物 品被显示在(有时甚至是链接到)多种不同的URL上,等等。但有些时候,一些网站为了操纵搜索引擎排名,获得更多流行或长尾查询的访问量,大量地从其他网 站复制内容。
什么不是重复内容?
虽然谷歌网站有方便易用的翻译功能,我们的算法不会把有着相同内容的英文版和西班牙文版看作内容复制。同样,你不用担心我们把你文章中对其他文章小片段的引用认定为重复内容。
为什么谷歌关心重复内容?
谷歌用户使用Google时通常希望看到多样化的原创内容。如果他们找到的都是内容相同的一堆搜索结果,可以想见那是多么烦人。
谷歌做了些什么?
Google 在抓取网页和获得搜索结果时,总是力图索引并显示内容不同的页面。这种过滤意味着,譬如说,如果你的网站有文章的正常版和打印版,并且你没有在 robots.txt里设定noindex标记,谷歌就只会选择一个版本显示给谷歌用户。对于企图利用复制内容来操控排名,欺骗谷歌用户的少数情况,我们 会在对相关页面的索引和排名作出适当调整。当然,我们更愿意把重点放在过滤而不是排名调整上... 因此,在绝大多数情况下,最坏的结果就是原创者看到了不愿看到的版本出现在我们的索引里。