百度的蜘蛛不喜欢访问404页面
搜索引擎用户影响最大的中高端网站中,竟也有三成网站每天会产生30%的垃圾信息。这已经极大损害了搜索引擎对站点优质内容的收录,更加影响用户在搜索时的体验。。在web2.0时代,站长如何“净化”网站,给予用户更好的体验从而获得流量,是亟待解决的问题。
“web2.0网站每天新出现的网页中,有10%是垃圾信息,尤其是在以UGC内容为主导的社交类网站上,譬如社交类电子商务网站大量出现后,产生的垃圾信息对用户的体验造成干扰,恶意链接甚至带来利益的损害,也不利于百度对网站的优质内容进行抓取。”百度站长平台负责人表示,web2.0网站的垃圾信息比例正在迅速攀升,其中有近三成的中高端UGC网站,产生的垃圾信息达到了近3成的比例。
一位国内知名社交网站负责人向记者透露:一方面是UGC平台越来越多样化;另一方面,总会有人利用这些UGC平台来做营销,甚至作弊。同时不断涌现出各种群发器、发贴机,批量自动的完成内容发表。作弊者可利用的手段越来越多,可以说无孔不入:任何疏于防范的地方,都可能被作弊者利用。
“当垃圾内容达到30%的比例时,可能会明显影响搜索引擎的评价。垃圾比例越高,被惩罚的可能性就越大。”百度站长平台负责人坦言,站长最关心的还是流量,一旦垃圾信息的管理不善,会影响站点被搜索引擎收录,将大大影响流量的获取。
站长们面临的不仅是垃圾信息的威胁,如何优化网站质量,日常的监测也相当繁琐。
据了解,站长们对站点的监测包括:站点每天新增的页面里,广告贴、垃圾贴的比例,分布在哪里;每天新增的注册用户,异常比例有多少;是否存在自动发贴机的页面,是否需要强壮的验证码机制来预防;哪些让用户贡献内容的功能是必需的,必需的功能点是否做好了应对作弊的准备;激励用户多贡献内容的机制,是否有利于提高页面质量,是否有促进垃圾群发的风险。
但以上的工作,仅凭借站长一己之力难以面面俱到。据百度站长平台负责人介绍,站长在关注网站内容反作弊的同时,还应该关注可能被搜索引擎判断为作弊的情况。但是仅仅删除垃圾内容是达不到反作弊效果的,因为垃圾内容死链可能仍在百度搜索结果里展现,对搜索引擎和网站用户都造成伤害。只有在加大内容监控力度的同时,对已存在的垃圾内容进行删除,并设置为404页面,将404死链通过百度站长平台进行提交,才能减少作弊用户产生的垃圾内容对网站造成的负面影响
三大工具优化网站质量
“一般的第三方网站缺乏专门的技术力量来进行监控或者日志分析,更多还是依赖于百度站长平台的工具。”一位混迹互联网十年的“老兵”告诉记者,百度站长平台与站长的关系正日渐磨合,陆续推出管理站点的工具,要学会活用。
记者从百度站长平台了解到,于2011年底上线以来,陆续推出站点索引量查询、站点抓取异常、死链工具三大工具,致力通过三个方面:快、好、准,来提升网站的权重,获取更多流量。
“百度的蜘蛛不喜欢访问404页面,也不希望网页访问速度慢,甚至抓取的时候出错,访问体验在百度的网站权重评价体系中是极为重要的一环,但是现实问题是,删除很久的网页依然出现在百度的搜索结果中,不利于站长对访问速度以及出错页面的监控。”面对这一问题,百度站长平台最新上线的死链工具,能够让站长把网站需要删除的页面告诉百度。百度站长平台负责人表示,使用百度站长平台的死链工具,可帮助站长提高百度蜘蛛抓取高质量页面的比例,在关注网站自身内容运营的同时,思考如何将高质量页面带来的流量进行合理转化。此外,通过“站点抓取异常”工具,站长可以在无需额外部署技术力量或者分析日志的情况下,了解百度蜘蛛对其网站的抓取情况,以便更好地优化这位百度蜘蛛的访问体验。
而站点索引量查询功能,可以查询网站在百度网页搜索中的网页索引量数据,区别于site语法的查询数值,更精准,更具可参照性。据百度站长平台负责人介绍,站点中有多少页面可以作为搜索候选结果,就是一个网站的索引量。站点内容页面需要经过搜索引擎的抓取和层层筛选后,方可在搜索结果中展现给用户。页面通过系统筛选,并被作为搜索候选结果的过程,即为建立索引。
“百度站长平台上线的三大工具,对于整治垃圾信息,净化站长环境,提高网站口碑和促进自身品牌建设,将起到立竿见影的效果。”这位站长告诉记者。