告诉你一个真实的百度
百度收录反复或是K站现象
     今天和一个百度内部员工一起吃饭聊天时,他说,其实百度并不是像一些小网站的站长说的那样不收录新站了,而是最近国内互联网发展太快,百度的数据库服务器一直以来都是满负荷运转。
由于技术原因,百度也一直无法解决这个问题,只能是不断的更新设备来满足需要。
今年这种情况达到最高峰,由于内容急剧增加,前段时间服务器出现不稳定情况,无奈之下,百度只能提高收录新站的门槛,同时减少了一些垃圾站的页面数量,来降低服务器的压力。
但对一些有价值的网站却加大了收录来满足用户需求。
由于百度掌握着很多中国互联网的机密数据,而且百度也为我国政府部门的数据库提供着检索服务。
出于种种原因,无法大规模与国外公司合作来提高服务器的稳定性。
最近几天百度大更新K站,收录减少大揭密
息称,百度近日的收录减少并不是芥则调整,而是因为大量的硬件故障造成的。而此条消息可靠性很高,据悉,在昨天凌晨进行的大更新中,大多数站点收录明显增加或返回近一个月时的水平。大多数网站收录减半,更有不幸被K掉者,下面是摘录该用户的发帖内容。
22日下午,vermin一行20余人受广大站长委托,特意前往百度总部探访近日来百度收录减少的原因。 百度公关小组的张工程师热情接待并介绍了此次百度收录大幅度减少的原因。
会谈中,vermin对百度数据中心表示出浓厚的兴趣,张工程师对此作了重点介绍。
张工程师说,百度的数据中心主要有三大核心元素:baidu文件系统(BFS);baidu索引表(souyin Table:是baidu一种对于半结构化数据进行分布存储与访问的接口或服务);MapBeduce算法(它是baidu开发的C++编程工具,用于大 于1TB数据的大规模数据集并行运算)。
而对索引数据影响最大的就是baidu文件系统。baidu文件系统处于这三个元素的最底层,它负责许多服务器、机器的数据存储工作。很多baidu文件系统的体积都异常庞大,有好几个petabyte规模(1 petabyte相当于1百万gigabytes)。
由于公司的服务器硬件设施跟不上baidu全球化战略的发展,已有200多个服务器集群上的baidu文件系统遭到损坏,其中很多集群内的上千台服务器使用的磁盘遭遇物理损坏,数据大量丢失,所以造成了对中文站的收录反反复复或是K站的现象。
谈到此次事件对中文站长的影响,张冠西工程师表达出了很大的歉意。
如果文章新闻内容重复采集,百度一般先会全部收录,然后会在一个时间内过滤掉采集或非原创的内容。
 
经典短信推荐
资讯中心 | 电子商务 | 搜索营销 | 设计学院 | 中医养生 | 养生保健 | 节日祝福 | 民俗文化 | 奇闻趣事
建站知识 | 人世百态 | 网站导航 | 传统节日 | 搜索热点 | 星座运势 | 趣闻轶事 | 祝福的话 | 短信大全
© 2021 QicaiSpace.Com