2016-05-02 21:36:11
这个问题我有经验。绝对是血淋淋的教训。当网页被删除时一定要返回404.明确通知搜索引擎该网页已经被永久删除。坚决不能在robots屏蔽
当然,一定要检查下 你返回给搜索引擎的是302 还是404。我在2009年就范了这样的一个错误,404页面做了一个跳转,最后返回搜索引擎的http头是302 产生了大量的302导致网站一周内被K掉。只要正常返回404,搜索引擎就会删除原url的内容。并且短时间内不会再次通过该url来访。
尽快统计出所有已经删除404的url,通过百度站长工具,提交删除。百度一个星期左右会删除所有已经提交的404页面。
既然已经删除了,并返回了404 ,这本身是一个正常的行为,为什么还要去屏蔽呢?
屏蔽协议加入到robots后。搜索引擎无法抓取内容,不知道url的内容是正常还是不正常?还是有些不可预知的问题呢?蜘蛛就会隔一段时间就通过原来的url抓取。不信?你取消下robots屏蔽试试,多检查几天你的iis日志。绝对有蜘蛛通过屏蔽的url进行抓取页面。
所以不能已经返回404后,在进行robots屏蔽。这样返回404的意义又何在呢? 404代表网民和蜘蛛都无法看到内容。而robots屏蔽仅仅是标识蜘蛛不能抓取,不代表url不存在。 我的站点原来是返回404后,又屏蔽了robots。导致在2年多的时间内总是有蜘蛛通过原来的url抓取,最后果断允许抓取所有url
如果网站是改版,url发生了变化,而原内容还存在的。就需要做301永久重定向。让搜索引擎能够抓取到新的url。从而不会导致网站流量的流失。也不会造成在百度数据库内,有相同内容的两个url网址。不会造成数据的重复。
即便是url发生了变化,301定向后千万不要使用robots屏蔽掉原url。屏蔽后搜索引擎就会产生内容重复的两个url,百度无法确定要不要删除原url,新url也不会有好的排名。
不过301重定向并没有立竿见影的效果,需要等待几个月时间,百度才能完成新旧url的权重交替,只能慢慢的等待了,加大下新url的推广力度。