网站地图 - 许正卫

轻松学习网络营销推广知识,就找大地网络营销学习教程网。许正卫专注网络营销8年,该网站为安徽国防电子商务专业实训所用。

您的当前位置:大地网络营销学习网 > seo培训教程 > Spider如何确定再次抓取已索引网页的频率

Spider如何确定再次抓取已索引网页的频率

来源:未知 编辑:大地 时间:2018-04-22

在讨论spider再次抓取更新策略之前,我们先探讨一下spider会不会爬?

spider抓取一个网页后会优先把网页中的url提取出来,同时记录和计算url的形式、位置、锚文本、当前页面所赋予的权值等形式,然后把这些url合并到抓取队列中,并根据每个url所附有的总权值等信息进行抓取队列内排序。spider就是根据这个不断变化顺序的url队列来抓取网页内容的,而并不是从一个页面沿着链接爬到另一个页面抓取。因此严格来说spider是不会爬的,站长在网站日志中也可以看到spider对网站的访问并没有refer,都是直接访问。

Spider如何确定再次抓取已索引网页的频率

为什么spider需要再次抓取已索引的网页?

现在互联网网页内容多是动态变化的,甚至有时网页会被管理者删除。搜索引擎抓取到的本地页面,可以看做是对已经抓取并索引过的网页做了一个镜像,也就是说理论上搜索引擎应该保证,本地镜像页面和对应互联网上的网页内容实时一致。

但是由于搜索引擎的spider资源有限,现阶段做不到也没有必要做到实时监测全部已索引网页的所有变化,所以spider需要进行再次更新该网页索引。

哪站在spider的角度,一般会根据哪些方面来确定对已索引网页再次抓取的频率呢?

用户体验

当用户在搜索引擎提交查询后,不论返回结果有多少,大部分用户都会在前三页找到自己所需要的信息,很少有用户会浏览第四页或者更靠后的搜索结果。本着优先更新大部分用户所需要内容的原则,所以搜索引擎会搜集所有用户的搜索请求,然后统计所有搜索结构中用户可能看到的网页,继而进行优先再次抓取和更新。理论上,这些网页被搜索到的次数越多,再次被抓取的频率就会越高。

Spider如何确定再次抓取已索引网页的频率

历史更新频率

搜索引擎会尝试发现某一个网页中内容的更新频率,因为Spider的再次抓取就是为了发现己经被索引网页是否有变化,如果某个网页持续没有变化,可能搜索引擎就会降低对其抓取的频率,甚至不再对其进行再次抓取。这样慢慢地发现网页的更新频率,以调整到最佳的抓取频率。同时Spider注重的变化应该是网页的主体内容部分,一般会忽略主体内容周围的广告模块、导航模块及推荐链接模块的更新变动。

网页类型

不同的网页类型有不同的更新频率。在同一个站点内网站首页、目录页、专题页和文章页的更新频率肯定是不同的.所以对于同一站点内的网页,Spider对不同类型的网页抓取频率是不同的。首页和目录页是Spider经常光顾的页面;根据专题页面的时效性或者其他特征,Spider可能会在某一时间段内进行频繁抓取,时效性过期后就会降低对其的抓取频率;对于文章页,Spider很有可能第一次来过之后就不再来了。

网页权重

除了以上再次抓取策略外,网页权重也是决定抓取频率的重要因素。用户体验策略在一定程度上也反映了网页权重的影响。在网页类型相同、历史更新频率也差不多的情况下,肯定是权重越高的页面被抓取的频率越高。比如百度首页、好123首页、chinaz站长工具首页和普通企业站首页都可以简单归为网站首页,并且前三个“首页”长期都不会有什么更新,普通企业站首页可能偶尔还会有更新,但是前三个“首页”的百度快照一般都是最新的,而普通企业站的首页快照可能是一周前甚至一个月前的。这就反映出了网页权重在抓取频率中的作用。

Spider如何确定再次抓取已索引网页的频率

以上讨论的是Spider正常的抓取策略。有抓取并不代表一定有更新,当页面内容的变化值得搜索引擎更新索引时才会更新,比如,上面提到的文章页主体内容不变但是推荐链接全变了,一般搜索引擎也不会浪费资源做无意义的更新。当Spider发现已经索引的页面突然被删除,也就是服务器突然返回404状态码时,也会在短时间内增加对该页面的抓取频率。

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
栏目分类

Copyright © 2018 安徽国防电子商务 版权所有 Power by 许正卫

联系大地QQ:许正卫 网络营销推广学习群:网络营销推广学习群

京ICP备11016762号-4

Top