网站地图 - 许正卫

轻松学习网络营销推广知识,就找大地网络营销学习教程网。许正卫专注网络营销8年,该网站为安徽国防电子商务专业实训所用。

您的当前位置:大地网络营销学习网 > seo培训教程 > 搜索引擎spider两大优先抓取策略

搜索引擎spider两大优先抓取策略

来源:未知 编辑:大地 时间:2018-04-20

Spider也就是seo界常听说的爬虫、蜘蛛或者机器人,是专门负责通过链接抓取回来页面进行索引和页面排序的一个程序。需要注意的是,只要是spider抓到的url,都可能会参与排名,但参与排名的网页并一定被spider抓取了内容,比如天猫屏蔽了百度搜索引擎,baidspider不能抓取网页内容,但天猫上有很多独立域名的店铺参与了排名。

我们知道baidspider从一个网页开始抓取时,会获得这个页面上所有的导出链接,当spider随机抓取其中的一个链接时,同样又会收集到很多新的链接。此时spider面临二种抓取方式的选择:深度优先策略和广度优先策略。

但体现到抓取策略上,主要就两大优先抓取策略:重要网页优先抓取策略和大站链接优先抓取策略。

一、重要页面优先抓取策略

一般认为页面的重要性,除了受寄主站点本身的质量和权重影响外,就看导入链接多少和导入链接的质量了。Spider抓取层面上的“重要页面”一般由导入的链接来决定。

二、大站优先策略

这个思路很简单,被搜索引擎认定为的大站,一定有着稳定的服务器、良好的网站结构、优秀的用户体验、及时的资讯内容、权威的相关资料、丰富的内容类型和庞大的网页数量等特征,当然也会相应的拥有大量高质量的外链。

也就是在一定程度上可以认定这些网站的内容就可以满足相当比例网民的搜索请求,搜索引擎为了在有限的资源内尽最大的努力满足大部分普通用户的搜索需求,一般就会对大站进行特色照顾。

因此大家可以看到新浪、网易类网站上自主发布的内容几乎都会被百度秒收,因为baidspider在这些网站上24小时不间断抓取的。通过这点如何做到新站秒收的策略:就是把新站链接推送到或挂到一些大站首页的推荐页面中,效果非常好。这两个策略与前面所讨论的广度优先策略和深度优先策略相结合的抓取方式是有共同点的。比如,从另一个角度来看,如果spider按照前两个策略抓取,一个页面获得的导入链接越多,被提前抓到的几率就越大,也就是和重要页面优先抓取时趋同的。

在spider资源有限的情况下,广度优先策略和深度优先策略的结合分配本身就会以站点的大小进行区别对待,大网站的页面有着先天的高重要程度,往往也容易获得更多链接支持。

所以宏观上来看,这几个策略在抓取表现上有相近之处,在实际的抓取过程中相辅相成。

相对于整个互联网的网页来说,spider的资源再充足也是有限的,所以优秀的spider程序应该首先保证对重要网页的抓取,然后才是尽力抓取尽可能全的互联网网页信息。由此也可以看出依靠外部链接来引导spider和提升网站权重,以及依靠内容长期运营网站权重的重要性。

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
栏目分类

Copyright © 2018 安徽国防电子商务 版权所有 Power by 许正卫

联系大地QQ:许正卫 网络营销推广学习群:网络营销推广学习群

京ICP备11016762号-4

Top