网站地图 - 许正卫

轻松学习网络营销推广知识,就找大地网络营销学习教程网。许正卫专注网络营销8年,该网站为安徽国防电子商务专业实训所用。

您的当前位置:大地网络营销学习网 > seo视频教程 > 第二课:搜索引擎工作原理

第二课:搜索引擎工作原理

来源:未知 编辑:大地 时间:2018-05-14

只有摸清了搜索引擎的基本工作原理,才能够搞清搜索引擎优化更深层次的内涵,也能够解释优化过程中碰到的种种现象。
网页收集(爬行抓取索引)
搜索引擎要知道网上的新生事物,就得派人出去收集,每天都有新的网站产生,每天都有网站内容的更新,而且这些产生的网站数量、更新的网站内容是爆炸式的,靠人工是不可能完成这个任务的,所以搜索引擎的发明者就设计了计算机程序,派它们来执行这个任务。
探测器有很多叫法,也叫Crawler(爬行器)、spider(蜘蛛)、robot(机器人)。这些形象的叫法是描绘搜索引擎派出的蜘蛛机器人爬行在互联网上探测新的信息,Google 把它的探测器叫做Googlebot,百度就叫Baiduspider,Yahoo 称为Slurp,无论它们叫什么,它们都是人们编制的计算机程序,由它们不分昼夜的访问各个网站,取回网站的内容、标签、图片等,然后依照搜索引擎的算法给它们定制索引。
蜘蛛抓取的起始点,有一种说法,说蜘蛛的抓取是从种子站(或叫高权重站),依照权重由高至低逐层出发的。另一种说法蜘蛛爬在URL集合中是没有明显先后顺序的,搜索引擎会根据你网站内容更新的规律,自动计算出何时是爬取你网站的最佳时机,然后进行抓取。
在百度官方博客发布的《索引页链接补全机制的一种办法》一文中,其明确指出“spider会尽量探测网页的发布周期,以合理的频率来检查网页”,由此我们可以推断,在百度的索引库中,针对每个URL集合,其都计算出适合其的抓取时间以及一系列参数,然后对相应站点进行抓取。
然后通过网页上的链接不断抓取文件(深度抓取和广度抓取),这个体现了链接的重要性。
预处理
预处理是搜索引擎最复杂的部分,基本上大部分排名算法都是在预处理这个环节生效。
1、提取关键字:
搜索引擎需要做三件事情:1代码去噪。去除掉网页中所有的代码,仅剩下文本文字。②去除非正文关键词。例如页面上的导航栏以及其它不同页面共享的公共区域的关键词。③去除停用词,停用词是指没有具体意义的词。
当搜索引擎得到这篇网页的关键词后,会用自身的分词系统,将此文分成一个分词列表,然后储存在数据库中,并与此文的URL进行一一对应。
其次消除重复与转载网页
2、重要信息分析
在进行代码除噪的过程中,搜索引擎并非简单的将其去除掉而已,而是充分利用网页代码(例如H标签、strong标签)、关键词密度、内链锚文本等方式分析出此网页中最重要的词组。
3、网页重要度分析
通过指向该网页的外链锚文本所传递的权重数值,来为此网页确定一个权重数值,同时结合上述的“重要信息分析”,从而确立此网页的关键词集合p中每一个关键词所具备的排名系数。
4、倒排文件
搜索引擎就可以在用户产生查询行为之前,将词库中的每一个关键词其对应的URL排名先行计算好,这样就大大节省了处理查询的时间了。
简单来说,搜索引擎用控制器来控制蜘蛛爬取,然后将URL集与原始数据库进行保存,保存之后再用索引器控制每个关键词与URL之间的对应关系,并将其保存在索引数据库中。
查询服务
毕竟搜索引擎是程序,不具备人的思维能力,所以对网页内容理解和判别还是有一定困难,所以搜索引擎也没有我们想象的那么高级神圣。

相关文章:

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
栏目分类

Copyright © 2018 安徽国防电子商务 版权所有 Power by 许正卫

联系大地QQ:许正卫 网络营销推广学习群:网络营销推广学习群

京ICP备11016762号-4

Top