D7网络工作室:搜索引擎工作过程的第一步

2012/03/18  搜索引擎工作原理,潍坊第七网络工作  www.di7.cc

上篇文章中我们讨论了搜索引擎工作原理的几个阶段,这章潍坊第七网络工作室继续为大家具体介绍第一步:爬行和抓取。 1、蜘蛛。搜索引擎用来爬行和访问页面的程序被称为蜘蛛,也成为机器人。搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程序发出的页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库,搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发分布爬行。 2、跟踪链接。为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,这也就是搜索引擎蜘蛛这个名称的由来。整个互联网是由相互链接的网站及页面组成的。从理论上说,蜘蛛从任何一个页面出发,顺着链接都可以爬行到网上的所有页面。当然,由于网站及页面链接结构异常复杂,蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。 3、吸引蜘蛛。虽然理论上蜘蛛能爬行和抓取所有页面,但实际上不能、也不会这么做。SEO人员要想让自己的更多页面被收录,就要想法设法吸引蜘蛛来抓取。 4、地址库。为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被收录的页面。 5、文件存储。搜索引擎蜘蛛抓取的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。每个URL都有一个独特的文件编号。 6、爬行时的复制内容检测。检测并删除复制内容通常是在预处理过程中进行的,但现在的蜘蛛在爬行和抓取文件时也会进行一定程度的复制内容检测。遇到权重很低的网站上大量转载或抄袭内容时,很可能不再继续爬行。这也就是有的站长在日志文件中发现了蜘蛛,单页面从来没有被真正收录过的原因。 希望这篇文章能够对潍坊网络公司或个人站长对索引擎工作原理有所了解。
称呼
电话/QQ
内容
验证

W - 为什么选择我们?

第七网络工作室
我们一直在进步
2012年08月 二次改版
2012年02月 代码调整使其更利于SEO
2012年01月 添加免费活动版块
2011年12月 修改网站博客程序
2011年07月 网站改版
...
第七网络工作室 版权所有 © 2000-2015    未经允许不得擅自转载本站内容    鲁ICP备11019892号-1    QQ:165683653    TEL:18264465993  

欢迎访问D7网络工作室,如果您有任何疑惑或业务咨询可以填写下面的表格给我们留言,我们会第一时间联系您。

留言类型
您的名字
联系电话
QQ/Email
关闭