在了解百度是怎样抓取网站的有关知识之前,在互联网这门科学里,URL被定义为每个页面的入口地址,搜索引擎的内容抓取程序就通过这些URL列表抓取到页面的,网站制作抓取程序不断的从这些页面中获取URL资源,同时将这些页面存储在自己的服务器里。这样,搜索引擎就可以从互联网中获取到足够的页面。
URL是整个网站的入口,搜索引擎可以通过域名进入网站,发掘URL资源;也可以通过别人的URL地址进入网站并抓取资源。换言之搜索引擎在互联网中抓取页面的首要义务就是要有庞大的域名列表,网站制作想搜索引擎收录, 首要条件就是参与搜索引擎的域名列表,不过用此办法搜索引擎只会活期进行抓取并更新,这种做法比较被动,从域名提交网站被收录所花费的时间也很长。
而让百度抓取程序通过别的网站上的URL发现我们的网站,网站制作从而实现对网站的收录,这种办法主动权在我们手上,时间也会更短。搜索引擎可以建立庞大的域名列表、页面URL列表并贮存足够多的原始页面。在搜索引擎中要获取绝对重要页面,就触及到了搜索引擎的页面收录方式,网站制作页面收录的方式的制定取决于搜索引擎对网络结构的了解。
网页的收录和抓取都是从网站的首页开始, 网站制作抓取首页上所有衔接指向的页面, 构成页面集合A,并剖析出A中所有页面中的链接:在跟踪这些链接抓取下一层的页面,再从深层页面,直至满足某个设定的条件才中止抓取进程深度优先与广度优先的抓取方式相反,深度优先首先跟踪浅层页面中的某一衔接后逐步抓取深层页面,直至抓完最深层的页面才返回浅层页面再跟踪其另一链接,网站制作继续向深层页面抓取。 |