搜索引擎面对海量的网页,他们并不是平行的抓取每一个网页,搜索引擎如何优先抓取最重要的网页
点击次数: 次 发布时间:2013-1-18
但是,特征 4 和5具有局限性,因为链接的深度并不能完全表明这个网页的重要程度。那么怎么解决这个问题?搜索引擎采用如下的办法:
1) URL 权值的设定:根据 URL 的目录深度来定,深度是多少,权值就减少多少,权值最小为零。
2) 设定 URL 初始权值为 一个固定的数值 。
3) URL 中出现字符”/”,”?” ,或”&” 1 次, 则权值减 一个数值 ,出
现”search”,”proxy”,或”gate” 1 次,则权值减一个数值;最多减到零。(包含”?”,
或”&” 的URL 是带参数的形式,需要经过被请求方程序服务获得网页,不是搜索引擎系统侧重的静态网页,因此权值相应降低。包含”search”,”proxy”,或”gate” ,说明该网页极大可能是搜索引擎中检索的结果页面,代理页面,因此要降低权值)。
4) 选择未访问 URL 的策略。因为权值小不一定说明不重要,所以有必要
给一定的机会搜集权值小的未访问 URL 。选择未访问 URL 的策略可以采用轮流的方法进行,一次按照权值排序取,一次随机取;或者 N次随机选取。
当搜索引擎抓取了大量的网页的时候,然后进入到一个阶段,对网页进行前面3个特征的判读,再通过大量的算法判断网页的质量,然后给予相对的排名。