蜘蛛如何避免重复的爬行和抓取?
六安网站优化小编告诉大家的是为了避免重复的爬行和抓取,搜索引擎建立一个地址库来跟踪已经找到但还没有爬行的页面,以及已经爬行的页面。蜘蛛在找到页面链接后并不是马上去访问,而是将URL导入地址库,然后统一安排抓取。地址库中的url来自几个来源:
1. 手动键入种子站点。
2. 爬行器爬过页面之后,它会从HTML中解析新的链接URL,并将其与地址库中的数据进行比较。如果它不在地址库中,它将被存储在要访问的地址库中。
3. 网站管理员通过搜索引擎网页提交表单提交的网址。
4. 网站由站长通过XML网站地图和站长平台提交。
爬行器根据URL的重要性从要访问的地址库中提取URL,访问并爬行页面,然后从要访问的地址库中删除URL并将其放入要访问的地址库中。
大多数主要的搜索引擎都为网站管理员提供了提交url的表单。不过,这些提交到站点的地址只存储在地址库中,是否包含查看页面有多重要。搜索引擎所包含的绝大多数页面都是由爬行器根据链接本身获取的。六安网站优化小编公平地说,提交页面用处不大,搜索引擎更喜欢跟随链接自己找到新的页面。