蜘蛛如何避免重复的爬行和抓取？-安徽木易信息

关于我们

蜘蛛如何避免重复的爬行和抓取？

来源：六安网站优化发布时间：2021/7/20 11:54:14 浏览量：714次

　　六安网站优化小编告诉大家的是为了避免重复的爬行和抓取，搜索引擎建立一个地址库来跟踪已经找到但还没有爬行的页面，以及已经爬行的页面。蜘蛛在找到页面链接后并不是马上去访问，而是将URL导入地址库，然后统一安排抓取。地址库中的url来自几个来源:

　　1. 手动键入种子站点。

　　2. 爬行器爬过页面之后，它会从HTML中解析新的链接URL，并将其与地址库中的数据进行比较。如果它不在地址库中，它将被存储在要访问的地址库中。

　　3. 网站管理员通过搜索引擎网页提交表单提交的网址。

　　4. 网站由站长通过XML网站地图和站长平台提交。

　　爬行器根据URL的重要性从要访问的地址库中提取URL，访问并爬行页面，然后从要访问的地址库中删除URL并将其放入要访问的地址库中。

　　大多数主要的搜索引擎都为网站管理员提供了提交url的表单。不过，这些提交到站点的地址只存储在地址库中，是否包含查看页面有多重要。搜索引擎所包含的绝大多数页面都是由爬行器根据链接本身获取的。六安网站优化小编公平地说，提交页面用处不大，搜索引擎更喜欢跟随链接自己找到新的页面。

24小时全国服务热线：4008-551-662