蜘蛛如何避免重复的爬行和抓取?

来源:六安网站优化 发布时间:2021/7/20 11:54:14 浏览量:714次

  六安网站优化小编告诉大家的是为了避免重复的爬行和抓取,搜索引擎建立一个地址库来跟踪已经找到但还没有爬行的页面,以及已经爬行的页面。蜘蛛在找到页面链接后并不是马上去访问,而是将URL导入地址库,然后统一安排抓取。地址库中的url来自几个来源:
  1. 手动键入种子站点。
  2. 爬行器爬过页面之后,它会从HTML中解析新的链接URL,并将其与地址库中的数据进行比较。如果它不在地址库中,它将被存储在要访问的地址库中。
  3. 网站管理员通过搜索引擎网页提交表单提交的网址。
  4. 网站由站长通过XML网站地图和站长平台提交。
  爬行器根据URL的重要性从要访问的地址库中提取URL,访问并爬行页面,然后从要访问的地址库中删除URL并将其放入要访问的地址库中。
  大多数主要的搜索引擎都为网站管理员提供了提交url的表单。不过,这些提交到站点的地址只存储在地址库中,是否包含查看页面有多重要。搜索引擎所包含的绝大多数页面都是由爬行器根据链接本身获取的。六安网站优化小编公平地说,提交页面用处不大,搜索引擎更喜欢跟随链接自己找到新的页面。

  • 木易信息工程科技有限公司

    版权所有

  • 24小时全国服务热线:4008-551-662

    总部地址:安徽省合肥市蜀山区森林橙堡B栋17楼

    总部客服电话:0551-65333448