专利名称:分布式系统上网络爬虫数据的处理方法和装置专利类型:发明专利发明人:李庆
申请号:CN201410779172.3申请日:20141215公开号:CN104408182A公开日:20150311
摘要:本发明公开了一种分布式系统上网络爬虫数据的处理方法和装置,其中,该方法包括:解析下载的网页得到网页资源地址;对网页资源地址进行哈希计算得到第一哈希值;按照第一哈希值将网页资源地址分配至对应的第一存储位置;在第一存储位置对应的第一物理结点上判断网页资源地址是否被爬取过;若网页资源地址被爬取过,则丢弃网页资源地址;若网页资源地址未被爬取过,则保存网页资源地址至待爬取队列。采用本发明,解决了现有技术中对大规模的网页资源地址数据的存储占用空间大和查询效率低的问题,从而达到了对大规模的网页资源地址数据的快速存储和高效查询的效果。
申请人:北京国双科技有限公司
地址:100086 北京市海淀区双榆树小区知春路76号翠宫饭店8层A间
国籍:CN
代理机构:北京康信知识产权代理有限责任公司
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- xiaozhentang.com 版权所有 湘ICP备2023022495号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务