手机知网 App
24小时专家级知识服务
打 开
计算机软件及计算机应用
一种高效的分布式爬虫系统负载均衡策略
高效的网络数据采集方法是挖掘数据海洋的关键,网络爬虫因快速实现数据的采集及结构化存储,成为主流的数据采集手段。针对现有分布式爬虫系统中的节点负载不均衡问题,提出一种分布式爬虫系统负载均衡策略。首先,分析影响爬虫节点运行时间的因素,采用BP神经网络构建基于多因素参数的非线性分布式爬虫节点运行时间模型;然后,以该模型预测的各子节点爬虫运行时间的最小方差为分布式爬虫系统负载均衡策略的目标函数;最终,采用受约束的改进粒子群优化算法求解目标函数,确定负载均衡任务分配方案。实验结果表明,本文提出的负载均衡策略能够缩短分布式爬虫系统的运行时间。
0 191
计算机工程
网络首发

搜 索