项目作者: yinchuandong

项目描述 :
java分布式爬虫,主机和从机控制的机制
高级语言: Java
项目地址: git://github.com/yinchuandong/DistributedCrawler.git
创建时间: 2014-12-12T14:51:59Z
项目社区:https://github.com/yinchuandong/DistributedCrawler

开源协议:

下载


java分布式爬虫,主机和从机控制的机制, ConsistentHash分发Url,维持负载均衡

说明

  1. 本文使用redis来保存url, 请自己安装redis,否则无法运行爬虫,

目录结构

  1. CrawlerMaster
  2. |—— 爬虫主机端,进行url分发, 运行main.Index.java即可
  3. |—— 加入从机之后,按照以下4个步骤点击按钮:
  4. |—— 1.分发url
  5. |—— 2.保存url
  6. |—— 3.开始爬取
  7. CrawlerSlave
  8. |—— 爬虫从机端,具体进行爬取,如果想要和主机连接,进行分布式爬取,运行main.Index.java
  9. |—— 如果在一台电脑上开启多个从机,需要自己修改网页的保存目录,默认为./web