项目作者： yinchuandong

项目描述：
java分布式爬虫，主机和从机控制的机制

高级语言： Java

项目主页：

项目地址: git://github.com/yinchuandong/DistributedCrawler.git

创建时间： 2014-12-12T14:51:59Z
项目社区：https://github.com/yinchuandong/DistributedCrawler
开源协议：
下载

java分布式爬虫，主机和从机控制的机制, ConsistentHash分发Url，维持负载均衡

说明

本文使用redis来保存url, 请自己安装redis，否则无法运行爬虫，

目录结构

CrawlerMaster
|—— 爬虫主机端，进行url分发， 运行main.Index.java即可
|—— 加入从机之后，按照以下4个步骤点击按钮：
|—— 1.分发url
|—— 2.保存url
|—— 3.开始爬取
CrawlerSlave 
|—— 爬虫从机端，具体进行爬取，如果想要和主机连接，进行分布式爬取，运行main.Index.java，
|—— 如果在一台电脑上开启多个从机，需要自己修改网页的保存目录，默认为./web


