项目作者: lovebaicai

项目描述 :
scrapy-redis自用修改
高级语言: Python
项目地址: git://github.com/lovebaicai/scrapy-redis.git
创建时间: 2018-01-29T02:35:27Z
项目社区:https://github.com/lovebaicai/scrapy-redis

开源协议:

下载


自用scrapy-redis,修改源代码,适合自己项目需求

  • fork scrapy-redis
  • 原项目会持续读取redis数据,不会自动停止。修改源代码,实现读取固定source:start_urls完成后,自动结束爬虫
  • 目前测试可使用20个进程同时抓取30余个平台,读取redis结束后,可自动结束
  • 部署环境:CentOS release 6.9 (Final) + Python3.5
  • 具体实现代码:
    1. # filename: spiders
    2. # linenumber:82
    3. while found < self.redis_batch_size:
    4. data = fetch_one(self.redis_key)
    5. if not data:
    6. # Queue empty.
    7. #self.crawler.engine.close_spider(self.name, 'finished')
    8. self.crawler.engine.close_spider(spider=self, reason='queue is empty, the spider close')
    9. break