项目作者: hightman

项目描述 :
纯 PHP 开发的并行抓取工具 (Parallel web crawler written in PHP)
高级语言: PHP
项目地址: git://github.com/hightman/pspider.git
创建时间: 2013-03-08T08:47:47Z
项目社区:https://github.com/hightman/pspider

开源协议:

下载


PHP - spider 框架

这是最近使用纯 php 代码开发的并行抓取(爬虫)框架,基于 hightman\httpclient 组件。

您必须先装有 composer,然后在项目里先运行以下命令下载组件:

  1. composer install

使用 pspider

这里头的 URL 表管理需要 MySQLi 扩展支持,表结构和自定义的内容参见自定义文件。

  1. 复制 custom/skel.inc.phpcustom/your.inc.php
  2. 根据说明修改 custom/your.inc.php
  3. 根据 custom/your.inc.php 里的注释创建 mysql 的 URL 表
  4. 运行 spider.php -u http://… 即可开始循环抓取
  5. UrlTable 的实现很简单仅作示例,具体可自行重做