序言

    发布本资料须遵守开放出版许可协议 1.0 或者更新版本。

    未经版权所有者明确授权,禁止发行本文档及其被实质上修改的版本。未经版权所有者事先授权,禁止将此作品及其衍生作品以标准(纸质)书籍形式发行。

    如果有兴趣再发行或再版本手册的全部或部分内容,不论修改过与否,或者有任何问题,请联系版权所有者

    [email protected]

    本文档的版权归宇润所有,本文档及其描述的内容受有关法律的版权保护,对本文档内容的任何形式的非法复制,泄露或散布,将导致相应的法律责任。

    QQ群:17916227 点击加群,如有问题,负责的宇润全程手把手解决。

    Github:https://github.com/Yurunsoft/php-crawler

    介绍

    宇润爬虫框架(Yurun Crawler) 是一个低代码、高性能、分布式爬虫采集框架,基于 imi 框架开发,运行在 Swoole 常驻内存的协程环境。

    为什么会开发这个框架?最近有爬虫需求,调研了一些市面上现有的 PHP 爬虫框架功能都十分简陋,需要编写的重复代码极多。

    Yurun Crawler 的目标是能够用最少的代码,方便快速地实现爬虫采集功能。

    Yurun Crawler 的愿景是成为宇宙第一爬虫框架,以后提到爬虫就想到 Yurun Crawler 可以一把梭实现!

    功能特性

    • 低代码,几乎不需要编写代码,大部分逻辑依靠注解实现
    • 高性能,基于 imi + Swoole 常驻内存及协程实现
    • 分布式,采集的流程由消息队列推动,依靠 Redis 等中间件实现纯天然的分布式特性
    • 支持下载器并发限流
    • 内置解析能力强,支持:Dom 解析、正则、JSON
    • 代理 IP 池,支持:MySQL、Redis
    • 支持定时采集
    • 支持模型存储
    • 易扩展