2025年6月8日 星期日 乙巳(蛇)年 三月十二 设为首页 加入收藏
rss
您当前的位置:首页 > 计算机 > 编程开发 > Ruby

Spider 基于 RabbitMQ 中间件的爬虫的 Ruby 实现

时间:12-14来源:作者:点击数:5

设计思路

爬虫(典型的生产者 - 消费者模型)在我的理念里由以下几部分组成:

  • Fetcher 抓取器:
    • Fetcher 这里的实现是对 HttpClient 的封装
    • Fetcher 拿到 Response 之后会判定是否需要写入队列 - 然后被消费者消费
  • Scheduler 调度器
  • Middleware 中间键

衍生开来:

  • 多线程抓取器 - Fetcher 跑在线程里面
  • 分析器 - 解析抓取的内容

怎样安装

  • gem install spider -s https://github.com/w-zengtao/rb-spider

依赖于

  • Redis
  • RabbitMQ

配置文件

  • config.yml

默认配置如下

  • redis:
  • url: 127.0.0.1
  • port: 6379
  • db: 0
  • rabbitmq:
  • vhost: "/"
  • username: guest
  • password: guest
  • host: 127.0.0.1

如何使用

如我们在设计思路里面所讲,我们的程序的入口应该在 Scheduler 模块


源码里面的一些技巧

  1. Ruby的 单例模式
  2. Ruby的 线程池 - 也就是CPU资源池
  3. 利用轮询设计的 定时器

项目地址:https://github.com/w-zengtao/rb-spider

方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
上一篇:搭建 Ruby 环境(RVM+Ruby+Rails+Gems) 下一篇:很抱歉没有了
推荐内容
相关内容
栏目更新
栏目热门
本栏推荐