您当前的位置:首页 > 计算机 > 编程开发 > Python

python爬虫第八章:(1)scrapy框架的基本使用

时间:11-05来源:作者:点击数:

scrapy框架

  • 什么是框架?
    • 就是一个集成了很多功能并且具有很强通用性的一个项目模板。
  • 如何学习框架?
    • 专门学习框架封装的各种功能的详细用法。
  • 什么是scrapy?
    • 爬虫中封装好的一个明星框架。
    • 功能:高性能的持久化存储,异步的数据下载,高性能的数据解析,分布式

scrapy框架的基本使用

环境的安装:

- mac or linux:pip install scrapy
- windows:
   - pip install wheel
    - 下载twisted,下载地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
     - 安装twisted:pip install Twisted‑17.1.0‑cp36‑cp36m‑win_amd64.whl
 - pip install pywin32
 - pip install scrapy
 测试:在终端里录入scrapy指令,没有报错即表示安装成功!
   
    - cd xxxPro
    - 在spiders子目录中创建一个爬虫文件
        - scrapy genspider spiderName www.xxx.com
    - 执行工程:
        - scrapy crawl spiderName

创建一个工程

 - 创建一个工程:scrapy startproject xxxPro
 - cd xxxPro
 - 在spiders子目录中创建一个爬虫文件
        - scrapy genspider spiderName www.xxx.com
 - 执行工程:
        - scrapy crawl spiderName

scrapy使用

创建一个工程:scrapy startproject xxxPro

scrapy startproject firsBlood

在这里插入图片描述
在这里插入图片描述

在spiders子目录中创建一个爬虫文件

cd firsBlood

scrapy genspider first www.xxx.com #first爬虫文件名称随便写
在这里插入图片描述
在这里插入图片描述

执行工程:

# - scrapy crawl spiderName  #spiderName 是first

scrapy crawl first
scrapy crawl first --nolog #不建议

#把settings。py修改如下
        # Obey robots.txt rules
        ROBOTSTXT_OBEY = False   #我们修改

        #显示指定类型的日志信息
        LOG_LEVEL = 'ERROR'

在这里插入图片描述

遇到问题

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

只输出错误日志

方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门