Scrapy 是用 Python 实现的爬虫应用框架。
Scrapy 经常被应用在数据挖掘、信息处理等方面。可以使用 Scrapy 框架通过添加很少的代码来实现一个爬虫,达到提取某个网站或者某组网站的相关格式化的数据。
Scrapy 最初是为了页面抓取所设计的,但是也可以应用在获取 API 所返回的数据(例如Amazon Associates Web Services)。作为通用的网络爬虫,其具有以下特点:
和其他软件包的安装一样,可以通过 PIP 来安装 Scrapy。如果是在 Linux 或者 macOS 环境下,输入下面的命令:
$ sudo pip3 install scrapy
如果是在 Windows 环境下,需要先安装包 pypiwin32,然后安装 Scrapy,输入下面的命令:
C:\> pip3 install pypiwin32
C:\> pip3 install scrapy
对于 Windows,推荐使用 Anaconda 来安装。
图 1 演示了基本的安装过程。
具体安装过程如下:
安装完成后启动 IPython,输入 import scrapy,如果出现下面的内容,表明安装成功,如图 2 所示。