- pip install wheel
- pip install twisted
- pip install pywin32
- pip install scrapy
-
在终端里录入scrapy指令,没有报错即表示安装成功!
创建工程命令
- scrapy startproject xxxPro
-
进入项目
- cd xxxPro
-
在spiders子目录中创建一个爬虫文件
- scrapy genspider spiderName www.xxx.com
-
执行工程命令
- scrapy crawl spiderName
-
工程创建完成后项目目录如下
spiderName为爬虫原文件唯一标识
相关处理代码放在spiderName文件中
请求头需要标识的 修改settings配置
我们用太屋网房源网站进行数据分析实战
打印出来的结果是一个Selector对象
我们需要进行处理
我们可以看到现在取出了data值
还有一种写法
总结