您当前的位置:首页 > 计算机 > 编程开发 > Python

爬虫基础

时间:03-29来源:作者:点击数:

1.爬虫的概念

  • 模拟浏览器
  • 发送请求
  • 获取响应

2.爬虫作用

  • 数据采集
  • 软件测试
  • 抢票
  • 网站投票
  • 网络安全

3.爬虫的分类

  • 数量
  • 是否获取数据
  • url与数据关系

4.爬虫流程

  • url
  • 发送请求,获取响应
  • 解析

5.http复习

01.http以及https的概念和区别

Https和http更让安全,但性能更低

02.常见的请求头与响应头

请求头

host 域名

Connection 长连接

Upgrade-Insecure-Requests 升级为https

***User-Agent 用户代理 提供系统信息和浏览器信息

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36

***Referer 页面跳转处 用于防盗链 图片 视频

***Cookie 状态保持

响应头

set-Cookie

03.状态码

所有的状态码都不可信,一切以是都能抓包得到的数据

network抓包得到的源码才是判断依据,elements中的源码是渲染之后的源码,不能作为判断标准

04.浏览器发送请求过程

  • 浏览器:发送所有请求进行渲染
  • 爬虫:只发送指定请求,不会渲染

抓包过程:

  • 骨骼文件: html静态页面
  • 肌肉文件:js ajax
  • 皮肤:css font 图片等
方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门