您当前的位置：首页 > 计算机 > 编程开发 > Python

爬虫基础

时间：03-29来源：作者：点击数：

1.爬虫的概念

模拟浏览器
发送请求
获取响应

2.爬虫作用

数据采集
软件测试
抢票
网站投票
网络安全

3.爬虫的分类

数量
是否获取数据
url与数据关系

4.爬虫流程

url
发送请求，获取响应
解析

5.http复习

01.http以及https的概念和区别

Https和http更让安全，但性能更低

02.常见的请求头与响应头

请求头

host 域名

Connection 长连接

Upgrade-Insecure-Requests 升级为https

***User-Agent 用户代理提供系统信息和浏览器信息

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36

***Referer 页面跳转处用于防盗链图片视频

***Cookie 状态保持

响应头

set-Cookie

03.状态码

所有的状态码都不可信，一切以是都能抓包得到的数据

network抓包得到的源码才是判断依据，elements中的源码是渲染之后的源码，不能作为判断标准

04.浏览器发送请求过程

浏览器：发送所有请求进行渲染
爬虫：只发送指定请求，不会渲染

抓包过程：

骨骼文件： html静态页面
肌肉文件：js ajax
皮肤：css font 图片等

方便获取更多学习、工作、生活信息请关注本站微信公众号 城东书院微信服务号

城东书院微信服务号

城东书院微信订阅号

上一篇:爬取美女图片实现翻页下一篇:爬取安居客租房详情+翻页

推荐内容

高考生入学注意：这些大	【健康】纯净水、天然
14种竞赛生升学路径盘	excel后缀xls和xlsx有

相关内容

栏目更新

栏目热门

关于我们 | 联系我们 | 用户协议 | 广告服务 | 申请链接 | 网站地图 | 版权声明 | 用户留言 | 招聘信息 | 帮助中心 | 社区讨论 | 下载服务

中国文明网传播文明

Copyright ©2019-2024 CDSY Corporation, All Rights Reserved

城东书院^® CDSY.XYZ 版权所有湘ICP备19021508号-1 公安网备案

公安网备案

湘公网安备 43102202000103号

※学习、工作、生活信息平台※

本网大部分资源来源于会员上传，除本网组织的资源外，版权归原作者所有，如有侵犯版权，请立刻和本网联系并提供证据，本网将在三个工作日内改正。