您当前的位置:首页 > 计算机 > 编程开发 > Python

Python爬取网站返回的内容为乱码解决方法

时间:05-20来源:作者:点击数:

1、爬取某网站内容时,返回的结果为乱码,如图:

2、写在前面的解释

Requests会基于HTTP头部响应的编码做出有根据的推测,当访问r.text时,Requests会使用其推测的文本编码。

查看网页返回的字符集类型:r.apparent_encoding

查看自动判断的字符集类型:r.encoding

可以看到Requests推测的文本编码(ISO-8859-1)与源网页编码(utf-8) 不一致,因此会导致乱码问题的出现。

注:源网页也能直接查看编码格式,如下图:

3、解决方法

这里要注意顺序,需要先指定r.encoding的编码格式,再访问r.text。即第9行代码必须写在第10行代码之前。

(1)方法一:直接指定r.encoding为源网页的编码格式

r.encoding="utf-8"

(2)方法二:通过r.apparent_encoding属性来指定,直接将其值赋给r.encoding

r.encoding = r.apparent_encoding

(3)方法三:通过编码、解码的方式

4、乱码问题解决

--------结束----------

方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门