python获取网页源码乱码(怎么用python获取网页中的数据)

qiaoqingyi 2023-06-10 347

默认

编码问题你在网站上右键，查看下源码代码 meta；content指定解码，你的网页是utf8的，对应解码就可以了。

你试试下面的代码！usrbinenv python# * codingutf8 *import urllib2req = urllib2Requestquotquotres = urllib2urlopenreqhtml = resreadresclosehtml = unicodehtml；解码解码方式多种有时候网页也是用多种编码写的 data = datadecode#39UTF8#39，#39ignore#39 ##39UTF8#39#39unicode_escape#39#39gbk#39，#39ignore#39多种编码自己换着来看吧。

怕中文乱码，用python3。

python分析网页源码html

有个模块叫chardet可以检测编码，获取对应的编码后再解码即可。

1 遇到的中文乱码问题11 简单的开始使用requests来拔取网站内容十分方便，一个最简单的代码段只需要23行代码就行点击此处折叠或打开 url = #39。

如果你是确实成功的获取了源码，那问题就简单了，所谓的乱码只不过是文本编码和读取编码方式不一样导致的，所以转换一下文本编码就解决了。

这样的话，返回的response是需要解压缩的 ContentEncoding gzip#ContentEncoding deflateifquotContentEncodingquot in respInfo ifquotgzipquot == respInfo#39ContentEncoding#39 respHtml = zlibdecompress。

应该是shell的编码和listinfo编码不一样导致的，部分正常，部分乱码有可能是因为两种编码部分字符恰好一样试试 import sysprint iiencodesysgetdefaultencoding。

在windows下使用非idle的其他ide编辑器，会碰到这个问题对抓取到的网页内容进行先解码再编码即可以requests为例r = #39gbk#39encode#39utf8#39出现编码问题时，1仔细分析错误的类型看是decode。

怎么用python获取网页中的数据

python 用requests获取网页源代码时候中文显示错误原因text取到的是decode之后的内容，你这样处理肯定是会有问题的你可以通过requestsgeturlcontent获取binary内容自己手工decodeurl=#39中文#39content = requestsgeturl。

解决方法有两种第一种apparent_encoding方法是requests库利用chardet对字节流编码进行了猜测一般来说使用这种方法，大部分网页的中文乱码都会恢复如果还是不行，那就试试第二种方法第二种从网页格式中获得网页内容的。

看看你的请求头AcceptEncoding是不是设置了gzip，deflate 这样的话，返回的response是需要解压缩的 ContentEncoding gzip#ContentEncoding deflateifquotContentEncodingquot in respInfo ifquotgzipquot == respInfo#39Conte。

同时，对于网页的中文乱码，建立使用requests模块代替urllib\urllib2 requests的content方法，对中文编码，支持比较好，基本不会出现乱码req=requestsgeturl，cookies=mecookiesprint。