登录

在Python中使用混合UTF-8编码解码响应

内容来源于 Stack Overflow,遵循 CC BY-SA 4.0 许可协议进行翻译与使用。IT领域专用引擎提供翻译支持

腾讯云小微IT领域专用引擎提供翻译支持

原文
Stack Overflow用户 提问于2020-04-26

我正在使用aiohttp从一个网站下载数据,我得到了一个bytes对象作为响应,但我很难解码它。这是我得到的回复的一个例子

b'\\r\\nLocalit\xc3\xa0' # Località
b'\\u003cdiv\\u003e12/09/2019\\u003c/div\\u003e\\r\\n' # <div>12/09/2019</div>

据我所知,它有用于文本的普通unicode和用于html标签和换行符的转义unicode。如果我尝试使用"str(content,"utf-8")“解码它,我仍然拥有这种格式的html标记

\u003cdiv \u003e12/09/2019\u003c/div\u003e\r\n

我应该只为每个标签做一个手动的 .replace("\u003", "<") ,还是有一个更好的解决方案?

浏览 29 关注 0 得票数 2
  • 得票数为Stack Overflow原文数据
原文
修改于2020-04-26
  • 该回答已被编辑
  • 回答者: Stack Overflow用户
  • 回答时间: 2020-04-26 17:53
得票数 1

您可以使用 'unicode-escape' codec 来转换unicode部分,然后透明地重新编码为字节(拉丁文-1对此很方便,因为它提供了字节和字符之间的一对一对应),然后解码为'utf-8':

b = b'\\u003cdiv\\u003e12/09/2019\\u003c/div\\u003e\\r\\n\\r\\nLocalit\xc3\xa0'
b.decode('unicode-escape').encode('latin1').decode('utf8')
# '<div>12/09/2019</div>\r\n\r\nLocalità'
页面原文内容由 stack overflow 提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接: https://stackoverflow.com/questions/61438627
https://stackoverflow.com/questions/61438627
复制