这类的典型断句 符 断开就可以了吗。 clean_text(text1, norm_url=True, remove_url=False)) text1 = "www.中文 and space.com" print("正常字符转URL[含有中文和 空格 的 需要注意]") print("原:", text1) print("清洗后:", ht0.clean_text(text1, to_url=True, remove_url=False)) # 处理HTML 转义 字符 %E4%B8%AD%E6%96%87%20and%20space.com 清洗后: www.中文 and space.com 正常字符转URL[含有中文和 空格 的request需要注意] 原: www.中文 %E4%B8%AD%E6%96%87%20and%20space.com HTML转正常字符 原: <a c>& nbsp ;'' 清洗后: '' 繁体字转简体