这是一个创建于 3657 天前的主题,其中的信息可能已经有所发展或是发生改变。
# -*- coding: UTF-8 -*-
import codecs,time,urllib2,re,random,sys
from stripogram import html2text, html2safehtml
reload(sys)
sys.setdefaultencoding( "utf-8" )
html = '''<div> <span>10月25日</span></div>'''
print html.decode("utf-8")
print html2text(html).decode("utf-8")
Traceback (most recent call last):
File "C:\Users\new 1.py", line 9, in <module>
print html2text(html).decode("utf-8")
File "C:\Python27\lib\encodings\utf_8.py", line 16, in decode
return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xa0 in position 0: invalid start byte
1 条回复 • 2014-11-20 15:21:48 +08:00
|
|
1
loginv2 2014-11-20 15:21:48 +08:00
啊咧咧,V2竟然过滤掉了 昏倒 <div> <span>之间有一个nbsp的空格字符
|