1
rankjie 2013 年 2 月 23 日 via iPad
|
2
Mutoo 2013 年 2 月 23 日 @rankjie 解析url和解析html根本是两回事嘛
lz可以参考一些现成的regex http://regexlib.com/DisplayPatterns.aspx?cattabindex=1&categoryId=2&AspxAutoDetectCookieSupport=1 或者根据w3c对uri的定义自己构造(参考第50页) http://www.ietf.org/rfc/rfc3986.txt |
4
CoX 2013 年 2 月 23 日
lz可以试试tornado.escape.linkify
它的正则写的复杂点: _URL_RE = re.compile(ur"""\b((?:([\w-]+):(/{1,3})|www[.])(?:(?:(?:[^\s&()]|&|")*(?:[^!"#$%&'()*+,.:;<=>?@\[\]^`{|}~\s]))|(?:\((?:[^\s&()]|&|")*\)))+)""") |