如题,当网页内容中包含例如 <
这类保留字符时,xpath 就没法正常工作了
比如这个网页
<!DOCTYPE html>
<html>
<head>
<title></title>
</head>
<body>
<article>
123<
</article>
<article>
dfsfsd
</article>
</body>
</html>
当想使用
$article = $xpath->query("//article")->item(0);
提取出第一个 article 元素时并不能得到正确的结果
请问有什么办法解决或绕过么?
1
binux 2017-05-06 02:19:24 +08:00
你需要一个现代的 parser
|
2
lgh 2017-05-06 09:47:00 +08:00 via iPhone
你这网页不规范……<应该转换成实体<
|
3
billlee 2017-05-06 13:46:05 +08:00
你需要一个 HTML parser, 而不是 XML parser
|