请教关于 lxml 中 remove 方法的问题

page = lxml.etree.HTML('<span lang="en-us"><p></p>223</span>')
for empty in page.xpath('//*[not(node())]'):
    empty.getparent().remove(empty)
print lxml.html.tostring(page)

结果输出为
<html><body></body></html>

去掉了空节点外的字符，请问如何保留原文中的“223”并且实现替换？

lang=

span

替换

4 条回复 • 2015-02-26 10:53:10 +08:00

cute

2015 年 2 月 25 日

`
from lxml import html
print html.fromstring('223').text_content()

`

gogogen

2015 年 2 月 25 日

@cute 感谢
不过我只是通过这个简单网页举例而已，我并不是只要取特定节点的内容，而是想去掉空节点之后，不会影响到节点之后的内容。
不知道应该如何解决？

cute

2015 年 2 月 26 日

```
from lxml import html
doc = html.fromstring('11223')
for elem in doc.xpath('//*[not(node())]'):
parent = elem.getparent()
if elem.tail:
if not parent.text:
parent.text = elem.tail
else:
parent.text = parent.text + elem.tail
parent.remove(elem)
print html.tostring(doc)
```

cute

2015 年 2 月 26 日

重新发一个。

from lxml import html

doc = html.fromstring('sss223')
func = lambda x, p: setattr(p, 'text', p.text + x.tail if p.text else x.tail)
map(
lambda x: x.tail and func(x, x.getparent()) or x.getparent().remove(x),
doc.xpath('//*[not(node())]')
)

print html.tostring(doc)