编程都是为了解决问题，下载网页的特定部分并保存成 PDF 该如何做呢？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3932 天前的主题，其中的信息可能已经有所发展或是发生改变。

下载后，只留下正文部分。

存储为PDF文档。

如何编程让这个过程自动化？

8 条回复 • 2015-03-10 02:22:07 +08:00

liuhaotian

2015-03-09 10:14:03 +08:00

curl 获取网页，正则匹配包含正文id的容器，生成pdf。
生成pdf可以直接用轮子。

liuhaotian

2015-03-09 10:15:20 +08:00

liuhaotian

2015-03-09 10:16:54 +08:00

@Livid
这个在做链接自动匹配的时候是刻意把两个相邻链接的\n转成空格的还是匹配的时候替换有问题？

Chigogo

2015-03-09 10:37:52 +08:00

@liuhaotian JS 可行吗？一定要学习Python吗？

Chigogo

2015-03-09 10:39:19 +08:00

@liuhaotian 看到了，用PHP，OK

Draplater

2015-03-09 11:10:32 +08:00

要提取"正文部分"已经涉及到数据挖掘了。这个可以用readability完成。正文匹配并不容易，可能不台精确。
readability有python port，例如：
https://pypi.python.org/pypi/readability-lxml
接下来把文字转换成pdf就是很简单的事情了，参考：
http://www.interfaceware.com/manual/python_text_to_pdf.html

Chigogo

2015-03-09 11:29:14 +08:00

@Draplater 可以一步到位吗？下载某个特定的网站的正文，正文问题很好解决的。但是下载，存储PDF 这两部可以一步到位吗？

manhere

2015-03-10 02:22:07 +08:00 via iPhone

casperjs搞定一切