自动提取网页内容

我现在找到了 boilerpipe 这个正文提取的很不错，就是如果想提取新闻发布时间和新闻来源的，也是尴尬（我看文档看的迷迷糊糊的）。

--------------------
重要的是，同一站点下新闻链接的抓取也是头疼。不标准的站太多，同一个栏目下，文章的链接不规则，自己配正则还好，自动的话。（抓狂）

-----------------------
OS:我只是实习生啊~~~~~~

提取

蟹蟹

xpath

网页

24 条回复 • 2016-08-20 12:12:38 +08:00

tumb8r

2016 年 8 月 19 日

title 好说，但是想正文、发布时间、来源等，每个源的标签是一样的吗？如果是一样的很好爬，如果不一样就需要针对每个源写规则，麻烦。

dsg001

2016 年 8 月 19 日

https://github.com/vinta/awesome-python
有自动提取正文的库，但只能针对标准网页，如果太过杂乱也没辙

naomhan

2016 年 8 月 19 日

正文还好说标题时间提取真的不容易暂时没人研究我们暂时是通过百度搜索相关新闻因为百度搜索都结构化处理了时间标题获取就很容易

laoyur

2016 年 8 月 19 日

用 readability

ququzone

2016 年 8 月 19 日

看看我写的这个把 https://github.com/ququzone/smart-extractor
基于 Readability ，支持 Docker 的微服务

MarcoQin

2016 年 8 月 19 日

python-goose 应该可以应付大多数标准的信息源。再配合部分 xpath 应该可以的

polythene

2016 年 8 月 19 日

我之前做了一个应用，用来提取 hackernews 上新闻的正文，这是我用来提取的库 https://github.com/polyrabbit/hacker-news-digest/tree/master/page_content_extractor ，至少 hackernews 上 X 千的新闻源提取效果蛮好的。

cai72738

2016 年 8 月 19 日

@polythene 除了大段正文的提取，那新闻来源和发布时间，也是需要精确匹配出来的。还有最难搞的新闻 URL
@tumb8r 还就真的不一样，而且我现在也就在对每个源写规则，恼死了。

cai72738

2016 年 8 月 19 日

@MarcoQin 标准信息源很少，大部分都是不标准的

xhsmile

2016 年 8 月 19 日

Python+ requests
接着写脚本
import requests
html = requests.get(url).text
print(html)
然后 re 解析？

cai72738

2016 年 8 月 19 日

@xhsmile 上千的源，不大可能一个一个写正则。所以就想有没有能自动生成网页对应的正则的库

whahuzhihao

2016 年 8 月 19 日

想起来 v 站以前见到过一个大神写的貌似挺好
/t/270075

reyoung1110

2016 年 8 月 19 日

groose

reyoung1110

2016 年 8 月 19 日

https://github.com/grangier/python-goose 刚才拼错了

ambw

2016 年 8 月 19 日

boilerpipe 也不错，是我觉得最好用的

cai72738

2016 年 8 月 19 日

@ambw 那个只有标题和正文，我看源码，看能不能提取出其他信息

icybee

2016 年 8 月 19 日

1. python-readability
https://github.com/buriy/python-readability

2. newspaper3k
https://github.com/codelucas/newspaper

3. readabilityBUNDLE
https://github.com/srijiths/readabilityBUNDLE

4. Dragnet
https://github.com/seomoz/dragnet

5. Diffbot
http://www.diffbot.com/products/automatic/article/

各种工具都借鉴了比较多的算法，其中原始的 readability （ 1 ）是被一个叫 Pocket 的 app 商业化使用的，应该还可以；第 3 个 BUNDLE 是综合了三种基于 readability 的算法；第 5 个是基于 CV 的算法