多个新闻网站通用爬虫解决方案？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1523 天前的主题，其中的信息可能已经有所发展或是发生改变。

1 需要获取多个农业相关网站的新闻数据，这些数据都在类似于这样的网站( http://www.moa.gov.cn/)里面

2 这些网站里面还有大量的列表页和翻页内容，如果逐个写 xpath 或者正则翻页请求过于繁琐

3 有没有比较简单的包可以调用可以直接通用解决此类网站的所有列表页链接？

4 以及有没有一键启动所有的这些爬虫的方案，减少操作

列表页

网站

爬虫

通用

3 条回复

delectate

2021-10-28 19:56:59 +08:00

张一鸣：卧槽，有人来抢生意了？

ByteMind

2021-10-28 22:51:55 +08:00

@delectate #1 和张一鸣没法比，我们就做个小点的自己用

jr55475f112iz2tu

2021-10-29 17:58:28 +08:00

有是有，一些公司搞机器学习的和爬虫的一起研究出了基于规则识别的新闻类网站爬虫方案，但这里面研发投入不少，应该没什么人会开源