V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ByteMind
V2EX  ›  问与答

多个新闻网站通用爬虫解决方案?

  •  
  •   ByteMind · 2021-10-28 19:40:55 +08:00 · 720 次点击
    这是一个创建于 1523 天前的主题,其中的信息可能已经有所发展或是发生改变。
    1 需要获取多个农业相关网站的新闻数据,这些数据都在类似于这样的网站( http://www.moa.gov.cn/)里面
    
    2 这些网站里面还有大量的列表页和翻页内容,如果逐个写 xpath 或者正则翻页请求过于繁琐
    
    3 有没有比较简单的包可以调用可以直接通用解决此类网站的所有列表页链接?
    
    4 以及有没有一键启动所有的这些爬虫的方案,减少操作
    
    
    
    delectate
        1
    delectate  
       2021-10-28 19:56:59 +08:00
    张一鸣:卧槽,有人来抢生意了?
    ByteMind
        2
    ByteMind  
    OP
       2021-10-28 22:51:55 +08:00
    @delectate #1 和张一鸣没法比,我们就做个小点的自己用
    jr55475f112iz2tu
        3
    jr55475f112iz2tu  
       2021-10-29 17:58:28 +08:00
    有是有,一些公司搞机器学习的和爬虫的一起研究出了基于规则识别的新闻类网站爬虫方案,但这里面研发投入不少,应该没什么人会开源
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5323 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 08:04 · PVG 16:04 · LAX 00:04 · JFK 03:04
    ♥ Do have faith in what you're doing.