V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
cloverstd
V2EX  ›  问与答

如何分析网页源代码从中获取自己想要的信息?

  •  
  •   cloverstd · 2012-02-19 21:17:14 +08:00 · 5370 次点击
    这是一个创建于 4661 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我想监控一个网页的更新。
    我想用wget或者curl获取网页后,然后用C++来分析网页Html,然后再提取出自己想到的信息。
    我想是用find()函数来寻找特殊的关键字后再来提取,请问下有没有其他有效的分析网页更新的方法?
    4 条回复    1970-01-01 08:00:00 +08:00
    soulsaunter
        1
    soulsaunter  
       2012-02-19 21:21:55 +08:00
    一般需要使用到一个htmlparser 的东西来对网页构造出一个可操作的对象,然后,根据自己的分析,写一个算法来从对象中获取你想要的。说到底,分析(算法)是关键。
    ligyxy
        2
    ligyxy  
       2012-02-19 21:29:35 +08:00
    @soulsaunter 是否有入门的小例子?
    avatasia
        3
    avatasia  
       2012-02-19 22:06:25 +08:00
    既然你会用c++,那么自己包装一个IE壳,你可以去greenbrower的代码里扒,然后用一个网页AppContainer,内嵌iframe获取你的目标网页,AppContainer里写一些操作iframe的dom的脚本。
    ehaagwlke
        4
    ehaagwlke  
       2012-02-19 22:28:27 +08:00
    找工具的话,有一个叫URLy Warning的东东,http://tech.sina.com.cn/down 里有。会把页面扒到本地,定时更新,有变化的部分会高亮显示。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2194 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 01:15 · PVG 09:15 · LAX 17:15 · JFK 20:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.