V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
kiko
V2EX  ›  问与答

怎么用 php 每天自动抓取网页数据入库,目标页面需要登录,数据在页面以 table 方式呈现

  •  
  •   kiko · 2015-07-23 22:01:17 +08:00 · 2897 次点击
    这是一个创建于 3397 天前的主题,其中的信息可能已经有所发展或是发生改变。
    可以不用那么自动,每天打开一下页面去抓取
    主要难题是
    1、怎么实现自动登录
    2、怎么实现把表格里面的每个单元格数据读取到(然后以每行一条记录每单元格一个字段数据插入到mysql中)。-----重点是怎么读取到没单元格的数据,后面的插入我知道是很方便的。


    大牛们,请问这个需要用到什么技术呢,有没有好用的框架可以直接套用啊?
    非常感谢!
    5 条回复    2015-07-24 09:29:24 +08:00
    kslr
        1
    kslr  
       2015-07-24 01:11:26 +08:00 via Android
    太白,没法讲,去看基础吧。
    Tink
        2
    Tink  
       2015-07-24 01:28:26 +08:00 via iPhone   ❤️ 1
    登陆就模拟登陆呗,表格里取值xpath不行?
    em70
        3
    em70  
       2015-07-24 01:30:32 +08:00   ❤️ 1
    1. 登录的原理无非就是GET或者POST一个数据给服务器,成功后返回一个值保存cookie,我们知道这个原理后,模拟登录就行了,网上这种代码和资料一大把.基础的不能再基础的东西.
    2.无论如何, 返回总是一个网页,去分析这个网页的HTML代码就能拿到需要的东西.

    @kslr 说得对. 应该先去看基础,知道网页是怎么制作的,网络协议是什么东西,还没学会走就开始飞,人都没法跟你交流.
    zencoding
        4
    zencoding  
       2015-07-24 08:46:59 +08:00   ❤️ 1
    curl + xpath
    xzem
        5
    xzem  
       2015-07-24 09:29:24 +08:00 via Android
    如楼上几位所言,但我觉得楼主还是直接用火车头这类的采集软件吧,绝对比你研究php来的快,可定制性肯定受限就是了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2714 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 09:41 · PVG 17:41 · LAX 01:41 · JFK 04:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.