V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
NFSwind
V2EX  ›  数据库

抓取全国的特价机票信息,有几种方法?

  •  
  •   NFSwind · 2013-10-01 03:23:09 +08:00 · 1704 次点击
    这是一个创建于 4096 天前的主题,其中的信息可能已经有所发展或是发生改变。
    人在大连。。
    发现
    大连飞天津64块钱、大连飞石家庄9块钱。。

    于是萌生了一个想法,抓取全国的特价机票信息。。

    放在网上以飨大众。。。

    方法1,获取去哪儿网,携程网,艺龙旅行等主流站点的页面信息
    方法2,获取各大航空公司的信息,不过这样应该是会贵一些的。。。

    大家有什么想说的?
    10 条回复    1970-01-01 08:00:00 +08:00
    ivanlw
        1
    ivanlw  
       2013-10-01 04:56:52 +08:00 via iPhone
    为什么不直接用去哪儿的?
    yelite
        2
    yelite  
       2013-10-01 10:01:12 +08:00
    @ivanlw lz可能是想实时监控票价吧。

    方法一我感觉有难度啊,这些主流站点应该都有反抓取的机制,不过既然是能用浏览器看到的东西最后肯定都能抓下来,就是可能要花上一段时间研究。
    AlexYang
        3
    AlexYang  
       2013-10-01 10:21:17 +08:00
    这些旅游网站的航班信息都是花钱从某某机构买的
    loveminds
        4
    loveminds  
       2013-10-01 15:15:40 +08:00 via Android
    @ivanlw 有直接使用的api不
    cj1324
        5
    cj1324  
       2013-10-01 15:49:19 +08:00
    某些网站,页面上标的价格比实际价格低很多。 你想买的时候才发现 你妹啊 根本不能买。
    打了客服电话回复,那些票需要同时买往返才有效。
    NFSwind
        6
    NFSwind  
    OP
       2013-10-01 16:18:06 +08:00
    @cj1324 这种最蛋疼了。。。
    forgottencoast
        7
    forgottencoast  
       2013-10-01 20:35:34 +08:00
    @yelite 非API的维护工作量太大。我做了一个类库,可以完全基于xml的配置模拟Http请求,包括很复杂的流程,甚至支持验证码。这样我们公司可以往别的类型的网站提交复杂的数据。但是一旦别人改版,少则一两个小时,大就要1~2天才能匹配成功。我们的代码完全不用修改,只是修改xml配置文件而以。
    6b79
        8
    6b79  
       2013-10-02 13:43:59 +08:00
    @forgottencoast 请问每次抓取网站改版,你的xml配置修改的工作量有多少?
    chendeshen
        9
    chendeshen  
       2013-10-03 00:04:44 +08:00
    forgottencoast
        10
    forgottencoast  
       2013-10-22 23:57:20 +08:00
    @6b79 我们不是抓取,我们是提交数据,很复杂的数据到对方网站。工作量视对方修改的大小。主要的工作量在于隐藏的字段是否要提交,以及如何生成。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4108 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 05:27 · PVG 13:27 · LAX 21:27 · JFK 00:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.