V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
kehr
V2EX  ›  程序员

你写爬虫的目的是什么?

  •  
  •   kehr ·
    kehr · 2014-03-25 20:55:01 +08:00 · 11411 次点击
    这是一个创建于 3897 天前的主题,其中的信息可能已经有所发展或是发生改变。
    相信许多人都写过自己的网络爬虫。说说促使你写爬虫的目的是什么?用到了那些技术和工具?留下地址大家围观一下 ~\(^o^)/~
    59 条回复    1970-01-01 08:00:00 +08:00
    janxin
        1
    janxin  
       2014-03-25 21:16:37 +08:00 via iPad
    写了这么久没写过爬虫…我不是合格程序员…
    wvidc
        2
    wvidc  
       2014-03-25 21:21:06 +08:00
    你猜猜
    ~\(^o^)/~
    john990
        3
    john990  
       2014-03-25 21:34:04 +08:00 via Android
    为自己的网站弄点数据
    paicha
        4
    paicha  
       2014-03-25 21:37:22 +08:00
    微信公众号,教务系统成绩查询
    caiych
        5
    caiych  
       2014-03-25 23:01:51 +08:00
    ……看漫画……网站不给打包下载……
    以及抓一些数据测试算法……
    binux
        6
    binux  
       2014-03-25 23:06:40 +08:00   ❤️ 1
    这是我的工作。。
    xuxu
        7
    xuxu  
       2014-03-25 23:09:20 +08:00
    蛋疼的时候玩
    vitoziv
        8
    vitoziv  
       2014-03-25 23:32:59 +08:00
    毕业设计的时候,为了做一个移动版教务系统,爬了学校的教务系统数据..
    jsonline
        9
    jsonline  
       2014-03-25 23:47:29 +08:00
    每个月都能看见有人发布一个新的爬虫……
    reverland
        10
    reverland  
       2014-03-25 23:58:33 +08:00
    显然是为了搜集信息
    csx163
        11
    csx163  
       2014-03-26 00:22:05 +08:00
    抓H种子
    抓H图

    果然H是第一生产力啊
    WildCat
        12
    WildCat  
       2014-03-26 09:02:48 +08:00 via iPhone
    @paicha 这…怎么查?没API诶
    WildCat
        13
    WildCat  
       2014-03-26 09:04:38 +08:00 via iPhone
    @paicha
    @vitoziv

    求如何爬正方教务系统
    http://123.232.100.110:86

    @csx163
    你不怕查水表?
    Amoscoder
        14
    Amoscoder  
       2014-03-26 11:27:56 +08:00
    工具用的Mechanize。。

    @WildCat
    你爬正方的教务系统难点在哪儿?很容易啊。
    vilic
        15
    vilic  
       2014-03-26 12:04:44 +08:00
    主要是提高生产力吧, Marketing Research 之类的. 还有就是之前做的外包, 是 SEO 工具, 统计数据用的.
    另外现在自己的背单词应用也是爬的词库. 感觉经常会用到.
    @WildCat 哈哈, 说道这个还真的爬过教务处网站抓课表, 虽然那个项目后来没继续搞了. https://github.com/vilic/ClassScheduleProxy
    xavierskip
        16
    xavierskip  
       2014-03-26 12:51:24 +08:00
    美女图!妹子图!无聊图!
    kehr
        17
    kehr  
    OP
       2014-03-26 12:55:56 +08:00   ❤️ 1
    @Amoscoder
    @vilic

    你们的教务系统外网能够访问么?比如查成绩,查课表之类的?我们这里只能通过内网进行。

    如果外网无法访问,那么爬虫还能爬到数据么?
    bbiao
        18
    bbiao  
       2014-03-26 13:20:42 +08:00
    要是能匿名回答就好了。
    kehr
        19
    kehr  
    OP
       2014-03-26 13:36:30 +08:00
    @bbiao 查水表的没有那么快~
    vilic
        20
    vilic  
       2014-03-26 13:37:59 +08:00
    @kehr 多数教务网貌似外网还是能访问的诶。
    kehr
        21
    kehr  
    OP
       2014-03-26 13:40:32 +08:00
    @vilic 如果要爬外网无法访问的,有什么解决方法木有?
    wtbhk
        22
    wtbhk  
       2014-03-26 13:58:21 +08:00
    爬教务处的课表、成绩、补考、饭卡余额明细等。教务处太渣,爬下数据来重新组织排版缓存再给学生使用,还可以提供移动端访问。
    ChiangDi
        23
    ChiangDi  
       2014-03-26 14:02:47 +08:00 via Android
    无聊。
    vilic
        24
    vilic  
       2014-03-26 14:07:05 +08:00
    @kehr 用客户端访问咯, 然后服务器解析或者直接客户端解析就好了.
    moondark
        25
    moondark  
       2014-03-26 14:24:01 +08:00
    爬我校BBS,完成课程作业
    WildCat
        26
    WildCat  
       2014-03-26 14:25:36 +08:00 via iPhone
    @vilic
    @Amoscoder
    只能查自己的成绩和课表,怎么爬别人的?
    BackBox
        27
    BackBox  
       2014-03-26 14:48:46 +08:00 via iPhone
    @Amoscoder 怎么处理验证码?
    fange01
        28
    fange01  
       2014-03-26 15:04:11 +08:00
    @paicha 求共享源码。
    Actrace
        29
    Actrace  
       2014-03-26 15:43:04 +08:00
    用PHP写爬虫做了个网页搜索,code.so
    Amoscoder
        30
    Amoscoder  
       2014-03-26 16:06:15 +08:00
    @WildCat 这个没办法吧,只能用别人的账号模拟登陆
    Amoscoder
        31
    Amoscoder  
       2014-03-26 16:09:48 +08:00   ❤️ 1
    @BackBox 可以试下tesseract+imagemagick
    Amoscoder
        32
    Amoscoder  
       2014-03-26 16:10:52 +08:00
    @kehr 大部分教务系统还是可以外网访问的,内网的估计悬。
    yangxin0
        33
    yangxin0  
       2014-03-26 17:04:32 +08:00
    公司手游做猜球活动, 写了一个爬虫去爬实时比分数据。
    kslr
        34
    kslr  
       2014-03-26 17:12:54 +08:00
    爬xx种子,然后在本地建立数据库。
    kavi
        35
    kavi  
       2014-03-26 17:28:10 +08:00
    爬美女图,放在微信公众平台上
    airyland
        36
    airyland  
       2014-03-26 17:35:42 +08:00
    @paicha 如何采集公众号的数据?
    paicha
        37
    paicha  
       2014-03-26 19:03:46 +08:00   ❤️ 1
    @WildCat
    @fange01

    水平太差就不好意思放源码啦,大致流程就是:
    获取学号密码——模拟登录——抓取成绩页面——正则提取数据——返回消息到微信。

    模拟登录的数据我是用 Chrome 开发者工具分析的,然后构造数据 POST 登录。(我们学校教务平台没验证码,所以可以3秒内完成查询)。

    贴个流程图:


    @airyland
    采集公众号的数据?什么意思
    WildCat
        38
    WildCat  
       2014-03-26 19:30:09 +08:00 via iPhone
    @paicha 我们有验证码,麻烦了
    xi4oh4o
        39
    xi4oh4o  
       2014-03-26 19:35:52 +08:00
    好用的库
    nokogirl
    phpquery
    用过这些

    curl+regular exp写过模拟登录pixiv,目的是分享自己帐号收藏的用户发布的作品。
    paicha
        40
    paicha  
       2014-03-26 19:40:46 +08:00
    @WildCat
    要么试试有什么工具库可以识别,效率的话不知道可以不可以在微信5秒规定内完成。再者就看看能不能绕过验证码。入侵数据库也是一个……不过太危险了。
    这方面没什么经验,只能说一些想法~
    sb
        41
    sb  
       2014-03-26 19:45:53 +08:00   ❤️ 1
    @WildCat 直接模拟提交账号密码,不用验证码
    sb
        42
    sb  
       2014-03-26 19:52:26 +08:00
    @WildCat 或者有几个登录页面是没有验证码的,可以模拟提交。
    fengliu222
        43
    fengliu222  
       2014-03-26 20:05:21 +08:00
    当然是拿种子。。不过有了迅雷云播之后,都是直接拿磁力链接什么的~~~
    Lelouchcr
        44
    Lelouchcr  
       2014-03-26 22:07:02 +08:00
    一开始是给某妹子爬别人豆瓣上的照片。
    后来变成了工作。。。
    summic
        45
    summic  
       2014-03-26 22:11:37 +08:00
    爬股票数据做投资参考
    action
        46
    action  
       2014-03-26 23:10:20 +08:00
    爬直播
    airyland
        47
    airyland  
       2014-03-26 23:39:09 +08:00
    @paicha 我看到你答“微信公众号,教务系统成绩查询”,以为是你写爬虫去采集微信公众号的文章。原来不是么?
    cabinw
        48
    cabinw  
       2014-03-26 23:44:02 +08:00
    kimono解放了我
    paicha
        49
    paicha  
       2014-03-26 23:53:50 +08:00
    @airyland 额,表达不当,我是说在微信公众号里做的开发。
    抓取微信这个有现成的应用: http://chuansong.me/
    9hills
        50
    9hills  
       2014-03-26 23:55:51 +08:00 via iPad
    @kehr 内网爬完美解决
    partysover
        51
    partysover  
       2014-03-27 01:30:22 +08:00   ❤️ 1
    抓数据,然后计算,包装打包卖。
    rainysia
        52
    rainysia  
       2014-03-27 02:13:59 +08:00   ❤️ 1
    我会说我在内网去抓了同事的工资条么...抓了后提了加薪... 加的没同事多...就走了...哎哎, 不作死就不会死
    mclxly
        53
    mclxly  
       2014-03-27 09:22:04 +08:00
    @summic 你是怎么做数据分析的?我当时爬了一段时间,积累了几千万的数据,后来没有很好的分析思路,就放弃了。
    sunocean
        54
    sunocean  
       2014-03-27 09:41:07 +08:00
    百度贴吧抓妹子图,我会乱说嘛
    summic
        55
    summic  
       2014-03-27 12:09:26 +08:00   ❤️ 1
    @mclxly 最简单的就是看量价比,更多分析方法参见腾讯股票频道的智能选股
    chengs2035
        56
    chengs2035  
       2014-03-27 12:56:33 +08:00
    曾经自己写过C#程序,把百度的所有图片爬下来,花了一天,10多T。。。
    dong3580
        57
    dong3580  
       2014-03-27 13:48:37 +08:00
    @chengs2035
    抓链接存到数据库,我会说你一天10T,好大的硬盘,到快的网速啊.
    anjiannian
        58
    anjiannian  
       2014-03-27 15:25:08 +08:00
    @rainysia 太可爱了
    Amoscoder
        59
    Amoscoder  
       2014-03-28 10:56:04 +08:00
    @9hills 内网你是如何解决的?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4619 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 01:11 · PVG 09:11 · LAX 17:11 · JFK 20:11
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.