V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Ariagle
V2EX  ›  Node.js

[招募] 萌否业余项目——网页爬虫,招募 node.js 开发者

  •  
  •   Ariagle · 2013 年 8 月 10 日 · 10953 次点击
    这是一个创建于 4543 天前的主题,其中的信息可能已经有所发展或是发生改变。
    几个月前曾在 V2EX 发过类似的招募帖 http://www.v2ex.com/t/62611 ,里面有关于我们的介绍,这里就不再多写了。

    上次招到了一个可♂爱的开发者,不过还是不够。最近我稍微有了点点时间,希望能够尽快将萌否 Beta4 推上线,所以还要再找个同好帮忙推进后端的开发。

    现在要做的功能是:网页爬虫。更进一步,是指 ACG 媒体网站的爬虫。
    我们后台已经运行有一些爬虫了,这些爬虫也是针对具体网站来写的。现在,我们要针对媒体网站来抓取信息。后续还会扩大收录范围。
    由于各种原因,我们使用 node.js 来完成这类后端任务。因此我们希望你在 node.js 方面有一定的经验。
    同时,我也认为同是 ACGer 才能更好地融入我们团队。

    还是要注明的是,我们这个是业余项目。欢迎有兴趣、有余力、有时间的同好加入~

    联系方式:
    Email: ariagle [at] moefou.org
    QQ: 910437475
    Twitter: @Ariagle

    (・ω< )★
    43 条回复    2013-09-02 17:25:48 +08:00
    jasya
        1
    jasya  
       2013 年 8 月 10 日
    _(:3」∠)_来写写练练手可以吗
    kenneth
        2
    kenneth  
       2013 年 8 月 10 日
    @Ariagle 我可以提供全套的抓取解决方案,范例:www.mvmap.com
    chengyuhui
        3
    chengyuhui  
       2013 年 8 月 10 日   ❤️ 1
    喵w
    davepkxxx
        4
    davepkxxx  
       2013 年 8 月 10 日
    惊现圆长
    Ariagle
        5
    Ariagle  
    OP
       2013 年 8 月 10 日
    @jasya 这是要上生产环境的,要是你觉得不太难,也可以当作是练手= =

    @kenneth 谢谢~不过现在还是想写套适用于我们自己实际情况的代码,你的方案是否属于通用型爬虫?
    kenneth
        6
    kenneth  
       2013 年 8 月 10 日
    @Ariagle 没有我爬不了的网站,只需要告诉我,你要爬那些网站,那些结构化数据即可,我提供服务器直接入你数据库都可以。
    Ariagle
        7
    Ariagle  
    OP
       2013 年 8 月 10 日
    @kenneth 厉害,听着像是商业服务的程度了 Σ( ° △ °|||)︴
    kenneth
        8
    kenneth  
       2013 年 8 月 10 日
    @Ariagle 爬的同时,可以帮你把图片生成各种尺寸,按路径规则保存,等比例缩略+水印。爬虫全自动,无人值守,自动更新。mvmap就是全自动更新,不需要维护的。
    Ariagle
        9
    Ariagle  
    OP
       2013 年 8 月 10 日
    @kenneth 是用什么写的呢?从长远来说,还是部署到自己服务器上比较好。
    kenneth
        10
    kenneth  
       2013 年 8 月 10 日
    @Ariagle 爬虫Python开发效率高,运行效率也不错。可以帮你部署到你的服务器,配置定时任务,全自动抓取。
    jasya
        11
    jasya  
       2013 年 8 月 10 日
    来了个高端人士...匿了..(´・ω・`)
    kenneth
        12
    kenneth  
       2013 年 8 月 10 日
    @Ariagle 如果你用亚马逊AWS,可以帮你配置爬虫集群,快速闪电抓取,以最短的时间,完成海量数据抓取。
    jasya
        13
    jasya  
       2013 年 8 月 10 日
    @kenneth 突然有个问题,大哥能抓新浪微博全站吗,求解决方案
    Ariagle
        14
    Ariagle  
    OP
       2013 年 8 月 10 日
    @kenneth 我们这边没什么人熟 python ,以后维护起来不方便……
    gullon
        15
    gullon  
       2013 年 8 月 10 日
    @kenneth 用的是scrapy?
    我想请我一下,有什么适合爬虫待着的vps推荐呢?
    kenneth
        16
    kenneth  
       2013 年 8 月 10 日   ❤️ 1
    @gullon 我会各种各样的爬虫,各种各样的语言的爬虫方案。Scrapy只是一个方案,mvmap用的不是这个方案。爬虫的难点在于,分布式,异步,并发,队列,数据管道,数据持久化等,考虑的点有很多。但是灵活的用。
    fetchcoin
        17
    fetchcoin  
       2013 年 8 月 10 日
    不就一定向采集吗?为啥不用火车头,耗费人力物力自己写?
    kenneth
        18
    kenneth  
       2013 年 8 月 10 日
    @fetchcoin 我要管理100万的域,5万的论坛,10万的博客,这么多规则,你用火车头,你觉得行吗?
    fetchcoin
        19
    fetchcoin  
       2013 年 8 月 10 日
    @kenneth 你自己定向采集,结构化数据,不也需要对每个点配置规则吗,别说智能结构化数据
    gullon
        20
    gullon  
       2013 年 8 月 10 日
    @kenneth 多谢指教。
    但分布式,异步,并发,队列,数据管道,数据持久化等基本上已经是搜索引擎蜘蛛的要求了吧?对普通的数据采集需要考虑这么多因素么?
    huazhouji
        21
    huazhouji  
       2013 年 8 月 10 日 via iPhone
    @kenneth 高手啊,一个人管那么多站,牛逼
    lewisc402
        22
    lewisc402  
       2013 年 8 月 11 日
    @kenneth 问个问题:假设我想用爬虫访问 a.html,结果服务器会重定向到 redirect.html?url=a.html,而redirect.html中是一些javascript代码,用来写cookie,那么我该怎么办才能访问到原网页呢? 一般有哪几种方案可以解决这个问题??
    binux
        23
    binux  
       2013 年 8 月 11 日
    @kenneth 分布式,异步,并发,队列,数据管道,数据持久化 都不是难点
    难点在于页面数据结构化,人工不算
    chengyuhui
        24
    chengyuhui  
       2013 年 8 月 12 日
    @binux 一般的站点用jsdom甚至更简单的一些HTML Parser就能搞定
    最蛋疼的就是那些各种AJAX的Web App.....
    binux
        25
    binux  
       2013 年 8 月 12 日
    @chengyuhui 我指的是,对不同的网站“自动”提取结构化数据
    clowwindy
        26
    clowwindy  
       2013 年 8 月 12 日
    @kenneth 链接发现是怎么做的?
    isayr
        27
    isayr  
       2013 年 8 月 12 日
    @clowwindy @kenneth 同问 链接发现是怎么做的?
    F0ur
        28
    F0ur  
       2013 年 8 月 12 日
    搬凳子听讲课。。平时爬虫接触的真心不多
    emohacker
        29
    emohacker  
       2013 年 8 月 24 日
    用node最简单的地方在于web上html内容抓回来之后可以把内容当dom操作,server端用jQuery操作dom获取指定内容,极大降低了门槛,不会传统爬虫技术的童鞋也可以无痛写定向爬虫了。
    请问楼主选择node是否处于这方面的考虑?
    Ariagle
        30
    Ariagle  
    OP
       2013 年 8 月 24 日
    @emohacker 是的,若原本就懂类JQuery的选择器操作,那会有天然的优势。另外就是相对诸如Python等其他后端语言,我们对JS更熟一些。
    xieren58
        31
    xieren58  
       2013 年 8 月 25 日
    用上node的cheerio,我和我的小伙伴们都惊呆了 ~~
    gdzdb
        32
    gdzdb  
       2013 年 8 月 29 日
    我也来推荐一个node的爬虫模块:https://github.com/cgiffard/node-simplecrawler
    ling0322
        33
    ling0322  
       2013 年 8 月 29 日
    咱报个名呢> <
    jinwyp
        34
    jinwyp  
       2013 年 8 月 30 日
    没人用phamtomjs? 和node phamtom
    martinbruce
        35
    martinbruce  
       2013 年 8 月 30 日
    @kenneth 这方面的高手啊! 求携带,最近一直在研究crawler
    kenneth
        36
    kenneth  
       2013 年 8 月 30 日
    @martinbruce 欢迎来我网站和我交流mvmap.com,或者直接加我QQ:50009371
    kenneth
        37
    kenneth  
       2013 年 8 月 30 日
    @clowwindy
    @isayr
    影大指的的爬虫的链接发现?这要看是盲爬,还是定向爬了。定向爬是用正则写规则,盲爬就是深度优先和广度优先,还有控制爬取的深度。
    clowwindy
        38
    clowwindy  
       2013 年 8 月 30 日
    @kenneth 非定向抓取去重是个难题,我们以前的搜索项目也遇到了,没有很好的解决。比如爬淘宝,如何发现商品,如果顺着链接忙爬,会陷入各种搜索过滤条件的组合之中。这些搜索条件大部分是搜不出结果的。搜出结果的,结果条目也大量重复。我们虽然尝试用一些模型去学习和预测,但效果很差。最后只能单纯限制抓取深度。
    binux
        39
    binux  
       2013 年 8 月 30 日
    @clowwindy
    1、去除无效参数
    2、泛滥控制
    3、翻页索引识别
    4、链接发现能力挖掘
    等等等等。。
    TimePower
        40
    TimePower  
       2013 年 8 月 31 日
    你们服务器被墙了~?
    Ariagle
        41
    Ariagle  
    OP
       2013 年 8 月 31 日
    @ling0322 可QQ联系。

    @TimePower 没有,可能是你的网络问题吧?
    crny520
        42
    crny520  
       2013 年 8 月 31 日
    @kenneth 哥,牛吹太大了,你的PY也不是会太久.
    kenneth
        43
    kenneth  
       2013 年 9 月 2 日
    @crny520 我一直都是小菜鸟。没有吹牛,只是贡献爬虫思路而已。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2612 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 02:22 · PVG 10:22 · LAX 18:22 · JFK 21:22
    ♥ Do have faith in what you're doing.