V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
sohoer
V2EX  ›  分享创造

做了两年多的一个项目,第一次邀请测试,希望对您有用

  •  
  •   sohoer ·
    speed · 2013 年 4 月 9 日 · 16704 次点击
    这是一个创建于 4674 天前的主题,其中的信息可能已经有所发展或是发生改变。
    之前没想过把他做成产品只是按照自己的实际需求做,断断续续用业余时间做了快两年,为了完成这个项目在去年12月断然离职到现在全职做了4个月,
    现在总算是可以晒出来给大家用用了。

    他是一款WEB版的通用型网页数据采集工具,我叫他鸟巢采集器。
    鸟巢采集器拥有强大的内容采集和数据过滤功能,基于JAVA语言开发,是平台无关的可以在任何系统上运行。
    鸟巢采集器分WEB端和后端应用,WEB端不干预后端应用的逻辑只为后端应用提供可视化的操作界面,后端应用完全由用户部署管理,包含“采集器应用”、“爬虫池应用”、“爬虫应用”。
    通过WEB端对后端应用的接入,可以对后端应用进行可视化管理。

    鸟巢采集器访问地址:
    http://www.newcrawler.com/

    鸟巢采集器能做些什么:
    采集数据、博客迁移、友情链接检查、定向采集实现垂直搜索 等等。

    鸟巢采集器相比其它采集器的优势:
    1、平台无关,可以在任何系统上运行如:Linux、Windows ...
    2、可以运行在云环境 PAAS 平台上如:Google App Engine 、Sina App Engine 、AppFog ...
    3、Raspberry Pi 也是支持的。
    4、提供四种插件,让鸟巢采集器可以满足更多更复杂的需求。
    5、可以将采集到的数据以文本或附件的形式发布到指定的邮箱,如推送资讯到Kindle。
    6、使用WEB的管理方式,可以在任何终端上操作。
    总之最大的优势是WEB版平台无关,其它核心功能也都有。


    目前唯一一个在用鸟巢采集器抓取数据的网站:
    http://www.shishibi.com/

    如果您只想看看效果请使用下面的账号密码登录
    test
    test

    如果您想试用请留下邮箱,我将给您发送邀请码

    PS: 正式版发布后会考虑收费但肯定会至少有1个月的试用期,试用期过后后端应用还是可以正常使用的,只是不可以通过WEB端进行可视化管理,对于邀请注册的用户在正式版发布后至少可以多免费使用1年。
    提前声明英文版还没找专业人士翻译目前是直接GOOGLE的。
    鸟巢采集器还有一个爬虫分享计划,试想一下每抓取一个页面换一个IP是不是很爽呢,只是目前尚未启动 ^^
    第 1 条附言  ·  2013 年 4 月 9 日
    不知道有没有人发布应用,附上安装说明

    1.下载GAE发布工具 “windows-gae-deploy-tools.zip” 与采集器应用包 “soso-crawler-gae.zip”
    http://pan.baidu.com/share/link?shareid=359591&uk=539995500
    http://pan.baidu.com/share/link?shareid=366793&uk=539995500

    2.解压 windows-gae-deploy-tools.zip
    解压 soso-crawler-gae.zip 到发布工具的war目录,war目录结构如下:
    -war
    -WEB-INF
    -index.html
    -favicon.ico
    ....

    2.修改project-app-deploy.xml配置文件,
    your.gae.app.id #Google App Engine 的App Id
    your.gae.account #Google App Engine 的账户
    your.gae.account.password #Google App Engine 的账户密码

    3.双击运行 deploy.bat 进行发布

    4.发布成功后接入你的采集器应用到WEB端
    登录newcrawler.com在
    系统设置 > 采集器管理
    填上你的刚刚发布的应用地址和名称点添加,成功后你就可以在WEB端管理你的采集器应用了
    第 2 条附言  ·  2013 年 4 月 9 日
    还需要注意的一点,GAE应用需要Datastore Indexes创建好之后才能使用,大家可以在GAE的控制台查看Datastore Indexes 状态
    谢谢刚刚反馈的用户。
    149 条回复    2015-04-25 00:43:13 +08:00
    1  2  
    niko
        1
    niko  
       2013 年 4 月 9 日
    貌似很NB的样子,给个邀请码吧, [email protected]
    ostrichmyself
        2
    ostrichmyself  
       2013 年 4 月 9 日
    [email protected]

    看好你~
    Ziya
        3
    Ziya  
       2013 年 4 月 9 日
    邀请下看看吧
    Ziya.TLF#Gmail.com
    sohoer
        4
    sohoer  
    OP
       2013 年 4 月 9 日
    @Ziya
    @ostrichmyself
    @niko
    已发送,注意查收,谢谢支持!
    lj0014
        5
    lj0014  
       2013 年 4 月 9 日
    来试用下,曾用scrapy爬过数据

    lj0014#gmail.com
    jerry
        6
    jerry  
       2013 年 4 月 9 日
    嗯,有需求,来个邀请码试试嘛 lxb429#gmail.com
    Isight
        7
    Isight  
       2013 年 4 月 9 日
    这个跨平台不错,求测试 zbq#live.cn
    iiduce
        8
    iiduce  
       2013 年 4 月 9 日
    这个感兴趣 iiduce#163.com
    andybest
        9
    andybest  
       2013 年 4 月 9 日
    求邀请,已注册了: hankfo#gmail.com
    jackyzy823
        10
    jackyzy823  
       2013 年 4 月 9 日 via iPhone
    jackyzy823#gmail.com 感兴趣→_→
    nsxuan
        11
    nsxuan  
       2013 年 4 月 9 日 via Android
    juven
        12
    juven  
       2013 年 4 月 9 日
    感兴趣,谢LZ。juven.lab # gmail.com
    sohoer
        13
    sohoer  
    OP
       2013 年 4 月 9 日
    @juven
    @nsxuan
    @jackyzy823
    @andybest
    @iiduce
    @Isight
    @jerry
    @lj0014

    已发送,注意查收,谢谢支持!
    binux
        14
    binux  
       2013 年 4 月 9 日   ❤️ 1
    test账号试用了一下,感觉太复杂了,太流程化了

    贴一个我们的爬虫系统图,用程序化脚本控制
    sohoer
        15
    sohoer  
    OP
       2013 年 4 月 9 日
    @binux 你这个不是通用的吧,自己定制是可以做到最简单的效果,如果每次都定制这个工作量就大了
    Mrlee
        16
    Mrlee  
       2013 年 4 月 9 日
    Gmail: @Bestmrlee
    sevenday
        17
    sevenday  
       2013 年 4 月 9 日
    麻烦发个邀请码,多谢! mustnot # gmail.com
    andybest
        18
    andybest  
       2013 年 4 月 9 日
    @sohoer 是不是给账户默认提供一个环境?
    现在要自己有GAE,并且安装3份程序到自己GAE,自己机器还要装发布工具。。。。

    这个测试成本也太高了。。想简单看下功能都不行。。。。
    lj0014
        19
    lj0014  
       2013 年 4 月 9 日
    试用了下,没整成功,总是报错。
    markmx
        20
    markmx  
       2013 年 4 月 9 日
    imanbian#gmail.com
    求邀请码!
    andybest
        21
    andybest  
       2013 年 4 月 9 日
    应用安装第一次安装没有成功,
    现在现在再点就是“请升级您的账户”了。
    sohoer
        22
    sohoer  
    OP
       2013 年 4 月 9 日
    @andybest
    要想用GAE、APPFOG的免费空间是麻烦点,需要自己手动部署,为了方便部署我提供了一个GAE的发布工具。
    也可以部署在本地那样也需要做端口映射让外网可以访问

    @lj0014 刚刚有人使用了GAE在线安装,这个功能其实已经做好了,只是需要我提供服务器来发布你的GAE应用,只是目前还没有提供这台服务器。所以我暂时把它这功能关了,

    现在需要您在本地发布,我有提供一个GAE发布工具,按照Readme.txt中步骤应该可以发布成功
    sohoer
        23
    sohoer  
    OP
       2013 年 4 月 9 日
    @andybest 原来是你,不好意思我刚刚把这功能关了
    andybest
        24
    andybest  
       2013 年 4 月 9 日
    @sohoer 至少提供一个默认的“采集器”吧
    说实话作为一个WEB项目让人安装程序有点不应该

    另外有测试成功的吗?发布个教程呗。。。
    sohoer
        25
    sohoer  
    OP
       2013 年 4 月 9 日
    @Mrlee
    @sevenday
    @markmx

    已发送,注意查收,谢谢支持!
    sohoer
        26
    sohoer  
    OP
       2013 年 4 月 9 日
    @andybest
    "Google App Engine 发布工具" 用这个工具无法发布GAE应用吗? 这个工具我测试过的呀!
    lj0014
        27
    lj0014  
       2013 年 4 月 9 日
    @sohoer 我就是刚用了GAE在线安装
    andybest
        28
    andybest  
       2013 年 4 月 9 日
    @sohoer 恩,我觉得你这个页面框架做的不错,比如异常堆栈的输出/显示方法,安装过程信息的同步输出这些,所以觉得东西做的应该值得看
    sohoer
        29
    sohoer  
    OP
       2013 年 4 月 9 日
    @lj0014
    @andybest
    你们下载"Google App Engine 发布工具"这个工具发布吧!
    sohoer
        30
    sohoer  
    OP
       2013 年 4 月 9 日
    @andybest 全是HTML+ajax
    sohoer
        31
    sohoer  
    OP
       2013 年 4 月 9 日
    @andybest 目前是部署在GAE上的
    sohoer
        32
    sohoer  
    OP
       2013 年 4 月 9 日
    @andybest 我一定会努力把功能都做好的,谢谢你
    wingoo
        33
    wingoo  
       2013 年 4 月 9 日
    地址打不开了?
    csx162
        34
    csx162  
       2013 年 4 月 9 日
    支持一下,以前都用火车,想试试这个,求邀请
    sohoer
        35
    sohoer  
    OP
       2013 年 4 月 9 日
    @wingoo 看来WEB端部署在GAE不是长久之计
    sohoer
        36
    sohoer  
    OP
       2013 年 4 月 9 日
    @csx162
    67a64bbf656901c5
    l0wkey
        37
    l0wkey  
       2013 年 4 月 9 日
    zzm110112@163.
    xiiing
        38
    xiiing  
       2013 年 4 月 9 日
    可不可以导出腾讯微博?
    sohoer
        39
    sohoer  
    OP
       2013 年 4 月 9 日
    @xiiing 能给个微博地址吗,我试抓一下
    inroading
        40
    inroading  
       2013 年 4 月 9 日
    挂上VPN就可以打开了
    求邀请 inroading#gmail.com
    sohoer
        41
    sohoer  
    OP
       2013 年 4 月 9 日
    @xiiing
    刚刚看了下腾讯微博的数据,不是ajax的,只要不是ajax的100%是可抓取的,ajax的会有些不确定性,得看javascript解析引擎

    @l0wkey
    @inroading
    已发送,注意查收,谢谢支持!
    drupal
        42
    drupal  
       2013 年 4 月 9 日
    希望能够测试drupal#sina.cn
    Wy4q3489O1z996QO
        43
    Wy4q3489O1z996QO  
       2013 年 4 月 9 日
    希望能够测试一下 romotc#@#gmail .dot. com
    kamehamehon
        44
    kamehamehon  
       2013 年 4 月 9 日
    @sohoer 求一个联系方式
    workaholic
        45
    workaholic  
       2013 年 4 月 9 日
    关注你很久了哥们, ^_^ , v2sker # gmail.com
    sohoer
        46
    sohoer  
    OP
       2013 年 4 月 9 日
    @kamehamehon
    其实收了邀请码的都可以联系到我的


    @drupal
    @romotc
    @workaholic
    已发送,注意查收,谢谢支持!
    workaholic
        47
    workaholic  
       2013 年 4 月 9 日
    @sohoer 不能添加爬虫池,提示"错误:需要升级您的账户"
    durrrr
        48
    durrrr  
       2013 年 4 月 9 日 via Android
    求邀请
    ihaku4#gmail.com
    sohoer
        49
    sohoer  
    OP
       2013 年 4 月 9 日
    @workaholic 爬虫池还没有开放,添加一个采集器应用就可以爬数据了.
    AnyOfYou
        50
    AnyOfYou  
       2013 年 4 月 9 日
    看上去很棒!
    anyofyou(AT)gmail.com
    nan0kai
        51
    nan0kai  
       2013 年 4 月 9 日
    @sohoer
    感觉潜力相当大。求邀请码帮你测试试用下
    [email protected]
    谢谢
    binux
        52
    binux  
       2013 年 4 月 9 日
    @sohoer 当然是通用的了,你需要为每个站加规则,而我通过代码表达规则
    sohoer
        53
    sohoer  
    OP
       2013 年 4 月 9 日
    @binux 好吧是不是可以把他当成一个DOS 一个WIN的区别
    sohoer
        54
    sohoer  
    OP
       2013 年 4 月 9 日
    @binux 不过确实还不够简单,到时我会考虑将一些不常用的选项做为高级选项隐藏起来
    thedevil5032
        55
    thedevil5032  
       2013 年 4 月 9 日 via iPad
    @binux 可以弱弱地问问你的截图里是个什么软件吗?
    binux
        56
    binux  
       2013 年 4 月 9 日
    @sohoer 用代码更灵活,任何页面都可以爬,任何情况都能适配,要新功能import就可以
    甚至可以在框架内实现一套你的导出规则,当然要有一点代码基础。。不过用的是python还好。。
    jeansfish
        57
    jeansfish  
       2013 年 4 月 9 日
    jeansfish#####outlook.com
    来一个看看
    binux
        58
    binux  
       2013 年 4 月 9 日
    @thedevil5032 我们自己开发的爬虫引擎
    kaifazhe
        59
    kaifazhe  
       2013 年 4 月 9 日
    admin#html5点cn

    发一个,谢谢
    sohoer
        60
    sohoer  
    OP
       2013 年 4 月 9 日
    @binux 其实我的也很灵活的,有抓取插件,javascript的支持就是通过插件实现的,其实越灵活变相的就越复杂,我发现我这工具目前都无法面向一般的大众用户的。
    adspe
        61
    adspe  
       2013 年 4 月 9 日
    不错
    来一个
    [email protected]
    lushnis
        62
    lushnis  
       2013 年 4 月 9 日
    求邀請 lushnis[AT]gmail.com
    huangzxx
        63
    huangzxx  
       2013 年 4 月 9 日
    zhongxin.huang[at]gmail.com 谢谢。。
    sohoer
        64
    sohoer  
    OP
       2013 年 4 月 9 日
    以上用户邀请码都以发送如果没有收到请与我联系,谢谢支持!
    anyalso
        65
    anyalso  
       2013 年 4 月 9 日
    我也求一个 anyalso[at]yahoo.com.cn,谢谢
    pengdu
        66
    pengdu  
       2013 年 4 月 9 日
    赞楼主!
    python有个scrapy,做爬虫很好。之前小弄了个快播电影站(http://17sotv.com/),就是用的scrapy,从页面采集,解析,入库一条龙服务。
    yuhuofeihe
        67
    yuhuofeihe  
       2013 年 4 月 9 日
    sohoer
        68
    sohoer  
    OP
       2013 年 4 月 9 日
    @yuhuofeihe
    @anyalso
    已发送,注意查收,谢谢支持!

    @pengdu
    谢谢!其实我也有很多站想做的。
    Yannis1990
        69
    Yannis1990  
       2013 年 4 月 10 日
    求邀请,求测试.... excellentbright#gmail.com
    TigerS
        70
    TigerS  
       2013 年 4 月 10 日
    给一个邀请吧,z.jiang##queensu.ca
    ksky
        71
    ksky  
       2013 年 4 月 10 日 via iPhone
    要个邀请 hebine#me.com
    guokb
        72
    guokb  
       2013 年 4 月 10 日
    @sohoer 同球個邀請碼 guokb0922[at]126.com 謝謝!
    parkman
        73
    parkman  
       2013 年 4 月 10 日
    求邀请码 [email protected]
    zetttt
        74
    zetttt  
       2013 年 4 月 10 日
    同求邀请码 [email protected]
    haker
        75
    haker  
       2013 年 4 月 10 日
    求邀请码 myhaker[at]gmail.com
    jasla
        76
    jasla  
       2013 年 4 月 10 日
    langqixu[at]gmail.com
    感谢。
    amirfish
        77
    amirfish  
       2013 年 4 月 10 日
    求邀请码,谢谢!
    amirfish.cn[at]gmail.com
    hdinfo
        78
    hdinfo  
       2013 年 4 月 10 日
    球邀请码,谢谢
    [email protected]
    sohoer
        79
    sohoer  
    OP
       2013 年 4 月 10 日   ❤️ 1
    @TigerS
    @ksky
    @guokb
    @parkman
    @zetttt
    @haker
    @jasla
    @amirfish
    @hdinfo

    邀请码已发,谢谢支持!
    xiiing
        80
    xiiing  
       2013 年 4 月 10 日
    @sohoer t.qq.com/sailingyang
    谢谢,一直想导出来
    Tinet
        81
    Tinet  
       2013 年 4 月 10 日
    tinetkiller#gmail.com
    给我也发一个吧
    sohoer
        82
    sohoer  
    OP
       2013 年 4 月 10 日
    @xiiing
    目前只提供抓取与通过接口发布,还没有数据导出的功能。

    @Tinet
    邀请码已发,谢谢支持!
    madfrog1984
        83
    madfrog1984  
       2013 年 4 月 10 日
    madfrog1984#gmail.coom 求邀请码
    firsthym
        84
    firsthym  
       2013 年 4 月 10 日
    penglilonghc
        85
    penglilonghc  
       2013 年 4 月 11 日
    penglilonghc#gmail.com 求缴请,求测试
    molinxx
        86
    molinxx  
       2013 年 4 月 11 日 via iPhone
    uoryon
        87
    uoryon  
       2013 年 4 月 11 日
    [email protected]
    求邀請。
    dengyunxuan
        88
    dengyunxuan  
       2013 年 4 月 11 日
    dengyunxuan#qq.com 求邀请!!!
    DXpro
        89
    DXpro  
       2013 年 4 月 11 日
    [email protected] 求邀请!!!
    welsmann
        90
    welsmann  
       2013 年 4 月 11 日
    [email protected],求邀请!!!
    sohoer
        91
    sohoer  
    OP
       2013 年 4 月 11 日
    @madfrog1984
    @firsthym
    @penglilonghc
    @molinxx
    @uoryon
    @dengyunxuan
    @DXpro
    @welsmann

    邀请码已发,谢谢支持!
    solo7net
        92
    solo7net  
       2013 年 4 月 11 日
    我来试用
    solo.7net 爱它 gmail.com
    creeper
        93
    creeper  
       2013 年 4 月 11 日
    求邀请码,谢谢了~ [email protected]
    XDA
        94
    XDA  
       2013 年 4 月 11 日
    码子在哪里? [email protected]
    Tianpu
        95
    Tianpu  
       2013 年 4 月 11 日 via iPhone
    dull # live.com

    谢谢
    glongzh
        96
    glongzh  
       2013 年 4 月 11 日 via Android
    很感兴趣!

    glongzh#126.com

    谢谢!
    lin
        97
    lin  
       2013 年 4 月 11 日
    khb_gl
        98
    khb_gl  
       2013 年 4 月 12 日
    [email protected] 可以很强大。 求白名单适用
    koon_kai
        99
    koon_kai  
       2013 年 4 月 12 日 via Android
    [email protected] 求邀请使用
    yearsaaaa
        100
    yearsaaaa  
       2013 年 4 月 12 日
    1  2  
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2743 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 12:15 · PVG 20:15 · LAX 04:15 · JFK 07:15
    ♥ Do have faith in what you're doing.