V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Northxw
V2EX  ›  程序员

58 同城全国城市房屋信息爬虫

  •  
  •   Northxw · 2019-04-09 07:42:25 +08:00 · 4425 次点击
    这是一个创建于 2047 天前的主题,其中的信息可能已经有所发展或是发生改变。

      虽然大家都说 58 同城的假数据较多,可我还是按耐不住抓取的热情。代码已实现 Scrapyd 部署,反反爬措施,Mysql 异步存储,UA、Retry 中间件等主要功能。但代码存在某处 Bug, 欢迎提交 issue。也欢迎您来 pull, 希望自己能长期维护更新下去。

      Github 地址: https://github.com/Northxw/City58。欢迎 star。

    第 1 条附言  ·  2019-04-09 09:21:29 +08:00
    20 条回复    2019-06-23 21:06:28 +08:00
    lavenderkissyou
        1
    lavenderkissyou  
       2019-04-09 08:29:53 +08:00
    404 了
    lulinux
        2
    lulinux  
       2019-04-09 08:41:00 +08:00 via Android
    搞这个东西是不可怕的
    rawidn
        3
    rawidn  
       2019-04-09 08:51:30 +08:00 via iPhone
    律师函警告
    Northxw
        4
    Northxw  
    OP
       2019-04-09 09:15:03 +08:00 via Android
    @lavenderkissyou emmm... 去浏览器访问, 应该可以进去的。
    Northxw
        5
    Northxw  
    OP
       2019-04-09 09:15:43 +08:00 via Android
    @rawidn 额, 已添加公告, 若涉及侵权麻烦邮箱联系, 第一时间处理。
    Northxw
        6
    Northxw  
    OP
       2019-04-09 09:16:28 +08:00 via Android
    @lulinux 额 比较隐晦的话题
    ccoming
        7
    ccoming  
       2019-04-09 09:18:53 +08:00
    加链接最好后面多留一个空格,免得: https://github.com/Northxw/City58%E3%80%82%E6%AC%A2%E8%BF%8E
    Northxw
        8
    Northxw  
    OP
       2019-04-09 09:21:51 +08:00 via Android
    @ccoming 抱歉抱歉<(_ _)>
    stop9125
        9
    stop9125  
       2019-04-09 10:21:12 +08:00
    提几个建议
    1.上传代码的时候去除多余的东西,类似于 _py* 和 *.pyc
    2.密码不要暴露
    3.那个 BUG 和邮箱服务关系不大,你可以再看一下
    Northxw
        10
    Northxw  
    OP
       2019-04-09 10:24:11 +08:00
    @stop9125 嗯嗯,比如我在.git 设置了忽略.idea,但是我之前已经上传了;然后关于密码,都已经作过更改或者失效了,哈哈;然后,那个 Bug, 慢慢研究吧
    guyeu
        11
    guyeu  
       2019-04-09 10:48:37 +08:00
    如果要 ignore 已经被 track 的文件,可以`git rm --cached ***`
    Northxw
        12
    Northxw  
    OP
       2019-04-09 10:53:01 +08:00 via Android
    @guyeu 感谢感谢(❁´ω`❁)
    BB0923
        13
    BB0923  
       2019-04-09 11:07:28 +08:00
    好东西,小白怎样使用?
    mokeyjay
        14
    mokeyjay  
       2019-04-09 11:09:48 +08:00
    58 的假数据不是较多,而是基本全都是= =
    Northxw
        15
    Northxw  
    OP
       2019-04-09 11:16:09 +08:00
    @BB0923 要不你先去快速入门爬虫?挺简单的。

    @mokeyjay 额,小姐姐,这个我真的就不知道了。。。
    li02
        16
    li02  
       2019-04-09 11:37:09 +08:00
    去年搞了个跑在 Console 里的爬虫,爬自己的城市足够了
    Northxw
        17
    Northxw  
    OP
       2019-04-09 11:45:34 +08:00 via Android
    @li02 部署到远端 server 了吧
    li02
        18
    li02  
       2019-04-09 11:56:43 +08:00
    @Northxw 记不清了,记得只是输出 CSV 文件,优点就是方便
    Northxw
        19
    Northxw  
    OP
       2019-04-09 12:07:57 +08:00 via Android
    @li02 都行的, 部署完后, 数据处理方式看自己啦
    luoleng
        20
    luoleng  
       2019-06-23 21:06:28 +08:00
    楼主研究过那个手势验证码嘛?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2828 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 11:38 · PVG 19:38 · LAX 03:38 · JFK 06:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.