V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
69185499
V2EX  ›  程序员

有没有人用爬虫爬过 GooglePlay

  •  
  •   69185499 · 2016-06-14 13:37:34 +08:00 · 5229 次点击
    这是一个创建于 3084 天前的主题,其中的信息可能已经有所发展或是发生改变。

    近期有抓取 googlePlay 里 apk 包的需求,也尝试了一些方法,现在爬虫( WebMagic 编写+Phantomjs )仅能够实现模拟登录并抓取文字信息。至于 APK 包的话,貌似是直接推送到绑定设备。很难通过爬虫得到 APK 文件。以前有一个提供 APK 包下载的非官方 api 但是好像最近也被封了。

    求各位 V 友出谋划策

    谢谢

    10 条回复    2016-06-15 10:12:35 +08:00
    sunchen
        1
    sunchen  
       2016-06-14 13:44:20 +08:00
    抓 google play app ,解析 protobuf 数据
    jiezhi
        2
    jiezhi  
       2016-06-14 13:45:32 +08:00   ❤️ 1
    https://github.com/onyxbits/Raccoon

    之前用过这个抓取 Google Play 的 apk 文件,付费的 apk 要账号之前购买过。
    UnisandK
        3
    UnisandK  
       2016-06-14 13:54:24 +08:00
    69185499
        4
    69185499  
    OP
       2016-06-14 14:07:27 +08:00
    @sunchen 之前抓取过 protobuf 数据,但是可以解析出 apk 信息么? app 应该都是长连接吧
    69185499
        5
    69185499  
    OP
       2016-06-14 14:21:28 +08:00
    @jiezhi 感谢 刚看了这个项目 貌似不能抓取全站 不过可以结合我之前的爬虫来全站抓取 那估计还要考虑使用代理了
    69185499
        6
    69185499  
    OP
       2016-06-14 14:22:21 +08:00
    @UnisandK 这个。。。之前看过这一类网站 但是还是比较担心 app 安全问题 所以还是考虑 GooglePlay
    learnshare
        7
    learnshare  
       2016-06-14 14:38:53 +08:00
    不如去爬 apkpure
    69185499
        8
    69185499  
    OP
       2016-06-14 15:00:46 +08:00
    @learnshare 主要下载前要检验兼容性信息 所以虽然可以通过包名从 apkpure 下载但是感觉不确定下载文件的兼容性 apkpure 只提供安卓版本信息 没有详细的针对某个设备的兼容性信息 所以最好还是爬 GP 原站
    practicer
        9
    practicer  
       2016-06-14 17:15:39 +08:00
    https://github.com/MarcelloLins/GooglePlayAppsCrawler.py
    以前给公司 app 做舆论监控时用过,现在不清楚是否还能用
    69185499
        10
    69185499  
    OP
       2016-06-15 10:12:35 +08:00
    @practicer 看了一下项目 wiki 好像这个不能下载 apk 吧?因为实在 logout 模式下运行爬虫的 这样连兼容性列表都获取不到。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1235 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 18:13 · PVG 02:13 · LAX 10:13 · JFK 13:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.