V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
ksaa0096329
V2EX  ›  Python

(推广)Github 项目,使用知乎移动端 APP 的 API 爬取数据

  •  
  •   ksaa0096329 · 2017-11-15 10:20:31 +08:00 · 3214 次点击
    这是一个创建于 2584 天前的主题,其中的信息可能已经有所发展或是发生改变。

    项目地址:gavin66/zhihu_crawler

    目前项目已实现知乎的自动登录,并可爬取用户资料数据(还未有学历等详细资料,之后会添加),需要数据进行分析的或者感兴趣的可以给个 star⭐,谢谢。

    使用方法

    你必须安装有 mongoDB

    安装依赖

    pip install -r requirements.tx
    

    爬取用户信息保存进 mongodb 中

    python zhihu_crawler/spider/profile.py
    

    配置

    文件 config.py 进行项目运行配置

    # mongodb 连接配置
    MONGO_URI = 'mongodb://%s:%s@%s:%s/admin' % ('username', 'password', 'ip', 'port')
    
    # 以下两个文件路径可随意换成你指定的
    # token 默认保存地址
    TOKEN_PATH = os.environ['HOME'] + '/zhihu_crawler/zhihu.token'
    # 日志文件
    LOG_PATH = os.environ['HOME'] + '/zhihu_crawler/zhihu.log'
    

    API 说明

    from zhihu.client import Client
    
    # 所有程序的入口
    client = Client()
    # 直接使用用户名和密码登录
    client.login(username='+8615555555555', password='password')
    # 不使用参数,根据命令行输入
    # client.login()
    
    # 自己 model
    myself = client.myself()
    # 自己的信息
    myself.info()
    
    # 他人 model
    people = client.people()
    # 某人关注列表
    people.followees()
    # 某人被关注列表
    people.followers()
    

    运行截图

    爬取数据的格式

    参考

    4 条回复    2017-11-19 22:45:10 +08:00
    bkmi
        1
    bkmi  
       2017-11-15 12:33:04 +08:00 via Android
    扒接口算侵权么
    stop9125
        2
    stop9125  
       2017-11-15 13:22:43 +08:00 via iPhone
    拔完还要亮出来
    qdzzyb
        3
    qdzzyb  
       2017-11-15 13:41:11 +08:00
    倒逼知乎成长
    mingyun
        4
    mingyun  
       2017-11-19 22:45:10 +08:00
    厉害了 apk 还能反编译了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3330 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 10:30 · PVG 18:30 · LAX 02:30 · JFK 05:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.