V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
zhijieju
V2EX  ›  Python

GitHub:爬虫集合:微博、Twitter、玩加、知网、虎牙、斗鱼、B 站、WeGame、猫眼、豆瓣、安居客、居理新房等

  •  
  •   zhijieju · 2020-07-03 19:21:39 +08:00 · 1971 次点击
    这是一个创建于 1606 天前的主题,其中的信息可能已经有所发展或是发生改变。

    hello,小伙伴们大家好,今天给大家推荐的开源项目是 :CxSpider,这个开源整合了作者自己的采集过的所有产品,包括微博、Twitter 、玩加、知网、虎牙、斗鱼、B 站、WeGame 、猫眼、豆瓣、安居客、居理新房感兴趣的小伙伴可以下载看看,应该可以给你提供一个可借鉴的思路。

    Project


    爬虫详情


    1. Twitter 用户信息爬虫(twitter.user_info)

    @author ChangXing @version 4.1 @create 2017.12.25 @revise 2020.06.08

    使用第三方模块 twitter-scraper 采集 Twitter 用户信息;因为该模块采集的粉丝数和关注数可能存在偏差,因此再通过 Selenium 抓取 Twitter 用户信息,以更正该模块采集的数量。

    • 采集信息:粉丝数和关注数为 twitter-scraper 采集并配合 Selenium 爬虫检查,其他字段为 twitter-scraper 采集。
    • 应用配置:无需使用代理 IP,需要使用 Selenium

    2. Twitter 用户推文爬虫(twitter.user_tweet)

    @author ChangXing @version 4.0 @create 2017.12.30 @revise 2020.06.08

    微博热搜榜实时爬虫(weibo.hot_ranking)


    @author ChangXing @Version 1.1 @create 2020.05.29 @revise 2020.06.08

    定时采集微博热搜榜。

    • 采集信息:每 5 分钟采集 1 次,每次约 50 条记录→每天约 14400 条记录
    • 数据清洗:热搜榜置顶热搜(固定第 1 条)和广告热搜(标注推荐)
    • 应用配置:无需使用代理 IP 、无需使用 Selenium

    环境变量


    爬虫功能的正常使用需要配置如下环境变量,可以直接修改 environment.py 中的环境变量值,也可以修改配置 Json 文件。

    环境配置


    Python/Pip 环境

    • Python >= 3.8.0
    • requests >= 2.23.0
      • idna >= 2.9
      • urllib3 >= 1.25.9
      • certifi >= 2020.4.5.1
      • chardet >= 3.0.4
    • bs4 >= 0.0.1
      • beautifulsoup4 >= 4.9.0
      • soupsieve >= 2.0
    • apscheduler >= 3.6.3
      • pytz >= 2019.3
      • six >= 1.14.0
      • tzlocal >= 2.1
      • setuptools
    • mysql-connector >= 2.2.9
    • lxml >= 4.5.0
    • selenium >= 3.141.0 (用于 Selenium 爬虫)
      • urllib3 >= 1.25.9
    • twitter-scraper >= 0.4.1 (用于 Twitter 用户信息爬虫)
      • requests-html >= 0.10.0
      • MachanicalSoup >= 0.12.0

    开源地址: https://github.com/ChangxingJiang/CxSpider

    今天的推荐不知道大家喜欢吗?如果你们喜欢话,请在文章底部留言或点赞,以表示对我的支持,你们的留言,点赞,转发关注是我持续更新的动力哦!

    关注公众号回复:"1024",免费领取一大波学习资源,先到先得哦!

    1 条回复    2020-07-31 19:01:47 +08:00
    iwukong
        1
    iwukong  
       2020-07-31 19:01:47 +08:00
    怎么爬金融 PDF 数据
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1077 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 22:48 · PVG 06:48 · LAX 14:48 · JFK 17:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.