最近需要做一个 Github 的软件(毕业设计),需要大量爬各种 issue、pull request 等的信息,5000 次每小时的 Github API 频率完全不够用。
想问下有没有封装好的有关 Github 的爬虫?谷歌上搜到的都是 Github 上的爬虫库项目
没有的话就去自己写了..
1
phpfpm 2020 年 1 月 28 日
你写个脚本注册账号生成 api token 不就得了。。
另,我记得如果不登录(没 token )访问 api 的话有次数限制,有 token 还会有限制吗? |
2
JasonEWNL 2020 年 1 月 28 日 via iPad
一个 JS 一个 Ruby 的库,都是 GitHub 上的 GitHub API 库。
https://github.com/github-tools/github https://github.com/piotrmurach/github |
3
tikazyq 2020 年 1 月 28 日
自己写吧,很简单的,用 scrapy 的 CrawlSpider,注意反爬限制
|
4
charlieputon 2020 年 1 月 28 日 via Android
github 不是有 api 吗。。不过是 graphql 的。。
|
5
VDimos 2020 年 1 月 28 日 via Android
github 是公开 api 的吧
|
6
cmqwan 2020 年 1 月 28 日 via iPhone
github 不让爬,有 robots 协议。
|
7
iYu 2020 年 1 月 28 日
5000 次每小时的 Github API 频率完全不够用。 确认是毕业设计么?如果是的话,感觉有点厉害啊。 这是需要多少数据啊。爬个几天几夜都不够么。
|
8
oott123 2020 年 1 月 28 日 你可以从这两个数据源获取数据:
GHTorrent: http://ghtorrent.org/downloads.html GH Archive: https://www.gharchive.org/ 他们提供了丰富的数据信息,较为方便的查询方式,以及简单的归档下载功能。不用自己爬…… |
10
Humbert OP @charlieputon 也有 RESTful 的,但是次数有点限制
|
15
sunwei0325 2020 年 1 月 28 日
有个同事把代码传到 github 上, 公司安全部门很快就发现并通报了, 估计是自己实现的吧
|
16
everydaystruggle 2020 年 1 月 28 日
楼主或者楼主导师是做 mining software repository 的么?
|
17
lazygod 2020 年 1 月 29 日 via Android
@sunwei0325 用公司的电脑上床有记录的
|
18
SampleNaive 2020 年 1 月 29 日
当然有啊,不然那些动不动几千 star,才几十个 issue 的项目怎么来的?
|