GitHub 用的久了,偶尔看到一些爆款仓库( Star 数量非常多)总会有一些想要对其中数据进行分析的冲动,最早一次是在 996ICU 仓库发布的时候进行的一个小小的分析(相关博文:对 996.icu 仓库 Stargazers 的一些小的分析),当时在完成了那个仓库的分析之后便感觉——这种分析的操作应该是通用的,我们应该需要有能力可以对任意 GitHub Stargazer 进行一些分析,然而由于各种原因没有成功完成,在看到 timquan 的 timqian/star-history 之后,不禁感慨,大家手速都好快呀(跑~
其实对于一个 GitHub 仓库而言,除了 Stargazer 数量以外,还有很多可以用来作统计和可视化的指标,我们从一个简单的问题开始吧:
给我们仓库点 Star 的用户都是什么样子的人呢?
要回答这个问题,我们可以首先看看他们都是什么时候注册的,我们以两个仓库进行对比吧:「 d3/d3 」和「 996icu/996.ICU 」,在「 d3/d3 」中,用户的「注册时间-注册数量」的图是这样的:
相比较之下「 996icu/996.ICU 」仓库的「注册时间-注册数量」图是这样的:
对比一下可以发现 Star 「 996icu/996.ICU 」 仓库的用户普遍注册时间比 「 d3/d3 」 的要晚一些,而且在 2019 年的时候注册时间还出现了一个非常突出的点,让我们回忆一下这个仓库的上线时间同时标记一下这个仓库的 Star 数量和时间曲线图:
会发现这个项目在刚刚上线的时候有非常多的 Star,之后都比较倾向于平缓,那么那段陡增的 Star 有没有可能与这段用户有关呢?
有的时候,我会好奇:
给这些仓库点 Star 的人,他们的头像是怎样分布的呢?
继续用「 d3/d3 」和「 996icu/996.ICU 」作为对比,首先我们把他们的 Stargazer 数据全部拉下来,然后按照用户的 Follower 数量从小到大进行排序,并从左到右,从上到下拼接到一张图片中,就有了如下的情况,首先还是 「 d3/d3 」:
然后是 「 996icu/996.ICU 」
有没有发现 「 996icu/996.ICU 」 的图片中有一个非常明显的分层?从差不多 50% 的位置,以上的部分使用 GitHub 默认头像的用户较多。
除此之外,我们是不是还可以把 Stargazer 们的 Company 生成词云,了解一下他们所在公司的信息,或者根据他们留的邮箱情况来统计一下他们的邮件服务商分布呢?
其实有很多数据等待我们去发掘,为此,我专门做了一个站点,叫 GitHub Insights,地址是 https://github.re,欢迎来参观.
由于 GitHub 仓库众多,目前的爬取策略是每天更新一次 GitHub Trending 的所有仓库并生成相关的可视化图表,后续可能会根据大家的搜索结果相关做一个分析队列,并逐渐加入更多的分析数据项,目前如果你对某个仓库感兴趣,或者希望我收录某个仓库的话,暂时可以邮件联系我进行添加~
希望你会喜欢这个工具.
1
4ark 2020-11-09 08:48:52 +08:00 via iPhone
这域名也能注册到?
|
2
sillydaddy 2020-11-09 12:27:29 +08:00
使用用户头像来观察分层的 idea 不错,很有意思。
|
4
tikazyq 2020-11-09 17:31:41 +08:00
感觉没啥用...
"This repo does not exist in GitHub Insights.." |
5
n0vad3v OP @tikazyq 目前的更新策略是每天更新一次 GitHub Trending 的数据,请问您访问的是哪个仓库呢?
暂时我们可以手动加入一下队列. |
6
tikazyq 2020-11-09 22:32:53 +08:00
crawlab-team/crawlab
建议采用 JIT 长任务的方式,如果不超过 1-2 分钟处理时间,问题也不大 |
7
n0vad3v OP |
8
binaryify 2020-11-12 17:53:02 +08:00
页面可以加个按钮手动添加吗
|
10
zmqiang 2020-11-13 10:39:18 +08:00
有两个小建议:
1. 可不可以提供浏览或者随机查看的功能,不然想看效果都不知道搜什么,可能关心的库大概率不在 2. 现在图片太小看不清,最好能提供查看大图的功能 |
11
n0vad3v OP |
12
RYAN0UP 2020-11-14 12:23:19 +08:00
很赞!
|
13
johnniang 2020-11-14 13:26:57 +08:00
对于一些库无法分析
|