写在最前面:个人感觉 V2EX 信息熵开始走低,所以部署了一只爬虫以极慢的速度爬取了 V 站的所有主题及回复来提取价值较高的主题,并一直更新数据至今。现打算定期拿出来分享一下,给那些时间不多,但是又不想错过 V 站精彩主题的朋友们。周报以周一起,周日止,每周二 /周三发布上一周的周报,数据均截止于发帖时的数据进行排序。有很多数据并没有使用起来,以后会慢慢增加周报的内容。
其实也做了一个简单的展示页面,但是还有些不完善,等完善了再发布吧。另外 V 站各位有开发各种浏览 V2EX APP 的同学可以和我联系下,我可以免费提供一些 API 有日报、周报、月报、各种时间段各种数据的排行榜,以及各时段的在线人数走势之类的数据。
那么,第一期就这样吧~
注:主题得分依据投票、感谢、回复、点击、收藏以及回复质量计算而得;回复感谢排行下的回复均为当周主题内的回复,久远的主题中近期回复会进入总榜但不会进入周报。
1
Leo 2015 年 11 月 25 日 有点意思,感谢
|
2
BuilderQiu 2015 年 11 月 25 日 nice job
|
3
SeanChense 2015 年 11 月 25 日 via iPhone 熵--表示混乱度。
|
4
sciooga OP @SeanChense .. 原谅我的错误,感觉每次发点什么都会闹笑话。
|
5
111111111111 2015 年 11 月 25 日
果然有些热闹的帖子被我错过了,感谢
|
6
Felldeadbird 2015 年 11 月 25 日
不错,以后可以定期找遗漏的热门 V 贴
|
7
caiya21 2015 年 11 月 25 日
顶贴来了,顺便来看贴
|
8
vainly 2015 年 11 月 25 日
总感觉会出现,结果就出现了。
|
9
WildCat 2015 年 11 月 25 日 via iPhone
赞!
iOS 客户端开发者出现了,希望具体沟通。 i(at)wildcat.io |
10
keniusahdu 2015 年 11 月 25 日
不错.定期看周报了.不刷贴了.
|
11
kenshinhu 2015 年 11 月 25 日
求爬虫教程
|
12
Mrxx 2015 年 11 月 25 日
做成微信号订阅,省去很多时间
|
13
sciooga OP @kenshinhu V 站的爬虫没什么技术含量的... 单一 IP 只要爬取速度不太快就不会触发 1800 秒了,然后想怎么弄都行了。
这个爬虫有几个爬取方式,一个是通过 v2ex.com/changes 获取到最新的无过滤的主题更新列表 一个是根据时间段划分主题 ID 进行爬取(分速度,近期的更新快些,越久远速度越慢) 然后需要登录才能查看的主题带上 A2 这个 cookie 就行了。 |
15
Devin 2015 年 11 月 25 日 via iPhone
熵只增不减😏
|
17
sunpj 2015 年 11 月 25 日
棒棒哒
|
18
fakir 2015 年 11 月 25 日
good
|
19
Ellison 2015 年 11 月 25 日
这个赞,收藏先,期待下一期
|
20
xiaoc19 2015 年 11 月 25 日
赞一下啦
|
21
hauk0101 2015 年 11 月 25 日 via Smartisan T1
有趣
|
22
MrJing1992 2015 年 11 月 25 日
good ,我预测楼主的贴子会登顶楼主的榜单,感谢楼主
|
23
kyonnn 2015 年 11 月 25 日
哈哈好棒!看到我的名字了!!!!
|
24
cwhong4399 2015 年 11 月 25 日
如果能长期弄下去,可以考虑让 L 大弄个节点咯
|
25
JayFang1993 2015 年 11 月 25 日 via iPhone
这个棒 nice
|
26
kyonnn 2015 年 11 月 25 日
特意百度了一下“信息熵”,完了,发现自己智硬,抽搐惹……
|
27
nevermind1998 2015 年 11 月 25 日
居然錯過了要賣 mac mini 的妹子
桑心 |
29
Pastsong 2015 年 11 月 25 日
居然错过了要卖 Mac mini 的妹子,我这一周在 V2 都在干什么啊!
|
30
DIYgod 2015 年 11 月 25 日
回复质量是怎么算的
|
31
SpicyCat 2015 年 11 月 25 日
方便的话,能否开源下爬虫代码?
|
32
RockShake 2015 年 11 月 25 日
Nice
|
33
mornlight 2015 年 11 月 25 日
看起来即使是同一个帖子,也会经常爬一下更新感谢数和回复数?
另外,既然存了帖子标题,楼主有没有考虑过开放一个标题搜索功能? |
34
aheadlead 2015 年 11 月 25 日
可以开放个邮件订阅吗
|
35
sciooga OP |
36
sciooga OP |
37
arbipher 2015 年 11 月 25 日
有点意思
|
38
loryyang 2015 年 11 月 25 日
顶 lz ,也认同部分低质量帖子变多的感觉
PS :记得统计里面把这个帖子去掉。。。 |
39
heyf 2015 年 11 月 25 日 @SeanChense
@sciooga https://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA) 在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。 错的不是你(是世界) |
40
s5s5 2015 年 11 月 25 日
楼主好人啊
|
41
Bairrfhoinn 2015 年 11 月 25 日
好是好,但是开头那壹段文字就不能用正常大小的字体来书写嘛,实在是太细了,看得人眼睛都要瞎了,为了看清楚说的什么,我都是把浏览器字体放大放大再放大才开始继续阅读的。
|
42
sciooga OP |
43
v23ex 2015 年 11 月 25 日
得分是如何计算出来的?
|
44
RyuZheng 2015 年 11 月 25 日 via Android
之前有人也做了周报,还可以订阅发送到 kindle 但是后来不知为啥就没更新了
|
45
haitongz 2015 年 11 月 25 日
喜欢
|
46
endpoint 2015 年 11 月 25 日
我倒是想看看爬虫怎么写的。嘻嘻
|
47
ameba 2015 年 11 月 25 日
这篇感觉也能进日报
|
48
xiangjian 2015 年 11 月 25 日
这个不错。 相当有料
|
49
Mavious 2015 年 11 月 25 日 via Android
可以球一个 rss 订阅嘛?一周推 n 个热门帖子看看😉
|
51
smartdie 2015 年 11 月 25 日
楼主搞个微信订阅号吧,省去手机上看了。
|
52
PrideChung 2015 年 11 月 25 日
我看走眼了,以为看到了
今天被老爸教育要攒钱买房子, 于是我攒了一个黑苹果 [:doge:] |
53
sciooga OP @PrideChung 顺带说一下, V2EX PLUS 更新至最新版是支持快捷键发送的,这样就不会把 doge 那个标签发出来了。
|
54
moufuli 2015 年 11 月 25 日
希望可以推送至 kindle ,查看周报汇总滴文章。
|
55
z7039585 2015 年 11 月 25 日
挺好的 如果可以用邮件订阅就更好了 0 0
|
57
luili 2015 年 11 月 25 日
我要把这个主题赞到十大
|
58
yiciyuansky 2015 年 11 月 25 日
有意思
|
59
sciooga OP |
61
MinskyNg 2015 年 11 月 25 日
支持一个
|
62
djyde 2015 年 11 月 25 日
i'm in!
|
63
dreammes 2015 年 11 月 25 日 via iPhone
支持一下
|
64
Qlccks2 2015 年 11 月 25 日
本周回复感谢 - Top 10 有重复的吧
|
66
eric227 2015 年 11 月 25 日
点赞
|
67
leveraging 2015 年 11 月 25 日
Nice
|
68
JackyHua 2015 年 11 月 25 日
顶贴
|
69
shyrock 2015 年 11 月 25 日
为什么要强调是极慢的爬虫?怕被 Livid 封掉?
|
70
quericy 2015 年 11 月 25 日
忽然想起来这周周报还没写
|
71
sciooga OP @shyrock 我被封过好几次几天,不想麻烦去找代理,所以速度降低到很慢一分钟几个主题的速度,这样也省事不用怎么维护,写出来就是表明这个爬虫不会给 V 站服务器造成压力,没有什么问题的话还是别封了..
|
72
luckyzhe 2015 年 11 月 25 日
有意思
|
73
well 2015 年 11 月 25 日
有了这周报,以后不会盲目扫贴看了。
|
74
GPU 2015 年 11 月 25 日
我帮你弄一个公众号如何? 嘻嘻
|
75
GPU 2015 年 11 月 25 日
我有空就 QQ 你。
|
78
glogo 2015 年 11 月 25 日
LZ 请收下我的铜币!!!
|
79
ibolee 2015 年 11 月 25 日
这个内容要是出现在右侧就好了~
|
82
run2 2015 年 11 月 25 日
所以以后只要订阅楼主久好了-。-
|
83
run2 2015 年 11 月 25 日
感觉 lz 花的功夫比 admin 还多, V2EX plus 什么的,你自己弄个社区估计能比这舒服多了。。
何必为他人做嫁衣? |
85
jiehuangwei 2015 年 11 月 25 日
@sciooga 给个建议吧,其实楼主是否应该考虑计算综合质量(俗称总分),然后再做 TOP 排行。
热门的帖子,其投票、感谢、回复、点击、收藏各个值一般都不低,否则就不是热门贴了, 如果再按照其各个维度进行排行,在前面的基本都是那么几个帖子,帖子重复度太大,而相对靠后的, 有一定质量的帖子就体现不出来了。 PS :没有看回复,不知道是否已经有人提出过类似这个的建议 |
86
matthewgao 2015 年 11 月 25 日 via Android
@SeanChense 混乱度决定了信息量,从信息论的角度说楼主没用错
|
87
ershiwo 2015 年 11 月 25 日
表示非常关注,谢谢楼主
|
88
1ychee 2015 年 11 月 25 日
支持一个。目测这个帖子第二期肯定上了。。
|
89
sciooga OP @jiehuangwei 第一个得分排行便是各个项得分加权后的排行呀,重复是肯定的,很少有单一项特别突出的,但是某项特别突出的肯定不会被埋没,之前有个渐冻人论坛的求助在 V 站热门就没埋没了,但在我这的日榜看是最顶部的,因为得到的投票比较多。
|
90
wakemecn 2015 年 11 月 25 日 @SeanChense 熵表示混乱度。熵值越低混乱度越大。信息熵越低,信息的混乱度越高,有价值的信息越少,和熵的概念不矛盾。建议看一下图灵的信息论在跑出来教育人。
|
93
loveuqian 2015 年 11 月 25 日
有意思。。。
一直都很想做一个 V2 的 iOS 的 APP 虽然已经有很多了。。。 |
95
sciooga OP @wanll93918 我怎么记得是香农?
|
96
zho6 2015 年 11 月 25 日
支持 周报
更期待月报和年报 |
97
kancloud 2015 年 11 月 25 日
不错~
|
98
lane3000 2015 年 11 月 25 日
干得漂亮,手动点赞~~
|