首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX
›
littlekfc
›
全部回复第 1 页 / 共 1 页
回复总数
2
2013 年 4 月 11 日
回复了
HiVPS
创建的主题
›
VPS
›
我们的新KVM VPS服务器即将上线,提供很多免费测试名额
最近在玩VPS,麻烦给我一个。
[email protected]
2013 年 4 月 11 日
回复了
soho176
创建的主题
›
Python
›
用python 做爬虫,抓取网站,在抓取的过程中会碰到重复的网址,随着抓取网址的越来越多,网址库越来越大,如果每次爬到网址都去网址库对比一下 是否重复,这样的结果就是效率越来越低了,有什么办法或者算法 提高过滤重复网址的效率?
用bloom filter有个问题,它是有误判的。比如新的一条url,在bloom filter里查得系统已经存在了。但这会有一定的概率是错误的。数据量还不大的话这个概率很小很小。但是随着记录越来越多,误判的概率会增大的。所以,如果业务要求不能漏url的话,bloom filter不适合,否则可以考虑。
关于
·
帮助文档
·
自助推广系统
·
博客
·
API
·
FAQ
·
Solana
·
4964 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 17ms ·
UTC 09:51
·
PVG 17:51
·
LAX 01:51
·
JFK 04:51
♥ Do have faith in what you're doing.
❯