咋搞?
1
Mithril 2020 年 3 月 26 日
这文件传到前端确定不会撑爆用户浏览器?
|
2
hechuanhua OP @Mithril 不知道,题目就是这样的,可以多种代码实现,但是我希望是 JS,不知道能不能解决
|
3
wednesdayco 2020 年 3 月 26 日
老生常谈,先分片。再考虑找行的事情。
|
4
VDimos 2020 年 3 月 26 日 via Android
算哈希呗
|
5
123444a 2020 年 3 月 26 日 via Android bloom filter, 浏览器必备
|
6
luckyrayyy 2020 年 3 月 26 日
大流量查重请认准 bloom filter
|
7
asAnotherJack 2020 年 3 月 26 日
先遍历每一行按哈希拆成一万份文件,再对每一个文件找出重复的,最后整合到一起?
|
8
robinlovemaggie 2020 年 3 月 26 日
设计一款浏览器,自动实现文件实时逐行滚动读取,然后凭借一个强大的 AI 内核来完成记录分析,名字就叫:矩阵牌浏览器
|
9
reus 2020 年 3 月 26 日
for 循环不会写?
|
10
xingyuc 2020 年 3 月 26 日
先搞定提出问题的人
|
11
whatsmyip 2020 年 3 月 26 日 分治,先哈希打散到文件,然后随便你怎么搞
|
12
dremy 2020 年 3 月 26 日 via iPhone
纯 hash 费空间,1000w 的 int key 每个需要至少 3 个字节,一共 28MB,bloom filter 省大量空间,估计可以不到 100k
|
15
crella 2020 年 3 月 26 日 via Android
逐行算出哈希值,按哈希值的前几个字母,分类并存到各个文件,然后各个文件内在继续比较。
|
16
0bit 2020 年 3 月 26 日
HyperLogLog
|