一个含有一千万字符串的集合,期望计算每个字符串的 md5 值。并打印出来,不考虑顺序。
这是一个 cpu 密集型操作,如果使用单线程做效率不高,在四核机器上准备开启四个线程做
将集合分成四个子集合,每个线程分配一个子集合,for 循环操作
使用 queue 存储字符串,每个线程从 queue 中获取取单个字符串,操作后再读取下一个。
如果当前有很多 cpu 密集型的小任务,使用多线程时,是每次获取一个(就像线程池读取任务执行那样),还是每次读取一批。哪种更好一点,还是说没有啥差别。
从线程切换,以及 java 中内存模型,对象引用 角度分析
下面这段话是从网上拷贝的,是不是说明方法一一次性传递多个任务到另一个线程更优呢,这样的话这两个线程之间同步的对象应该只有集合本身,而不包含集合内的对象吧???
JMM 模型下的线程间通信:
线程间通信必须要经过主内存。
如下,如果线程 A 与线程 B 之间要通信的话,必须要经历下面 2 个步骤:
1 )线程 A 把本地内存 A 中更新过的共享变量刷新到主内存中去。
2 )线程 B 到主内存中去读取线程 A 之前已更新过的共享变量。
1
MakHoCheung 2021 年 8 月 1 日
parallstream 或者自己写 forkjoin,forkjoin 复杂
|
2
chendy 2021 年 8 月 1 日
parallstream +1
|
3
sagaxu 2021 年 8 月 1 日 via Android 先测一下单线程要几秒,不够再优化
|
4
limbo0 2021 年 8 月 1 日
像流处理和批处理, 第一种应该更快, 第二种单条处理吞吐注定不会太高
|
5
Building 2021 年 8 月 1 日 via iPhone
每个字符串标记一个 State,每个线程每次取出 State 为等待处理的第一个字符串同时标记为处理中,直到任一线程取不到 State 为等待处理的字符串。
|
6
sagaxu 2021 年 8 月 1 日 via Android
在乎性能就不要用字符串了,你从 bytes 解码成 string 的时间,已经够算出来 md5 了,字符串算一次 hashcode 的时间也够算 md5 了
|
8
wangxn 2021 年 8 月 1 日
照理来说,因为 CPU 缓存的存在,方案一应该会有巨大的优势。这种处理方式叫提升 locality 。
|
9
akira 2021 年 8 月 1 日
方案 1,简洁名了。
|
10
jorneyr 2021 年 8 月 2 日
一个字符串应该只有一个 MD5 值,你的这个设计,变成了一个字符串可以有很多不同的 MD5 值。
|
11
rayw0ng 2021 年 8 月 2 日
两个方案都不实现,一测便知。我猜方案一,毕竟不需要加锁。
|
12
aneostart173 2021 年 8 月 2 日
用 mpi 啊。
|
13
cubecube 2021 年 8 月 3 日
瓶颈应该在读取文件 io 和日志。具体得看负载情况,没有定论。
|
14
liian2019 2021 年 8 月 3 日
fork join
|