V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  msg7086  ›  全部回复第 16 页 / 共 1022 页
回复总数  20422
1 ... 12  13  14  15  16  17  18  19  20  21 ... 1022  
@wxf666 #35 上 TB 的数据怎么处理都是会很慢的。(一秒 10w 条数据可能到不了)

我建议用第三方数据库纯粹是因为这样对实现的要求最低,不需要你搞大内存服务器,不需要自己开发复杂的算法,全部用已知的成熟的方案,你只要插上一堆 SSD 然后干别的事就行了,等个几天数据就都跑完了。算法简单所以要根据需求修改起来也简单,可维护性也好。(用人话说就是,工程师不需要加班,让服务器加班就行。)

现实当中从 SSD 读取数据到内存也是要花时间的,这么大的量级还要跑前后依赖的操作,我是觉得快不起来。

(如果能并行 map reduce 倒是能快不少,但这里不太行。)
我能想到的两种不同的做法。
第一种,在内存不足的情况下,放弃掉内存,直接用 SSD 读写。
在 SSD 上开一个数据库(比如 MySQL 或者 Postgres ),把已经存在的 hash 写到数据库里。
然后流式扫描每一行,取 hash 比对数据库,如果存在 hash 就跳过,不存在就写到结果集里并添加到数据库。
要快速稳妥可以用两种不同的 hash ,比如 xxHash 做一次过滤,SHA1 做二次检验。

第二种,在内存不足的情况下,分批处理。
多次流式扫描每一行,取 hash ,每次只处理 hash 第一个 hex 字符相同的那些数据。
第一次只索引和处理 sha1hash[0] == '0',第二次只索引和处理'1',这样可以把内存需求降到 1/16 ,缺点是 hash 计算也会是 16 倍。
稍微优化一下的话,可以在第一次遍历的时候在数据上追加 sha1hash[0]作为分区标记,这样后面 15 次就不会重复计算,缺点是会每行多一两个字节,而且要多写入一次磁盘。
174 天前
回复了 HikariLan 创建的主题 Java 过去、现在和未来 —— Java 的现代化之路
我司就是写 Java 的,很多项目到现在还窝在 JDK6 甚至 7 的语法里还没有升级,主版本还是 8 ,升级到新 JDK 还很遥远……
175 天前
回复了 LitterGopher 创建的主题 Linux 如何把已经安装 Linux 做成可启动镜像
https://www.willhaley.com/blog/custom-debian-live-environment/

以前做 rescue cd 的时候参考过的教程。
他用的是 debootstrap 创建一个新系统,但克隆老系统的操作是差不多的。
不过 live cd 是只读的,cookie 迁移过去也不能更新啊,还是得另外划一块用来做存储。
175 天前
回复了 ExPensive5678 创建的主题 Android 说说你们一加 12, 16+512 入手价格
@ExPensive5678 差不多。首发是 2/2 拿到的机子,那时候价格和国内差不多,性价比还是很高的。
175 天前
回复了 ExPensive5678 创建的主题 Android 说说你们一加 12, 16+512 入手价格
官网直接下单,首发价,$669 。
> 不过目前的笔记本基本都是焊接内存

并不是。轻薄本和超极本为了轻薄和性能,会故意板载内存。两个插槽浪费那么多空间先不说,板载内存能跑到 7467Mhz ,普通的条式内存一般也就跑到 5600 。
要插槽内存的话首先要牺牲一点轻薄便携性。一般的游戏全能本其实都有插槽。
另外如果只要按照 shell 的默认顺序排列的话,直接
mv * ../tmp
mv ../tmp/* .
就行了,shell 在展开*通配符的时候会做排序。
首先你说的这个不叫自然排序。自然排序是另一个功能,是一个专有名词。你这个是返回底层文件系统驱动的原式顺序,所以就是「不排序」而非自然排序。

不排序时得到的文件顺序是底层文件系统驱动返回的顺序,这就意味着这个顺序是跟驱动程序代码有关的。如果我写一个 FUSE ,每次返回文件列表的顺序都是随机的,你怎么办?

所以你这个问题是需要严格限定所使用的文件系统和驱动版本的。

如果驱动返回的文件顺序是 inode 在目录项目里建立的顺序,那只要先把文件全部 mv 到其他地方,然后按照你期望的排序顺序一个一个 mv 回目录就行了。
数据安全和安全更新没有必然的关联。比如说有的补丁修复了音频视频播放代码里的漏洞,但如果你不拿这个手机看可疑网站下载的视频,那么这个安全漏洞就对你没有影响。
相反如果你下载了来路不明的 apk ,就算安卓打上了所有的安全补丁,可能也无法阻止恶意软件访问你的数据。

如果真的要追求安全更新,不如选购便宜的机子,到期了再换。
比如上面说的 Pixel 8 ,起价$700 ,那不如花两千块买台机子用个三四年,然后再花两千买台新的再用三四年。
176 天前
回复了 itakeman 创建的主题 Linux Deb 系 Linux 没有 snap 的发行版有哪些?
@yyzh
# cat ~/.vimrc
source $VIMRUNTIME/defaults.vim
set mouse=
这样应该就行了吧。
cron 只能穷举,systemd-timer 让 AI 生成两个文件往服务器里一塞,一分钟搞定。
176 天前
回复了 GDance 创建的主题 汽车 秦 L 能跑 2400+(km) ,还有谁不知道
@aogu555 我开了挺久的混动了,暂时还没有觉得有必要换纯电。偶尔要开长途,纯电有些续航焦虑,混动我觉得已经足够省钱了,没有足够的动力去花钱买辆新车。
176 天前
回复了 sundawang 创建的主题 分享发现 大家有什么宝藏工具软件?分享一下
@p1gd0g Windows Terminal 已经实现了跳板机登录(我们用的证书登录),主要是想要一键发送命令功能,这个好像 Windows Terminal 里没有。
所以就想看看有没有工具可以在支持现有功能的基础上加入一键命令功能。
176 天前
回复了 sundawang 创建的主题 分享发现 大家有什么宝藏工具软件?分享一下
借贴问个 Windows 10 下的终端工具。
我们访问机器要用统一配置的 config 走跳板机,然后还要用到 ssh-agent ,所以 xshell/securecrt 之类的都用不了,暂时用的 Windows Terminal 。有什么更好的终端工具可以(1)用系统 config 而不是自己管理连接,(2)可以支持多 tab ,(3)可以预定义命令并发送到终端连接的服务器上?
你说的相当是哪种相当?
满载性能?空载功耗?低功耗能效?高功耗能效?价格和性价比?可扩展性?
177 天前
回复了 hendry 创建的主题 问与答 机械硬盘是否大幅涨价了
@mumbler chia 过气后差不多 2023 年的时候满地都是低价矿盘,多到厂商都开始减产了否则库存都清不掉。
177 天前
回复了 hendry 创建的主题 问与答 机械硬盘是否大幅涨价了
小硬盘是贵的,成本占了大多数。2T 卖 300 ,1T 也差不多卖 300 ,再往下要是有 0.5T 甚至 0.1T 的可能也得卖 300 。
往上你要找便宜的,12T 的二手盘也出过六七百的价格。
1 ... 12  13  14  15  16  17  18  19  20  21 ... 1022  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1918 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 71ms · UTC 16:18 · PVG 00:18 · LAX 08:18 · JFK 11:18
Developed with CodeLauncher
♥ Do have faith in what you're doing.