重复数据,如备份、缓存等应该占了大部分服务器的内容吧,如果当做一个图书馆,那就像三国演义的书架就有成百上千,而这些书架上放的还都是同一个版本,这样大概可以看做是“无效数据”了。 如果不考虑实际作用,只把每一种有用的数据的第一份当做有效数据,即复制 /切片等衍生的数据都当做无效数据的话,全世界的服务器里的有效数据的占比能有多少呢?
1
opengps 2023-01-25 23:48:48 +08:00
360 的总裁某个时刻曾经有过一个说法,全互联网的数据是 2EB 。
不过,op 所说的“无效数据”是难以界定的,比如你买的三国演义,阅读范围是你周边的人,我买的三国演义,阅读范围是我周边的人,书虽然相同,但显然并非无效 |
2
xiadong1994 2023-01-26 00:00:35 +08:00 via Android
一些国际巨头自己的数据都有 EB 级别了
|
3
723X 2023-01-26 01:00:16 +08:00 via Android
想想你脑子里有多少数据是有效数据,这玩意搞不好是收敛于某个值的
|
4
Rocketer 2023-01-26 02:29:14 +08:00 via iPhone
所以云服务才能节约啊,重复的东西可以只存一份,闲置的资源可以动态分配给有需要的用户……
一个速度更快、有多重备份、有专业人员维护的服务,比你自己租裸机搭建还要便宜,你觉得这钱是从哪里省出来的呢? |
5
em70 2023-01-26 03:05:33 +08:00
可以从训练大型 AI 模型用的数据量来估计,目前最大的语言模型 gpt3 训练用了 45TB,假设只占总数据的 1%,那整个网络有效数据就是 4.5EB
事实上整理比 gpt3 大的训练集数据已经非常困难了,不低于 1%应该是可信的 |
7
leonshaw 2023-01-26 09:48:28 +08:00
信息熵?
|
9
Rocketer 2023-01-26 11:40:37 +08:00 via iPhone
|
10
NoOneNoBody 2023-01-26 12:37:54 +08:00
定义请求:“有效”,按你的定义似乎是 unique
那身份证号仅有身份证排号的最初数据才是有效的,制卡时印上去的已经算是复制了 即使是缓存、备份、历史……数据,我认为都是有效的,只是低频使用而已 |