全世界的服务器里大概有多少数据是有效数据呢？ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 779 天前的主题，其中的信息可能已经有所发展或是发生改变。

重复数据，如备份、缓存等应该占了大部分服务器的内容吧，如果当做一个图书馆，那就像三国演义的书架就有成百上千，而这些书架上放的还都是同一个版本，这样大概可以看做是“无效数据”了。如果不考虑实际作用，只把每一种有用的数据的第一份当做有效数据，即复制 /切片等衍生的数据都当做无效数据的话，全世界的服务器里的有效数据的占比能有多少呢？

10 条回复 • 2023-01-26 12:37:54 +08:00

1

opengps

2023-01-25 23:48:48 +08:00

360 的总裁某个时刻曾经有过一个说法，全互联网的数据是 2EB 。
不过，op 所说的“无效数据”是难以界定的，比如你买的三国演义，阅读范围是你周边的人，我买的三国演义，阅读范围是我周边的人，书虽然相同，但显然并非无效

2

xiadong1994

2023-01-26 00:00:35 +08:00 via Android

一些国际巨头自己的数据都有 EB 级别了

3

723X

2023-01-26 01:00:16 +08:00 via Android

想想你脑子里有多少数据是有效数据，这玩意搞不好是收敛于某个值的

4

Rocketer

2023-01-26 02:29:14 +08:00 via iPhone

所以云服务才能节约啊，重复的东西可以只存一份，闲置的资源可以动态分配给有需要的用户……

一个速度更快、有多重备份、有专业人员维护的服务，比你自己租裸机搭建还要便宜，你觉得这钱是从哪里省出来的呢？

5

em70

2023-01-26 03:05:33 +08:00

可以从训练大型 AI 模型用的数据量来估计,目前最大的语言模型 gpt3 训练用了 45TB,假设只占总数据的 1%,那整个网络有效数据就是 4.5EB

事实上整理比 gpt3 大的训练集数据已经非常困难了,不低于 1%应该是可信的

6

snw

2023-01-26 08:30:44 +08:00 via Android

@em70
TB 上面是 PB ，再上面才是 EB

7

leonshaw

2023-01-26 09:48:28 +08:00

信息熵？

8

alect

2023-01-26 11:13:59 +08:00

@Rocketer #4 这个不是云服务器吧，而是云网盘。

9

Rocketer

2023-01-26 11:40:37 +08:00 via iPhone

@alect 云服务，没有器。

网盘是一种云服务，还有其他云服务如函数计算、对象存储、云数据库等，都是云服务

10

NoOneNoBody

2023-01-26 12:37:54 +08:00

定义请求：“有效”，按你的定义似乎是 unique
那身份证号仅有身份证排号的最初数据才是有效的，制卡时印上去的已经算是复制了

即使是缓存、备份、历史……数据，我认为都是有效的，只是低频使用而已

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 2855 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 24ms · UTC 03:57 · PVG 11:57 · LAX 20:57 · JFK 23:57
Developed with CodeLauncher
♥ Do have faith in what you're doing.