做数据分析用的
机器想放在家里(这样成本应该比购买云数据库便宜吧?), 噪音不能太大, 体积没多大要求
定时(比如每分钟一次) 从远程获取数据,将数据清洗后, 存入数据库里
后续我会在自己的个人电脑上,通过 复杂的 sql 来访问 数据库里的数据, 生成各种报表
数据量估计有点大,初步估计 前期 可能几个 T 就够了, 后期硬盘可能要 20+T ,
有时候一个 sql 查询,可能会查询好几个表,一次返回的结果可能有几万条记录,甚至更多一些
除了跑数据库,还可能跑一个 web ,展示报表
0 、 需要购置哪些硬件,成本要多少
1 、 初期投入会不会太大
2 、 后续 硬件 是否 方便 扩展 (就怕如果要升级、加大硬盘, 需要重新购买很多东西,怕不兼容)
3 、 假设其中一个硬盘坏了,为了让整个系统恢复,是不是需要很大的代价(比如 是不是得重新抓所有数据)
4 、 其他潜在的麻烦 和风险
请各位前辈指点一二, 谢谢
1
sadfQED2 2023-10-24 16:08:56 +08:00 via Android
emm ,你得说下你的需求呀,什么数据库,多少查询,核心查询逻辑啥样的?
没有需求的话,你这个数据量,我目测你是分析场景,推荐 starrocks 数据量,我们目前线上目前跟你数据量差不多,我们是 4 台 be 2 台 fe 的集群,硬件配置都是 96 核,内存多少不知道,6 台目测百万级别 |
2
user667788 OP @sadfQED2 谢谢, 数据库初步是 postgresql , 就我自己一个人用,
# 查询次数 初期 可能 一天就查询几次, 后面有些查询会让脚本来做,可能 一天几十次,几百次查询, 不会太密集 # 查询的核心逻辑 从多个表 拿到数据, 进行各种 join, 或者连接, 得到数据, 方便生成报表, 我猜测这个可能比较费内存 |
3
WashFreshFresh 2023-10-24 16:45:50 +08:00
啥数据要几 t ,你这完成清洗入库后不能把远程获取的数据删了吗?
|
4
user667788 OP |
5
vopsoft 2023-10-24 17:36:27 +08:00
|
6
sadfQED2 2023-10-24 18:57:42 +08:00
@user667788 #2 pg 的话不吃硬件性能,而且你这个查询量,基本上只要能跑起来,都没啥问题。涉及 join 的话可能涉及内存操作,具体得看你表和索引设计。
按你这个需求考虑硬件的话,基本上成本大头就是磁盘,确定有 20T 数据的话,机器上最少要 30T 可用吧,保证高可用,机器使用 RAID1 阵列,需要 60T 硬盘,10T 的硬盘大概 1500 一块,需要 6 块,总计 9000 元。 CPU 内存的话配个 16 核 64G 差不多了 再加上电源、机箱、阵列卡,七七八八,1.5 万内应该差不多了。 以上都是按企业级的方案设计,如果不管稳定性,当垃圾佬的话,那估计两三千就够了 |
7
ihuotui 2023-10-24 22:44:16 +08:00
个人搞 tidb 就行了,普通 pc
|
8
user667788 OP @sadfQED2 谢谢指点
|
9
user667788 OP @ihuotui 谢谢指点
|