V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
naohion
V2EX  ›  云计算

有自建网盘的 V 友吗?

  •  
  •   naohion · 2020-08-12 17:24:03 +08:00 · 10193 次点击
    这是一个创建于 1564 天前的主题,其中的信息可能已经有所发展或是发生改变。

    主要用来存实验数据(还有 djj )小文件特别多( 300 万个),加起来没多大,4T 左右。百度盘超级会员还有 2 年,前几天公开课被百度替换成 8 秒教育片,实在忍不了,开了一个月 10TB Google One (因为 G Suite 有 40 万文件限制),rclone 用了半个月传完,发现文件夹大小都看不了,文件传没传完都不知道,打算自建。目前服务器用的是 Nextcloud,别的没问题,3900X + 32GB RAM 的服务器 300 万文件光索引就用了 2 天。干什么都要扫描 2 天,搜索一次 20 分钟没出结果。查了下有人推荐 Filerun 听说对大量文件支持很好。不知道有没 V 友用过?

    56 条回复    2020-08-16 19:06:27 +08:00
    Xusually
        1
    Xusually  
       2020-08-12 17:33:19 +08:00
    群晖?
    naohion
        2
    naohion  
    OP
       2020-08-12 17:45:45 +08:00
    @Xusually 不想买 NAS,只有一台闲置的 3900X 没独显的电脑装 CentOS 当测试服务器。不知道能不能跑黑群晖。
    laminux29
        3
    laminux29  
       2020-08-12 17:55:23 +08:00   ❤️ 7
    我觉得,你的问题在于,自己的知识水平,是一个急需扫盲的阶段,却又想着做一些博学家阶段才能做的事情。

    比如你说,索引用了 2 天,搜索一次 20 分钟没结果,问题是,索引与搜索阶段,你有没有分析过设备负载?甚至给开源产品直接调试做性能分析?

    你这种情况,最实际的就是,直接把需求,外包给公司,花钱让别人帮你做。
    Songxwn
        4
    Songxwn  
       2020-08-12 17:59:01 +08:00
    seafile 用专业版
    ruixue
        5
    ruixue  
       2020-08-12 18:13:10 +08:00
    G Suite 的个人云端硬盘并没有 40 万文件限制,有限制的那是共享云端硬盘,但是也没限制共享盘的数量
    G Suite 可以用第三方 api 客户端来查看文件夹大小,比如 AirExplorer 等,也可以用虚拟云端硬盘直接挂载查看
    zu1k
        6
    zu1k  
       2020-08-12 18:21:45 +08:00 via Android
    大量非结构化的小文件应该用对象存储吧
    fhsan
        7
    fhsan  
       2020-08-12 18:35:20 +08:00
    建议 ntfs + winnt + everything,秒处理
    zachlhb
        8
    zachlhb  
       2020-08-12 18:56:43 +08:00 via Android
    nextcloud 要用 postgresql 数据库,性能提升不是一星半点
    des
        9
    des  
       2020-08-12 19:15:25 +08:00
    大量文件建议用对象存储
    https://www.min.io
    https://opendev.org/openstack/swift

    不过首先要搞清楚,你说的搜索,打算搜索什么?
    naohion
        10
    naohion  
    OP
       2020-08-12 20:26:31 +08:00 via iPhone
    @des 就是普通的文件名搜索,不知道 nextcloud 有索引了为什么还这么慢。
    @fhsan 没有缩略图,移动设备查看不方便。
    wtks1
        11
    wtks1  
       2020-08-12 20:47:07 +08:00 via Android
    慢,是不是因为磁盘 IO 性能差?
    naohion
        12
    naohion  
    OP
       2020-08-12 20:51:37 +08:00 via iPhone
    @wtks1 数据库(应该包含索引)在英特尔企业级 ssd 数据盘是旧服务器上的希捷酷狼(好像叫这名字) 8T
    devliu1
        13
    devliu1  
       2020-08-12 20:53:04 +08:00
    补充下 @zachlhb 的方案。Windows Server + NTFS + Everything HTTP Server,仅仅针对文件名检索
    devliu1
        14
    devliu1  
       2020-08-12 20:53:49 +08:00
    @错了抱歉,应该是 @fhsan
    zacklin99
        15
    zacklin99  
       2020-08-12 20:59:05 +08:00 via Android
    目前用的 docker+owncloud+MySQL,感觉没啥大问题。
    festoney8
        16
    festoney8  
       2020-08-12 21:11:24 +08:00
    文件名搜索和文件夹大小统计的话,NTFS 的 mft 表挺适合处理这个,用这个特性,everything 做快速搜索,wiztree 可以做快速文件夹大小统计
    gjf
        17
    gjf  
       2020-08-12 21:11:48 +08:00
    从技术角度看,如果是用自己的硬件的话(内网),可以使用至少 3 台以上 Linux 安装类似于 FastDFS 或者 MongoDB ( GridFS )分布式文件系统组成集群(高可用、有容错),这样做比较麻烦,需要自己写代码用 API 对接文件系统。
    如果上云的话就是对象存储了呗
    misty8873
        18
    misty8873  
       2020-08-12 21:14:22 +08:00
    用对象存储吧 简单方便。。。
    siknet
        19
    siknet  
       2020-08-12 21:18:24 +08:00
    everything 不行?
    yyyb
        20
    yyyb  
       2020-08-12 22:22:50 +08:00
    如果我说用 nfs+samba+ftp 共享同一目录会有人抽我么?在家 windows 电脑挂载 samba,linux 挂载 nfs,在外用 ftp
    jianixrabbit
        21
    jianixrabbit  
       2020-08-12 22:26:58 +08:00 via Android
    @yyyb 抽啥 很多 nas 软件也实现了一样的用法
    calmzhu
        22
    calmzhu  
       2020-08-12 22:35:54 +08:00
    如果每日流量不大的话,直接试下阿里 oss 存储?
    自带了客户端上传下载都方便。
    就是一个网络硬盘,免维护。
    calmzhu
        23
    calmzhu  
       2020-08-12 22:37:22 +08:00
    @calmzhu 看粗了。需要搜索索引的话不合适,这个只是硬盘
    Xusually
        25
    Xusually  
       2020-08-12 22:44:41 +08:00
    @naohion 楼主你被降权了?你 @我没有提醒。
    lishoujun
        26
    lishoujun  
       2020-08-12 22:48:47 +08:00
    rockedsdb 满足你的需求么? 数据量太大是否可以分片呢?
    ===========
    公开课被替换 和你的实验数据存储在百度云有冲突么?
    可以申诉的,即使嫌麻烦不想申诉,似乎也不影响你存实验数据
    naohion
        27
    naohion  
    OP
       2020-08-12 22:50:44 +08:00 via iPhone
    @Xusually 不知道,可能是因为注册未满 90 天的原因?
    loveqianool
        28
    loveqianool  
       2020-08-12 22:51:34 +08:00
    七楼说的 ntfs + winnt + everything
    移动设备用 RDP 呀
    naohion
        29
    naohion  
    OP
       2020-08-12 22:51:58 +08:00 via iPhone
    @lishoujun 随便替换别人数据,担心什么时候重要数据也被替换了。
    mmdsun
        30
    mmdsun  
       2020-08-13 00:22:24 +08:00 via Android   ❤️ 1
    OneIndex,PyOne 搭建。白嫖开发者账号。空间基本用不完。
    naohion
        31
    naohion  
    OP
       2020-08-13 00:27:48 +08:00
    @mmdsun 存数据的东西白嫖还不如存百度网盘
    naohion
        32
    naohion  
    OP
       2020-08-13 00:30:32 +08:00
    @laminux29 CPU RAM 磁盘 IO 占用都很低,F12 显示超时,不知道为什么。只是归档一些数据,不想耗太高成本。
    SingeeKing
        33
    SingeeKing  
       2020-08-13 00:30:38 +08:00
    G Suite 肯定没有 40W 数量限制,我之前还写 nodejs 的时候几十个项目的 node_modules 扔里面都没问题,更别说我自己还有十几 T 的文件了
    yeet
        34
    yeet  
       2020-08-13 00:32:30 +08:00
    不算是回答 只是说下
    rclone 有可以检查文件数量和大小的 size 命令
    返回有多少文件 文件大小
    也有可以对比两边文件(夹)一致性的 check 命令
    wccc
        35
    wccc  
       2020-08-13 00:35:44 +08:00 via iPhone
    nextcloud 加 es 全文搜索
    WebKit
        36
    WebKit  
       2020-08-13 00:49:16 +08:00 via Android
    @naohion 可以跑黑裙。
    lc7029
        37
    lc7029  
       2020-08-13 01:05:26 +08:00
    NAS 算吗?
    WhatZ
        38
    WhatZ  
       2020-08-13 07:49:24 +08:00 via Android
    自建的硬盘 io 和服务器负载,如果负载太高还是升级吧
    fantasylidong
        39
    fantasylidong  
       2020-08-13 08:14:03 +08:00 via Android
    g suite 个人盘并没有大小和文件夹的限制,文件夹大小你都用 rclone,不知道用 rclone 的命令看一下,而且 rclone 也可以检验
    vislins
        40
    vislins  
       2020-08-13 09:18:24 +08:00 via iPhone
    技术不行+数据不值钱+自己的时间不值钱系列。
    keventseng
        41
    keventseng  
       2020-08-13 09:38:59 +08:00
    不想白裙,那就上台黑裙:P )入台矿渣就满足需求了。
    naohion
        42
    naohion  
    OP
       2020-08-13 09:59:26 +08:00 via iPhone
    @vislins 私有云怎么说也比公有云安全,而且我还自动备份到公有云。Apple ID 莫名被封后使用公有云就比较谨慎。
    XiLingHost
        43
    XiLingHost  
       2020-08-13 10:08:05 +08:00
    这种情况还是用对象存储吧,gcp 的 Storage 或者 AWS 的 S3 都不错
    evilic
        44
    evilic  
       2020-08-13 10:35:30 +08:00
    我的建议是一台高性能的 nas,加一台多盘位的低性能 nas 做备份(或者直接忽略此项)。

    高性能的 nas 开启 webdav,如果有外网 ip 或者能穿透的话,所有平台使用 raidrive 之类的挂载到本地电脑上。nas 可以同时开启索引功能,由于性能高,或许能够解决些问题。备份的话,将指定的目录直接同步到多个 google 或其它平台的对象存储上(如果不放心,就找另外一台 nas 自动同步过去备份)。

    个人使用的话,我是不建议搭建 ceph, hadoop 对象存储, openstack 对象存储 这类的。因为多副本硬盘成本太高了不说,集群网络性能的要求也不低。价格成本和学习成本太高了。
    byzf
        45
    byzf  
       2020-08-13 11:45:04 +08:00
    三百万文件扫两天? 一秒扫 17 个文件? 你这索引是不是把文件内容也索引了?
    我觉得肯定没到机器性能问题这一步.
    chins
        46
    chins  
       2020-08-13 11:46:22 +08:00 via Android
    有,但是是 cloudreve 哈哈哈
    pkwenda
        47
    pkwenda  
       2020-08-13 12:11:18 +08:00
    minio,碎文件小文件---大文件(5T) 都可,存储非结构化数据,自带类似百度网盘的分享,上亿文件也没问题,搭建很简单

    https://niubility.me/1b67547c71f64aec889fd5b9f47cedd2
    xmh51
        48
    xmh51  
       2020-08-13 14:11:03 +08:00
    seafile 试一下 存储机制不一样
    darkerlight
        49
    darkerlight  
       2020-08-13 15:08:55 +08:00
    在等易有云 2 完善
    locoz
        50
    locoz  
       2020-08-13 15:21:27 +08:00
    nextcloud 和 seafile 都一样,碰到大量文件就特别慢,但是不至于慢到扫描两天...建议检查一下具体是哪里的问题。
    junefox
        51
    junefox  
       2020-08-13 15:33:09 +08:00
    可道云?
    xz410236056
        52
    xz410236056  
       2020-08-13 15:41:11 +08:00
    @naohion 3900X 功耗太大,淘宝 or 咸鱼买星级蜗牛这种矿难机。300 来块且低功耗,店家还给你装好黑群。省事不操心
    TEwrc
        53
    TEwrc  
       2020-08-13 16:38:12 +08:00
    nextcloud 确实是慢 我之前有十多万张图片传上去,移动端 app 连上去经常加载不出来,刷新都很费劲
    mmdsun
        54
    mmdsun  
       2020-08-14 12:38:50 +08:00 via Android
    @naohion 用 OneDrive 做存储总比网盘好吧。账号也是自己的。
    smallthing
        55
    smallthing  
       2020-08-15 16:50:56 +08:00
    @naohion 3900x 没独显能开机吗 还真没试过
    shentar
        56
    shentar  
       2020-08-16 19:06:27 +08:00
    对象存储适合存储数据,前缀(目录)检索。
    但是 djj 哪家都不会收,除非自己重新编码一下文件。
    推荐本地 windows server + everything,300 万毫无压力。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2716 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 09:48 · PVG 17:48 · LAX 01:48 · JFK 04:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.