V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
brando
V2EX  ›  问与答

关于海量的大数据文件传输问题

  •  
  •   brando · 239 天前 · 1263 次点击
    这是一个创建于 239 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有这么一个问题,一直很困扰,就是关于海量的大数据文件传输问题。 环境: 企业局域网传输,数据文件都在华为的分布式存储里,然后通过 CIFS 进行共享工作。 由于某个项目文件夹需要迁移,而这个文件夹内容几乎达到了 100TB 的内容,现在将这部分文件夹冻结进行迁移出这个分布式存储,然后就尴尬了。

    传输速度峰值也就 250M 左右,用的是第三方工具叫 fastcopy 程序,这样大家也可以理解,是通过客户端,使用第三方软件,再到分布式存储共享文件夹,迁移到另一个异地环境,当然网络还是在同一个局域网里。

    因为是分布式存储,我们也无法使用 rsync 这样的工具来进行镜像同步。问了售后的官方华为,给的方案也不是很理想,靠第三方工具来进行传输,而华为自家的传输工具也只能在同等环境下进行传输,也就是迁移的对象也是分布式存储系列。

    然后,文件夹的内容是杂乱的,大大小小的都有,当然这里面的内容也不用去管它,我曾想过进行压缩,但这么多的海量文件,压缩起来也是非常耗时的。

    不知道在 v2 的各位有什么好的建议吗?


    我现在只能寄托于网络上进行找突破,在客户端设备硬盘条件 OK 的情况下,用堆叠网线来进行传输。当然用光纤也是不行,即使我的客户端设备有光纤网卡,但分布式存储环境并不支持。

    第 1 条附言  ·  219 天前
    目前暂时找到一种方法,使用 robocopy 来进行传输。
    13 条回复    2024-03-29 00:17:19 +08:00
    Mithril
        1
    Mithril  
       239 天前   ❤️ 1
    看看他们有没有基于硬盘的数据迁移功能,让他们直接导出所有数据到一些硬盘里,然后把硬盘过去挂机柜上恢复。
    brando
        2
    brando  
    OP
       239 天前
    @Mithril 目前是没有,但不我理解您指的硬盘数据迁移,他的方式是什么?我这边是不能动物理设备的,毕竟这些设备都在工作,又有很多人在使用。
    Mithril
        3
    Mithril  
       239 天前
    @brando 没太用过华为云,不过 AWS 有类似的服务: https://aws.amazon.com/cn/snowball/
    他会寄给你一个设备,你把它连到本地服务器,然后把数据复制进去。寄回去以后他们会把数据传到 S3 或者类似的服务里。
    也可以用于从 S3 导出数据。

    这种方式用于导入导出大量数据非常有效。

    AWS 很久以前用的是硬盘邮寄完成这种工作的。不知道华为云是不是提供类似的服务,你可以咨询一下他们的销售。
    brando
        4
    brando  
    OP
       239 天前
    @Mithril #3 我这是企业私有云(就是企业内部服务群集),您说的这种是数据用公有云,我们客户端传输的速度给公有云会直接死翘翘的,如果是公有云,一般直接在线扩容(或者你说的 AWS ,直接用 AZCOPY 这种功能),关键我们这边不想再部署那么大的服务群集在本地了,毕竟机房限制也会有瓶颈。

    EMMMMMM ,我另外再想想办法突破下。
    dode
        5
    dode  
       239 天前
    中转机器安装全套的固态硬盘,并且挂载选项关闭同步写入缓存
    Mithril
        6
    Mithril  
       239 天前
    @brando 你说华为的分布式存储我还以为你用的是华为云。是那个存储设备是吧?那就更简单了。

    直接存储上挂硬盘,数据复制到硬盘里,然后硬盘拿到目的机房挂到服务器上导入进去。

    不过虽然一般大容量的文件传输不会走网线,但你这网络速度都已经能到平均 250MB/S ,用硬盘迁移也快不了多少的。你挂 USB 顶多 500MB/S ,然后你到目的机器还得读出来。SATA 极限速度也就差不多这样了,除非你用 SSD 。个人感觉还不如想办法去优化网络。
    brando
        7
    brando  
    OP
       239 天前
    @Mithril #6 存储是分布式的,不能直接挂靠硬盘,分布式的存储方式和普通的存储是两回事。大容量的数据是可以走网线的,但目前资金有限,没法在升级网络硬件的情况下,有个叫 RoceV2 的协议,当然现在是只能从现有的环境条件去一步步分析了。

    客户端设备硬盘是 M2 的,但这个不是问题所在,就是你最后所说的,还是核心网络方面有点问题,毕竟网卡都 20G ,40G 了。(我是后妈,对前期的资源或设置是不了解嘀)

    挂靠移动硬盘毕竟是有风险存在的,并不是很可靠,对企业来说是个硬伤,何况数据是几十 TB 的文件了。
    brando
        8
    brando  
    OP
       239 天前
    @dode 这也算是个方案,但属于没办法的办法,一般不到这一步是不会做的。
    Mithril
        9
    Mithril  
       239 天前
    @brando 可能我没说清,不是直接把硬盘挂上去,而是用一台带高速网卡的机器直连,然后那台机器写硬盘。
    这个硬盘只是用来转移数据的,你自己应该还是有校验的。

    不过你说得对,还是先搞网络吧。就算你现在核心网有问题,这速度也比你折腾这个硬盘方案快。
    bt7vip
        10
    bt7vip  
       239 天前 via Android
    是单链路峰值 250m 吗,如果是的话,一个存储挂多台设备,然后文件夹分类,A 机器传 A-C 文件夹,B 机器传 D-G 文件夹,这样链路聚合宽带会加快速度,省钱费时间,要想快就找供应商提供全闪对拷,但机器进到机房和接入存储要走不少流程,需要你的供应商协调好。
    lbp0200
        11
    lbp0200  
       239 天前
    很简单,邮政快递
    ntedshen
        12
    ntedshen  
       239 天前
    既不让物理接。。。
    又理不清配置。。。
    协议还换不掉。。。
    瓶颈也不知道。。。

    神仙难救。。。
    brando
        13
    brando  
    OP
       239 天前
    @bt7vip 不是单链路,我也有考虑过堆叠线和链路聚合的方式,因为听说分布式是网卡 20G 的,有 2 个链路连接到核心交换机上,海量的碎片文件是非常多,但是以 G 为单位的文件也不在少数,所以我就觉得 250M 这个实在是低。进机房和就介入存储到不是问题,关键是能帮助企业解决些问题才是实实在在的。🥰
    @Mithril #9 能提供一些思路和方式,很感激您。。感谢感谢!🥰
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2948 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 03:50 · PVG 11:50 · LAX 19:50 · JFK 22:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.