V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jiashuaibei
V2EX  ›  机器学习

CUDA 搞深度学习, 1TB 的一块硬盘, C 盘留多大合适?

  •  
  •   jiashuaibei · 20 天前 · 2035 次点击
    26 条回复    2024-12-30 16:31:33 +08:00
    handuo
        1
    handuo  
       20 天前 via Android
    一块 1tb 的硬盘肯定是不够的,看你要干什么了。如果是微调 8b 左右的语言模型,你各种 hf 模型总得下载吧,几个主流的都得占用将近 159gb ,你微调过程中产生的数据很快就会达到 500gb 。再加上数据集,conda 各种包,你得一周就复制和迁移一次数据,很繁琐痛苦。如果是 cv 方向和多模态,那数据集占了大头,但是 1tb 勉强够用。如果是 8b 以上的就不用想了。
    我的建议是 c 盘不用太大,但是你要把 hf_home,conda, pip cache 和 docker 默认的 data 文件夹放到别的盘,不然多大都会马上满
    Donaldo
        2
    Donaldo  
       20 天前
    没必要分区,分文件夹就好了。
    kk2syc
        3
    kk2syc  
       20 天前   ❤️ 1
    马上 2025 了,很难想象还有人系统盘和数据盘不分离的。
    单独一个盘装系统和各种包,数据集有单独的数据盘。
    jiashuaibei
        4
    jiashuaibei  
    OP
       20 天前
    @handuo 或者我干脆不分区了呢?全给 C 盘,默认 C 盘,会有什么坑吗?
    jiashuaibei
        5
    jiashuaibei  
    OP
       20 天前
    @Donaldo 好主意
    handuo
        6
    handuo  
       20 天前 via Android
    @kk2syc 这位的建议就很好,而且我个人的偏好还是用 linux 大于 win ,首先是 cuda 和 deepseek 之类的库网上 linux 的帖子和 issues 多一些,反正我是不知道 llama-factory 能不能在 win 上完美地跑。再有就是涉及到文件系统的函数和包有小概率跟 linux 不兼容,最后就是 win 更重一些,乱七八糟的服务挺占资源的。
    handuo
        7
    handuo  
       20 天前 via Android
    @handuo 抱歉不是 deepseek ,deepspeed 。深度学习硬盘空间是最不值钱的了,数据盘至少 4tb 是我的推荐哈
    dcsuibian
        8
    dcsuibian  
       20 天前
    一款硬盘一个区,无论 macOS 、Linux 还是 Windows 都是这样
    jiashuaibei
        9
    jiashuaibei  
    OP
       20 天前
    @handuo 好的,谢谢建议。
    jiashuaibei
        10
    jiashuaibei  
    OP
       20 天前
    @dcsuibian 我也是这样想的,MacOS 默认一个分区,Linux 我也默认把所有分给 / ,但是放到 Windows 上可能那么多年分区观点一时不好克服,总是觉得不太习惯。因为我现在只有一个硬盘,因此只有一个 C 盘。
    dcsuibian
        11
    dcsuibian  
       20 天前
    @jiashuaibei 如果是我的话,就走上策加硬盘。毕竟 SSD 也不是很贵。
    不过真的就算只能用一块硬盘的话,我也仍然不会分区。以前玩 GTA5 的时候就遇到过分区导致的容量不足,自那以后我的硬盘就再也没分过区。
    mumbler
        12
    mumbler  
       20 天前
    最近 10 多年一直不分区,大 C 盘,用了 7 ,8 台机器,没任何问题,mac ,linux 也没有分区,也从来没什么问题,分区为了重装系统,win10 以后我已经 10 年没重装过系统了
    jiashuaibei
        13
    jiashuaibei  
    OP
       20 天前
    @mumbler 本来今晚还有分区想法,刚刚安装了深度训练环境,都是必须装 C 盘的,简单做了一个练习 C 盘就少了 38G ,所以分了估计 C 盘也不够用。
    handuo
        14
    handuo  
       20 天前 via Android
    @jiashuaibei 真正跑起来你就知道深度学习有多占空间了,不同的开源项目之间包的冲突是家常便饭,就得新建环境,过半年随随便便 conda 就占一两百个 G 。硬盘空间不够用,就得不停删除缓存、暂时不用的环境和数据集,浪费时间
    jiashuaibei
        15
    jiashuaibei  
    OP
       20 天前
    @handuo 好的,谢谢指导,我是做毕业设计的因此 1TB 硬盘应该也够用了,现在不准备分盘了,一个 C 盘随便来吧,实在不够了就加硬盘。
    coolfan
        16
    coolfan  
       20 天前
    coolfan
        17
    coolfan  
       20 天前
    如果是机器学习要用到的数据集,这种独立性非常非常强的数据,我也倾向于放在独立分区/独立的物理硬盘上。但是我的都是代码什么的~
    ysc3839
        18
    ysc3839  
       20 天前
    @kk2syc 不是所有人都有钱买多个硬盘,或者像 Mac 这种也没条件装多个硬盘。

    如果你说单硬盘分多个区的话,那会出现两个分区无法共享可用空间的问题。
    除非当前操作系统提供了一种能共享可用空间的方案,否则我不会也不推荐别人分多个区。
    比如 Windows 目前没有共享可用空间的方案,我就不会推荐。
    Linux 的 btrfs 可以共享可用空间,我会选择使用 btrfs 并很细致地分区。但如果别人用 Linux 拒绝选择 btrfs ,我也不会推荐。
    Donahue
        19
    Donahue  
       20 天前
    深度学习一般用 ubuntu 吧,没有 C 盘这个说法
    charm
        20
    charm  
       20 天前
    @jiashuaibei #4 如果要重装系统的时候怎么办?格式化系统盘的话所有数据不就丢了?
    jiashuaibei
        21
    jiashuaibei  
    OP
       20 天前
    @charm 不会的,重装时候选择保留数据,会自动备份到 windows.old ,不过需要重装系统我一般手动把数据备份到移动硬盘。
    Sawyerhou
        22
    Sawyerhou  
       19 天前
    不分,或者分 64G ,或者 128G ; )
    kk2syc
        23
    kk2syc  
       19 天前
    @ysc3839 理中客,给你点赞了哦。好棒棒,我 mac 挂着 8 个硬盘,第一次知道没条件
    ysc3839
        24
    ysc3839  
       19 天前 via Android
    @kk2syc 那你说说 Macbook 怎么挂吧?拖着个尿袋也叫有条件?
    kk2syc
        25
    kk2syc  
       19 天前
    @ysc3839 真牛逼哦,你要杠别人 mac 怎么挂载算有条件,雷电磁盘阵列柜你买一个啊。大家都是关心数据安全,关心环境部署,就你特奇葩,有没有钱关你我什么事?提建议还要考虑有没有钱?我方案给到了,有钱就上,没钱不行就拉倒,没钱自然有没钱的玩法,但是就属你最牛逼,钢筋。
    Kazetachinu
        26
    Kazetachinu  
       18 天前
    好奇怪,现在还有人要把硬盘分区。直接分文件夹了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2642 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 04:57 · PVG 12:57 · LAX 20:57 · JFK 23:57
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.