V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
ihnfsa
V2EX  ›  云计算

自建数据湖方案

  •  
  •   ihnfsa · 271 天前 · 4168 次点击
    这是一个创建于 271 天前的主题,其中的信息可能已经有所发展或是发生改变。

    导师让做数据湖的大模型应用,但是我没有实际的数据湖可以用,有点无米之炊。各位老哥知道什么开源的基于 S3 协议的数据湖搭建方案吗?

    第 1 条附言  ·  270 天前
    AI Agent + RAG + 数据湖,不涉及大模型的训练。这个题目是甲方给的,导师也不懂,没安排和甲方沟通,让我在这想方案。s3/hdfs 是我自己琢磨的,我看数据湖一般会有一个存储系统,可以用来放非结构化数据和查询系统的数据。rag 和向量数据库、图数据库有关系,我都写 llamaindex 测过,但感觉这些查询系统放在湖里面有点强行了。
    dayeye2006199
        1
    dayeye2006199  
       271 天前 via Android
    什么是数据湖的大模型应用?两个名词堆一块儿了?
    ihnfsa
        2
    ihnfsa  
    OP
       271 天前
    @dayeye2006199 我也只知道几个关键字,AI Agent + RAG + 数据湖
    dog82
        3
    dog82  
       271 天前
    数据湖炒概念的成分更大,我没找到市面上的成功案例。我对国云数据的魔镜稍微了解一点,楼主去看看 http://www.moojnn.com/product-center/publicinto.html
    ihnfsa
        4
    ihnfsa  
    OP
       271 天前
    @dog82 好的,谢谢哥
    yjhatfdu2
        5
    yjhatfdu2  
       271 天前
    开源数据糊一般是指 apache hudi 、apache iceberg 和 delta lake ,但这玩意儿都还是适合写入为主,偶尔批量计算的场景,不适合实时查询,和 AI Agent 、RAG 有啥关系?
    ihnfsa
        6
    ihnfsa  
    OP
       271 天前
    @yjhatfdu2 我也没搞清楚,现在想的是能不能把 Text2SQL 用在湖上一些查询系统上,类似于这种 https://help.aliyun.com/zh/dms/release-the-ai-agent
    CadonHo
        7
    CadonHo  
       271 天前
    数据湖就是一个存储,特点就是各种数据格式都能存。不过有一说一,大模型的应用不是应该往垂直领域找么,这个跟数据湖关系不大吧,数据湖就是大模型应用中的一个环节而已。
    hero1874
        8
    hero1874  
       271 天前
    数据湖和大模型这俩关系挂靠在一起,有点违和
    看你上面说的 AI Agent + RAG + 数据湖
    是把数据湖作为 RAG 的外部数据来源吗,数据湖里存一些非结构化的数据
    数据湖可以看看 Apache Paimon 这个倒支持流式读写,批读写,也支持 S3
    opengps
        9
    opengps  
       271 天前   ❤️ 1
    先把数据湖改个名,叫对象存储,理解起来瞬间容易不少
    zlo309618100
        10
    zlo309618100  
       271 天前
    啥是数据湖?文盲.jpg
    roidinev
        11
    roidinev  
       271 天前
    是啊, 大模型的应用应该往垂直领域找。除非你想研究出论文:比如研究大模型对存储吞吐量/延迟的需求,优化数据湖等。
    wheat0r
        12
    wheat0r  
       271 天前   ❤️ 5
    导师:我啥也不懂,你们弄好了挂我一作
    ZGame
        13
    ZGame  
       271 天前
    首先你要确定你的大模型需要的数据,再去考虑技术栈会不会合适点...
    mightybruce
        14
    mightybruce  
       271 天前
    你的题目写得不对,数据湖和对象存储是两个东西
    大模型应用和这个也没有关系。
    要么导师误入子弟,要么导师没有说清楚,需要再次沟通。
    sampeng
        15
    sampeng  
       271 天前
    灰常简单啊。。
    搭个 mysql 。咯。这就是数据糊
    o562dsRcFqYl375i
        16
    o562dsRcFqYl375i  
       271 天前
    @CadonHo 正解
    yalin
        17
    yalin  
       271 天前
    AWS 云方案?
    o562dsRcFqYl375i
        18
    o562dsRcFqYl375i  
       271 天前
    @opengps 👍
    c3de3f21
        19
    c3de3f21  
       271 天前
    flink + paimon + trino [ connector + store + search]
    c3de3f21
        20
    c3de3f21  
       271 天前
    @c3de3f21 收了数据有了实时数据流喂给模型?练个大模型?真是不是你说的 数据湖的大模型应用?应付一下吧
    deorth
        21
    deorth  
       271 天前 via Android
    op:虽然完全不知道导师出的什么吊题目,但是我先问问网友
    nullboy
        22
    nullboy  
       271 天前
    "数据湖" 这名字听起来怎么感觉怪怪的
    HughRyu
        23
    HughRyu  
       271 天前
    我个人理解 Datalake 就是各个 Dataware 的集合,不能为了强行推 Datalake 概念而堆砌 Dataware 。
    ihnfsa
        24
    ihnfsa  
    OP
       271 天前 via Android
    @deorth 哈哈哈是这样的,导师也不懂
    ihnfsa
        25
    ihnfsa  
    OP
       271 天前 via Android
    @opengps 我的理解是数据湖要有个持久化的存储系统,可以是对象存储,也可以是 hdfs 这种
    ihnfsa
        26
    ihnfsa  
    OP
       271 天前 via Android
    @hero1874 谢谢哥,我去看看
    ihnfsa
        27
    ihnfsa  
    OP
       271 天前 via Android
    @ZGame 只是用现成的大模型,我也不会微调什么的
    ihnfsa
        28
    ihnfsa  
    OP
       271 天前 via Android
    这个题目是甲方给的,导师也不懂,没安排和甲方沟通,让我在这想方案。s3/hdfs 是我自己琢磨的,我看数据湖一般会有一个存储系统,可以用来放非结构化数据和查询系统的数据。rag 和向量数据库、图数据库有关系,但感觉这些查询系统放在湖里面有点强行了。
    VermouthcZzz
        29
    VermouthcZzz  
       271 天前
    @ihnfsa 目前跟 AI/数据 相关的似乎向量数据库符合你的要求
    我最近在看向量搜索相关的内容 分享给你 希望你能获取一些灵感
    https://pub.towardsai.net/advanced-rag-techniques-an-illustrated-overview-04d193d8fec6
    mhycy
        30
    mhycy  
       271 天前
    数据湖的大模型应用?是现有数据的 AI 标注再利用么?
    这东西和数据湖没啥关系啊,反正是个信息量足够大的东西都能称之为湖
    改个高大上名字罢了
    cbythe434
        31
    cbythe434  
       270 天前
    重点是套大模型上去,数据湖不是重点
    随便云平台整个 mysql ,搞一套大数据一键部署下
    写的时候 replace_all("数仓","数据湖")
    ihnfsa
        32
    ihnfsa  
    OP
       270 天前
    @VermouthcZzz 谢谢,好文章。
    b821025551b
        33
    b821025551b  
       270 天前
    去年软考备考的时候还真看过这玩意,个人理解是这样的:
    目前的任何采用数据库的结构化存储方式,都不可以叫数据湖,而是叫数据仓库。上面各位所说的对象存储、Dataware 堆砌等等严格意义上都不能算是数据湖。
    真要说什么是数据湖,可以理解成就是一个巨大的文件,里面存储着各种乱七八糟毫无章法的东西,结合 AI 来把这些毫无章法的东西进行数据挖掘。在这种场景下,重要的是如何去挖掘,而数据湖仅仅是一块硬盘,最重要的指标是 IO 速度,仅此而已。
    whileFalse
        34
    whileFalse  
       270 天前 via Android
    数据湖就像你的磁盘,甭管是什么数据都一股脑丢进去,所以里面有各种不同格式的文件,相同格式的文件也有各种不同的数据结构

    然后等你有功夫的时候为这些乱七八糟的格式分别建立结构、索引,然后再清洗、查询、可视化。

    以 aws 为例,s3 就是磁盘,通过 glue 来为不同的数据文件创建结构,通过 athena 和 redshift spectrum 查询,通过 quicksight 可视化(这玩意很垃圾),还有 lake formation 这种管理服务。
    jiangbao888
        35
    jiangbao888  
       270 天前
    可以看下这个,感觉是你的需求。https://github.com/lakesoul-io/LakeSoul
    HkMuxxx
        36
    HkMuxxx  
       270 天前
    数据湖本质也就是数仓吧,只是解决了传统数仓 upsert 的痛点
    ihnfsa
        37
    ihnfsa  
    OP
       270 天前
    @jiangbao888 谢谢了,这是个好东西,我部署一下试试
    ihnfsa
        38
    ihnfsa  
    OP
       270 天前
    @whileFalse 我理解的数据湖差不多就是这样,现在想自己部署一个,不然总有点知其表不知其里。
    allpass2023
        39
    allpass2023  
       270 天前
    @b821025551b

    今天在做一个培训,才第一次听说 Datalake 。 概念和你说的差不多,DATAWH 是一些整理过的数据,Datalake 就是一些未处理过,等着挖掘的数据。
    dayeye2006199
        40
    dayeye2006199  
       270 天前 via Android
    @wheat0r 这位教授您快请主席台入座
    yjhatfdu2
        41
    yjhatfdu2  
       269 天前
    数据糊技术显然是为了写入和低成本优化的,查询速度会慢的离谱(正常场景下),例如使用 apache hudi ,即使使用了记录级索引,在 1TB20 亿行数据中使用索引取一行也要 12 秒,取 40000 行要 115 秒(来源 https://hudi.apache.org/blog/2023/11/01/record-level-index/),这在 RAG 的场景中简直是离谱
    yjhatfdu2
        42
    yjhatfdu2  
       269 天前
    其实现在技术上几种数据糊技术核心的目的是解决传统 hadoop 系统中,parquet 等列存格式,难以支持 ACID 和事务的问题
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2681 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 06:15 · PVG 14:15 · LAX 22:15 · JFK 01:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.