V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  coefu  ›  全部回复第 20 页 / 共 42 页
回复总数  834
1 ... 16  17  18  19  20  21  22  23  24  25 ... 42  
单纯的靠提示工程没什么卵用的,你得通过 RL 对 LLM 做一定的德州扑克训练。如果想坑人类玩家,最暗黑的做法就是训练一个多 agent 对抗真人玩家的策略。
@MidCoder #29 看我给你发的 google deepmind 6 月份最新的关于 world models 的研究。你当前的理解起码滞后了 2 年。2023 年的时候,deepmind 的 dreamer v3 ,就已经能感知世界了。https://danijar.com/ 这哥们儿真是个奇才。
@MidCoder #25 https://arxiv.org/abs/2506.01622 LLM 和 RL 结合,目前最新的研究。
183 天前
回复了 sumarker 创建的主题 北京 下定决心结束北漂的后续(分享)
加油,老铁,找个踏实点儿的媳妇儿好好过日子比什么都强。小地方有小地方的好。
@MidCoder #25 我也是今天下午搜了一下,发现 LLM+DRL ,这么看起来,好像还有点搞头。等前沿的兄弟们蹚出一条路,还可以模他们的石头,哈哈。
@xuanbg https://robopen.github.io/ 去年的 paper ,能泛化到未曾识别的物体做动作,但是真正能理解魔方解,然后双手解魔方,这个估计还要几年。
@MidCoder #18 给你看个去年的 paper 。https://sayplan.github.io/
@MidCoder #18 我举例的场景,同时测试了随机场景下,具身智能机器人的“大脑”+“小脑”的小样本或者零样本的泛化能力,这个能力是目前厂商最缺失的。如果能做到这样,就不需要像当前一样对于每个场景都做强化学习的训练了。和你理解的仅仅在 LLM 领域里的东西,完全不同。
@xuanbg 可以给出几个解魔方解对的 demo 给机器人看,让它自己学习怎么解魔方。这是对于“大脑”泛化能力的测试。行动是对“小脑”泛化能力的测试。如果“大脑”+“小脑”都能泛化的话,说明它可以去厨房学习切菜和炒菜了。
@MidCoder #15 我可以给你一个启发性的场景,什么时候具身智能厂商能演示:
1 ,你手中一个随机打乱的魔方。
2 ,你丢出你手中的魔方到地毯上,随机滚动到一个位置。
3 ,你给指令当前空间中的具身智能机器人:破解你丢出去的魔方并归还给你。
4 ,机器人能自动规划寻找路径,能类人一样用手拾取拾取魔方,能双手在有限时间破解魔方,成功之后将魔方递还给你。
以上这个场景随机出现,并不被厂商预训练。能演示上述场景的厂商,将领先同行一个前瞻性段位。科幻电影里的情景才可能有望在现实中出现。
@MidCoder #12 预训练和后训练都已经极限,后训练里强化学习所带来的 reason 能力,是不是真的能力,目前都是争议。互联网数据已经用尽,垂直领域的数据比互联网更少。
真正的数据来源是每个人每天眼睛看到的数据,这个数据是无穷的,但是目前对这些数据的聚合在法律法规人伦道德以及技术手段来说,都还没有突破。
@MidCoder #12 "作为一名非大模型领域的人员,当前的 AI 和之前有什么区别,以及站在当前我们应该要做什么,特别是作为一个互联网的工程同学。"
2022 之前 DRL 是主流,2022 之后生成式虽然是主流,但清醒过后就会发现 DRL 才是是真正的发展方向。
我觉得当前( 3~5 年)工程领域最佳实践就是 langchain/dify ,RAG/kAG ,mcp stack ,memory stack ,结合当前的各种前后端/移动端 去适配新旧 idea 。这产生不了跨时代的产品,只是创造二流的平庸产品。
但是想做出跨时代的产品,得有跨时代的前瞻性视野。
全是论点,毫无论据,且论点毫无新意。
你真想有点深刻感悟,你得下沉到具体的技术层面里去,你下沉的深度决定了你的理解深度(如果你彻底理解了 ML ,DL,RL,DRL ,你会有新的更深刻的认知)。现在就是浮在外围感慨万千罢了。
以下是我的认知观点:
1 ,围绕当前 LLM 一切,已经可见发展的天花板,并很快( 1~2 年不会有代际迭代出现)逼近。
2 ,LLM 下一个 3~5 年的突破是结合具身智能,并融合当下发展起来的记忆能力,当然这并不会融合的很好( LLM 和 DRL 的融合)。
3 ,所谓的“AI”口号的下一个具体技术方向是,脉冲深度强化学习( SDL ),这是让具身智能真正有用武之地的一个很有可能能做成( 80%~90%)的路线。
4 ,所谓的“AGI”(取决于怎么定义,如果你认为现在就是 AGI ,亦可)遥遥无期(保守估计 20 年以后的事了)。
5 ,上述 4 点你可以不认可。
@ChatGOP 你用 RAG 慢,难道首先考虑的不是提升 RAG 性能吗?你穷尽了 RAG 性能提升的所有手段都不起效果了吗?
@mumbler #32 你的认知很符合你的定位,就你这个阅读理解的能力,睁大你的眼睛仔细看看,你把我原文可以圈出来,我说不行了吗?我是反感你这种浮躁的吹嘘态度,我和你比较了使用 coder llm 的熟练度了吗?我有说 coder llm 不行了吗?经验主义的人最喜欢用比喻的方法来说明事情,但你这个比喻却打的非常没有水平,就算是我否定,但也不是否定你口中的“AI”,而是否定你。
是你的论点,不会不学不接受你语境中的先进“AI”,就是平庸,就会被 kill 。你才是在呐喊,我只是看不惯你这种水平的吹嘘,因为你也代表不了先进。最后,以你的见识,不用回答我了,我已经 block 你了。
你不知道 RAG ?
@mumbler #30 笑屎,你就是之前在很多新人帖子里主推主吹,本科科班生全力押宝 coder llm 嘛,我见过。pm 怎么就替代不了你了,你个 curd boy 的自信这么满。你又知道我怀疑你口中的“AI”,就一定没学过你口中所谓的“AI”?你这种角色(虽然我很想说乐色,但是还是要有点礼貌),我十几年来见过不少。怀疑质疑在你看来就是零基础的老守旧派了,一定会被新的工具和技能所替代。还什么公司都有我这样的人,不好意思,在你有限的经历和见识中所见过的公司和人里 99%都没有我的实力和视野。你学了点皮毛就不平庸了?放心,你和你口中那些平庸的 this/that 一样,没什么不同,迟早被取代。
你甚至都没搞清楚我的论点,用个 coder llm 怎么就是先进了,这不就是一件很平常的事情吗?怎么就能挑起一个所谓的先进 kill 后进,怎么就让你莫名高潮了?你有你吹捧的权利,因为 v 站也没有不让发,我也有我灭你业火的权利,v 站没有不让回帖。但是看到你在大二本科生里搞这种无脑吹嘘的时候,我就要果断站出来压住你这歪门邪道,本科阶段是最需要夯实基本功的时候,就得手搓手刨基础学问。
我从 2018 年就在 ML 和 CNCF 的领域工作,在你可能都还没听过你口中的“AI”的时候,我就在做训练和推理的分布式工程工作,我近三年都在深度强化学习领域工作,对这些“AI”的理解,我绝对自信比你深刻。
世界是很大的,谦虚一点没什么不好。
1 ... 16  17  18  19  20  21  22  23  24  25 ... 42  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2746 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 27ms · UTC 09:16 · PVG 17:16 · LAX 01:16 · JFK 04:16
♥ Do have faith in what you're doing.