V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Azure99  ›  全部回复第 1 页 / 共 4 页
回复总数  77
1  2  3  4  
50 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@japhetJiu 你说的这些主要是用于部署推理服务,并通过 RAG 框架调用。KoboldCPP (推理框架)、HF 的模型(模型权重 通常是对齐后的模型,一般带有 Chat 或者 Instruct 字眼)、AnythingLLM ( RAG 框架)。

如果希望训练自己的模型(假设你是做微调,就是让预训练模型从只会续写文本变得"会说人话"),应该找一个训练框架,比如 ms swift 、llama factory 、xtuner ;再去 HF 下载预训练模型(没有经过对齐的 通常带有 Base 字眼,或者没有 Chat 等字眼);并且找一些数据集进行微调。上面列举的框架基本都有简单教程和数据集,当然如果你愿意用我的数据集,那就更好了。
建议不要打着分享创造的名义发推广贴(尤其是标题党+商业行为),直接套一个 text2image 能算是创意?
Huggingface 上大把效果不错的模型,用心找一个好点的不行么。
放个之前搞的 demo ,https://huggingface.co/spaces/Azure99/blossom-playground-v2.5 ,没有因为媳妇的一句话就开发,也没有会员订阅,也没有使用限制
![.jpg]( https://s2.loli.net/2024/07/29/NKO6hsUI1CFyMm3.jpg)
54 天前
回复了 shinonome 创建的主题 Python 函数的返回建议是 list|[] 还是 list|None 呢
你认为字符串""和 None 语义一样么?很显然是不一样的,""是一个空字符串,而 None 不表示任何数据。
所以 2 楼就是优解,如果它是空的,那么返回空 list ,如果有异常,直接抛出异常。不要返回 None 。
54 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@japhetJiu 第一个问题已经回复过了
对于第二个问题,因为硬件资源的限制,这个 demo 是 4bit 量化后的,精度下降比较严重。
可以用 HF 上的 demo https://huggingface.co/spaces/Azure99/Blossom-34B-Demo ,不量化太狠是非常容易解决这个问题的。
https://imgur.com/qDdfX18
如果我掏出 Map<String, Map<String, Object>>,阁下又该如何应对?
您找的是不是:snowflake
104 天前
回复了 wencan 创建的主题 程序员 想白嫖点大模型的 api
没必要,langchain 适合做实验的时候快速的把想法跑起来,以及对比各种同类组件的效果。上生产还是自己写最舒服灵活,另外 langchain 经常有破坏性变更/bug ,所以不建议。
138 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@1314258 很传统的 RAG ,query 改写,搜索,拼 prompt 一条龙
141 天前
回复了 xiaocaiji111 创建的主题 程序员 这芋道源码太恶心了吧?
不是,真有人捏着鼻子看这玩意啊?😃
144 天前
回复了 bankroft 创建的主题 NAS 躁动的心,想入手 emby/plex
一直用 jellyfin + nastool + jackett ,刮削从来不是问题
145 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@ljx626 算上造数据、实验、训练,大概几千吧。数据和实验是大头,如果只用开源数据集做 SFT 且数据量不大的话,花费很少
145 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@qW7bo2FbzbC0 个人感觉是因为对齐阶段,缺乏尝试->验证->回溯的数据(对于这种没有确定解题方法的问题,又好比 24 点,或者各类行测找规律的题),这有点像我们人类的思考方式,GPT 也只是有一些这种能力,但不多。
145 天前
回复了 jstony 创建的主题 Windows windows11 什么时候如丝般顺滑了?
只要配置拉到一个水平,windows 一直非常丝滑
145 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@Contextualist T4 * 2 ,不考虑并发的话 llama.cpp 会快不少。另外 HF 的 Zero GPU 也有免费 A100 40G 可以用了,可惜仅支持自家生态。
145 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@mightybruce 没太明白这个和 advICL 有什么关系
145 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@enderftt SFT 的 prompt 里没有 system prompt 的概念,内部 prompt 是下面这样的
A chat between a human and an artificial intelligence bot. The bot gives helpful, detailed, and polite answers to the human's questions.
|Human|: hello
|Bot|:
145 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@xiaohundun 可以理解成,对于一个指令,调用其他模型的输出作为标注输出。也就是让 GPT4 来标训练数据
145 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@enderftt 感谢反馈,下个版本会标注下这个 bad case 。另外如果回答不满意,可以点一下👎按钮,会收集的
145 天前
回复了 Azure99 创建的主题 程序员 分享一下自己训练的大模型
@NoDataNoBB
@mightybruce
@xiaohundun
有很多封装好的微调框架,LLaMA-Factory ,swift ,xtuner ,挑个顺手的就行了
1  2  3  4  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5717 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 27ms · UTC 01:57 · PVG 09:57 · LAX 18:57 · JFK 21:57
Developed with CodeLauncher
♥ Do have faith in what you're doing.