1
nomagick 2023-10-23 19:29:52 +08:00
testcase 太烂,什么乱七八糟的,完全就是先入为主。
prompt 完全就是驴唇不对马嘴,这个任务给人类做别人都要骂娘,起码找个能和人正常交流的的出题吧。 合情推断就是把手上在 GPT4 上能运行的 prompt 拿过来,放在其他模型上测。 不如说是模型容错性能测试,模型 SB 耐受指数测试 |
2
codehz 2023-10-23 20:40:30 +08:00
汉语精调大模型用纯英语 testcase ,这不是为难人嘛。。。
|
3
yanyao233 2023-10-23 21:38:53 +08:00
啥? baichuan2 这么差?不至于吧....其他很多评测报告+我自己的主观体验感觉并没有这么差啊
|
6
codehz 2023-10-24 10:32:34 +08:00
评价是有很多维度的,排序只是恰好命中了合适的维度,举个例子,中文大模型(包括精调的)的使用场景,除了一个合规性,还有一个就是回答问题的时候不会无故蹦出英语答案。即使是 GPT-4 ,有时候也会在要求用中文回复的时候使用英语回答,如果把这种 testcase 加进去,那排序就不好说了。
最离谱的是啥,这 repo 只给了 15 个 testcases ,怎么看怎么像写论文的时候从实验数据里 cherry pick 出想要的结果的那种情形,你要说这玩意有啥代表性,反正我是看不出。 |
8
Bazingawang OP @nomagick 这个 gpt4 还真行……
|
9
nomagick 2023-10-24 15:03:42 +08:00
@Bazingawang 后半段就不对了,很多模型都有这毛病
|
10
Bazingawang OP @nomagick 看了下确实
|