讲道理,虽然 C-Eval 是中文的评估套件,GPT4 跌出前十,前面的都是国产大模型,这些勉强都能理解接受。
可是排名这一块,居然还有排名第 0 位的,这是几个意思。。。
附个网页链接: https://cevalbenchmark.com/static/leaderboard_zh.html
1
x86 2023-09-06 10:37:20 +08:00
0 是 foreach 循环的时候从 0 开始了填的呗
|
2
luchenwei9266 OP @x86 那大概率又是招的临时工没经验,前端显示排名的时候忘了+1
|
3
Chad0000 2023-09-06 10:45:58 +08:00 via iPhone 13
甭管他们怎么评,目前我只为 ChatGPT 付费。
|
4
leonhao 2023-09-06 10:48:20 +08:00 1
赢麻了
|
5
BingoXuan 2023-09-06 10:49:41 +08:00
看了一下测试内容,唯一想法是为何让大模型成为做题家呢?
|
6
jolanyu 2023-09-06 10:50:27 +08:00 8
(注:* 表示该模型结果由 C-Eval 团队测试得到,而其他结果是通过用户提交获得。)
|
7
zapper 2023-09-06 10:53:20 +08:00
考霸?要来干嘛
|
9
xlsepiphone 2023-09-06 10:55:10 +08:00
榜单里面的,我只可能为 ChatGPT 付费。
|
10
SomeBodsy 2023-09-06 10:56:21 +08:00 1
文心一言就是个人工智障,问啥都不知道,跟 chatGPT 最起码差 20 代
|
11
yigecaiji 2023-09-06 11:11:31 +08:00 via Android
乐
|
12
idealhs 2023-09-06 11:16:26 +08:00
我们中国真是太厉害辣
|
13
Eissen 2023-09-06 11:22:21 +08:00 4
遥遥领先
|
14
BwNVlwSq 2023-09-06 11:25:21 +08:00 via iPhone 1
太酷辣
|
15
bt7vip 2023-09-06 11:32:02 +08:00 via Android
我也好奇,GPT4 的模型放出来了??他们可以调试??
|
16
excitedXXX 2023-09-06 11:39:42 +08:00
遥遥领先!!!
|
17
Navee 2023-09-06 11:44:42 +08:00
单走一个 6
|
18
cksspk 2023-09-06 11:50:04 +08:00
遥遥领先
|
19
chendl111 2023-09-06 12:07:49 +08:00 1
前面都是国内的,我严重怀疑测试的可靠性
|
20
yvescheung 2023-09-06 12:15:53 +08:00 14
在朝鲜最幸福国家的排名中,前五分别是中国,朝鲜,古巴,伊朗和委内瑞拉,邪恶的美帝国主义排 200 多
|
21
vgbw 2023-09-06 12:20:50 +08:00
国产,自研,弯道超车,遥遥领先
🤣 |
22
akira 2023-09-06 12:27:48 +08:00 2
想吐槽点啥,但是槽点太多了,以至于不知道怎么说好
|
23
yiencho 2023-09-06 13:14:47 +08:00
遥遥领先,遥遥领先!~~~
|
24
234ygg 2023-09-06 13:17:05 +08:00 1
小镇做题家从人变模型了是吧😅
gpt4 是在规模部署的前提下实现当前性能的,不能以低于 20 刀/月的价格规模推广的就别来比了,田忌赛马也要让人见到马吧。 而且,最少也请做个网页版,并提供 API 。 |
25
weilongs 2023-09-06 13:22:09 +08:00
这有点 不厚道吧?
|
26
h272377502 2023-09-06 13:50:04 +08:00
@bt7vip 不是有 api 吗。。。
|
27
cherryas 2023-09-06 14:17:57 +08:00
chatgpt 本来就对中国的人文历史社科胡编乱造,中国的测试打不过其他新模型很正常。
|
28
george2077 2023-09-06 14:46:37 +08:00
野榜不看也罢
|
29
geomancy 2023-09-06 15:02:15 +08:00
我自己训练的模型最牛 x ,它居然知道我的生活习惯,和别人的聊天记录什么的,其他商业大模型则不可以,甚至不知道我叫什么,我觉得我自己的模型理所当然的排名最前。
|
30
windyboy 2023-09-06 16:23:58 +08:00
又一个安兔兔吗?
|
31
cheese 2023-09-06 17:48:16 +08:00
这测试都是中文考证做题的,gpt4 玩不过很正常吧,gpt 的中文训练集相对英文本来就少,更别提这种专用形式的考试内容
|
32
hanqian 2023-09-06 22:10:52 +08:00
要不是我真用过好多开源模型我就真信了,完全无视这些所谓 benchmark
|
33
timestamp24 2023-09-07 02:41:11 +08:00
姑且相信这个评分(上传成绩的人都很诚实&测试结果可靠),这是在挑选中文做题家/背题家吗?全是选择题考察有一定的局限性。其实开放公测大家一用就知道各种模型几斤几两了。
|
34
chancat 2023-09-07 17:09:08 +08:00 via Android
一方面判定别人家的东西违法,有害。自己又干不出来不是抄袭套皮就是自封第一,真的。很难进步。
|