C-Eval， GPT4 节节败退，跌出前十。。。。 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 872 天前的主题，其中的信息可能已经有所发展或是发生改变。

讲道理，虽然 C-Eval 是中文的评估套件，GPT4 跌出前十，前面的都是国产大模型，这些勉强都能理解接受。

可是排名这一块，居然还有排名第 0 位的，这是几个意思。。。

附个网页链接： https://cevalbenchmark.com/static/leaderboard_zh.html

34 条回复 • 2023-09-07 17:09:08 +08:00

1

x86

2023 年 9 月 6 日

0 是 foreach 循环的时候从 0 开始了填的呗

2

luchenwei9266

OP

2023 年 9 月 6 日

@x86 那大概率又是招的临时工没经验，前端显示排名的时候忘了+1

3

ktqFDx9m2Bvfq3y4

2023 年 9 月 6 日 via iPhone

13

甭管他们怎么评，目前我只为 ChatGPT 付费。

4

leonhao

2023 年 9 月 6 日

1

赢麻了

5

BingoXuan

2023 年 9 月 6 日

看了一下测试内容，唯一想法是为何让大模型成为做题家呢？

6

jolanyu

2023 年 9 月 6 日

8

（注：* 表示该模型结果由 C-Eval 团队测试得到，而其他结果是通过用户提交获得。）

7

zapper

2023 年 9 月 6 日

考霸？要来干嘛

8

TimePPT

PRO

2023 年 9 月 6 日

@jolanyu 哈哈哈正想吐槽来着

9

xlsepiphone

2023 年 9 月 6 日

榜单里面的，我只可能为 ChatGPT 付费。

10

SomeBodsy

2023 年 9 月 6 日

1

文心一言就是个人工智障，问啥都不知道，跟 chatGPT 最起码差 20 代

11

yigecaiji

2023 年 9 月 6 日 via Android

乐

12

idealhs

2023 年 9 月 6 日

我们中国真是太厉害辣

13

Eissen

2023 年 9 月 6 日

4

遥遥领先

14

BwNVlwSq

2023 年 9 月 6 日 via iPhone

1

太酷辣

15

bt7vip

2023 年 9 月 6 日 via Android

我也好奇，GPT4 的模型放出来了？？他们可以调试？？

16

excitedXXX

2023 年 9 月 6 日

遥遥领先！！！

17

Navee

2023 年 9 月 6 日

单走一个 6

18

momo31

2023 年 9 月 6 日

遥遥领先

19

chendl111

2023 年 9 月 6 日

1

前面都是国内的，我严重怀疑测试的可靠性

20

yvescheung

2023 年 9 月 6 日

14

在朝鲜最幸福国家的排名中，前五分别是中国，朝鲜，古巴，伊朗和委内瑞拉，邪恶的美帝国主义排 200 多

21

0m9ionbP8wuvs8S3

2023 年 9 月 6 日

国产，自研，弯道超车，遥遥领先
🤣

22

akira

2023 年 9 月 6 日

2

想吐槽点啥，但是槽点太多了，以至于不知道怎么说好

23

yiencho

2023 年 9 月 6 日

遥遥领先，遥遥领先！~~~

24

234ygg

2023 年 9 月 6 日

1

小镇做题家从人变模型了是吧😅
gpt4 是在规模部署的前提下实现当前性能的，不能以低于 20 刀/月的价格规模推广的就别来比了，田忌赛马也要让人见到马吧。
而且，最少也请做个网页版，并提供 API 。

25

weilongs

2023 年 9 月 6 日

这有点不厚道吧？

26

casatAway

2023 年 9 月 6 日

@bt7vip 不是有 api 吗。。。

27

cherryas

2023 年 9 月 6 日

chatgpt 本来就对中国的人文历史社科胡编乱造，中国的测试打不过其他新模型很正常。

28

george2077

2023 年 9 月 6 日

野榜不看也罢

29

geomancy

2023 年 9 月 6 日

我自己训练的模型最牛 x ，它居然知道我的生活习惯，和别人的聊天记录什么的，其他商业大模型则不可以，甚至不知道我叫什么，我觉得我自己的模型理所当然的排名最前。

30

windyboy

2023 年 9 月 6 日

又一个安兔兔吗？

31

cheese

2023 年 9 月 6 日

这测试都是中文考证做题的,gpt4 玩不过很正常吧,gpt 的中文训练集相对英文本来就少,更别提这种专用形式的考试内容

32

XnEnokq9vkvVq4

2023 年 9 月 6 日

要不是我真用过好多开源模型我就真信了，完全无视这些所谓 benchmark

33

timestamp24

2023 年 9 月 7 日

姑且相信这个评分(上传成绩的人都很诚实&测试结果可靠)，这是在挑选中文做题家/背题家吗？全是选择题考察有一定的局限性。其实开放公测大家一用就知道各种模型几斤几两了。

34

chancat

2023 年 9 月 7 日 via Android

一方面判定别人家的东西违法，有害。自己又干不出来不是抄袭套皮就是自封第一，真的。很难进步。

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 5202 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 29ms · UTC 01:30 · PVG 09:30 · LAX 17:30 · JFK 20:30
♥ Do have faith in what you're doing.