GPT-4 依然领先,但差距更小了。而我们对大模型也更挑剔了。 文丨贺乾明 曾兴 编辑丨黄俊杰 龚方毅 2023 年 3 月,GPT-4 发布,震撼全世界。之后全球有上百家公司争先开发大模型,投入数百亿美元追赶。 一年后,至少有 8 家中美公司宣布已经做出能力比肩或接近 GPT-4 的模型。它们中的大多数都公布了自家模型在常用的能力评估数据集上的得分,的确超过或接近 GPT-4。 公开数据集测试不完全反应大模型的能力。不少人工智能从业者认为,一些公司会用基准测试数据集里的数据训练大模型,自然更容易在评测中得高分。 实际上大部分公司在声称模型追上 GPT-4 时,都加了各种限定条件,比如 “综合整体评测成绩水平比肩 GPT-4”“十余项指标逼近或达到 GPT-4”。 过去一个月,我们设计 20 多道问题,涉及生活和工作的各种场景,再加上 30 道考公题,测试国内外 18 个大模型产品的表现。 测试时,我们全用中文提问,每个问题单开一个对话框,选大模型第一次回答的结果。大模型的回答有一定随机性,这并不是完全严谨的评测,但更接近现实使用场景。 中文测试:中国大模型确实更会考公 大语言模型完成各种任务的基础,是能够理解用户提出的问题,并搞清楚文字背后的意图。许多中国的公司比较自研模型与 GPT-4 等海外模型时,会强调自己的模型更懂中文。 实际使用中,大模型不仅要懂中文,还得懂中国。我们先从去年公务员考试科目《行政职业能力测验》中选了两道题。第一道是: 小时候,在湘江边放牛,常常看到蓝天白云之间,一行行大雁从头顶上匆匆飞过。有人告诉我,相传,大雁飞到衡阳,便不再南飞,“北雁南飞,至此歇翅停回”。后来,我渐渐知道,优越的地理位置、湿润的气候,是衡阳吸引大雁 “歇翅停回” 的天然优势。因此,衡阳又雅称 “雁城”。这段文字描写的 “主角” 是? 官方答案是 “衡阳”。这道题难不倒每
芝士小课堂
讲解各类投资知识点,漫画或思维导图形式