AI参加高考,智能大模型能得多少分

资讯5个月前更新 优优
1,643 0 0

端午佳节,有的地方高考已经结束,有的考生还奋战在考场上,先祝大家都心想事成,考出水平~

陆陆续续,文理综各个科目的考试题目开始在网上流出,那么语文数学之后,也是时候让大模型们继续来挑战一波了。

AI参加高考能得多少分?

AI参加高考,智能大模型能得多少分

高考数学题,你还看得懂吗?

但大模型可以~

AI参加高考,智能大模型能得多少分

近日,复旦大学NLP(自然语言处理)实验室LLMEVAL团队,请来13位大模型“考生”一起做2024年高考数学真题,结果怎样?

先说结论:

从整体来看,大模型们的“高考成绩”,都不算太高。OpenAI日前发布的新一代旗舰大模型GPT-4o与阿里云研发的通义千问720亿参数大模型Qwen-72b在两次测试中排名都靠前,正确率稳定在60%以上。部分大模型的表现存在起伏与波动,如百川智能、字节跳动新近发布的Baichuan4豆包大模型,分别在新I卷和新II卷客观题测试中得分排名第一,但在另一场测试中,排名相对靠后。

AI参加高考,智能大模型能得多少分 AI参加高考,智能大模型能得多少分

图源:复旦大学NLP实验室

根据两次评测结果,该团队发现大部分测试大模型在简单题(如选择题前三道)有较好的准确率,而在中档题中表现一般,对于较难的题目大模型们的准确率会更低,少部分题目甚至出现“全军覆灭”的情况。人工智能这么“聪明”为什么还会出错?

AI为什么会把题做错

测试发现,让AI大模型做数学题,仍是一个难度较大的挑战。

首先,文本输入格式的不同,会对测试结果造成,比较明显的干扰,目前测试主要采用,上传图片识别文本的方式,这种方式更类似“人类”,是对大模型能力的全面考验,有的大模型还未做题,就先败在了AI识图这一步,其次,大模型的推理能力,仍有很大进步空间,较难的题目,对思维能力的考察要求更高,大模型的准确率也会更低,此外,在多选题方面,大多数模型表现不佳,可见,面临复杂选项的时候,大模型的准确率也会降低。

虽然在解题方面,AI大模型的短期表现,还达不到完美,但在攻克数学问题的路上,AI的每一次进步,都是对未来教育想象空间的开拓,值得更多耐心与期待~

 

© 版权声明

相关文章

分享