• 星辰汽车网
  • 加入收藏 网站地图
    • 首页
    • 车图
    • 导购
    • 用车
    • 行情
    • 试驾
    • 资讯
    • 车企
    • 选车
    • 排行

    当前位置:首页 > 排行 >内容

    “AI考生”高考成绩公布,国产大模型总分、数学分数超过GPT-4o

    时间:2024-06-20 00:33 来源:东方网 阅读量:16827   

    上海人工智能实验室今天公布了多名“AI考生”参加今年中国高考的成绩,阿里Qwen2-72B、GPT-4o和“书生·浦语”2.0文曲星成为三甲,得分率均超过70%。大部分“AI考生”在语文、英语科目上表现良好,但数学成绩不如人意。其中,“书生·浦语”2.0文曲星获得了数学最高分,超越包括GPT-4o在内的其他大模型。

    大模型数学成绩都不及格

    今年高考结束后,司南评测体系OpenCompass选取6个开源大模型和GPT-4o,开展了语文、数学、英语全卷能力测试。评测采用全国新课标I卷,参与评测的开源模型的开源时间均早于高考,确保考试“闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,接近真实阅卷的标准。

    这6个大模型分别是阿里巴巴开源的Qwen2-57B和Qwen2-72B、上海人工智能实验室开源的“书生·浦语”2.0文曲星、智谱AI开源的GLM-4-9B、零一万物开源的Yi-1.5-34B、法国企业Mistral开源的Mixtral 8x22B。由于无法确定闭源大模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,只引入GPT-4o作为评测参考。

    因为受测的开源模型均为大语言模型,在评测过程中,仅输入文字题干,英语听力部分(分值30分)不纳入此次评测。

    结果,阿里Qwen2-72B以总分303分排名第一,其中语文124分,数学70分,英语109分(满分120分);GPT-4o以总分296分位居第二,其中语文111.5分,数学73分,英语111.5分;“书生·浦语”2.0文曲星以0.5分之差排名第三,其中语文112分,数学75分,英语108.5分。

    可以看到,“AI考生”三甲都擅长文科,语文和英语成绩优良,然而它们的数学推理能力有待提升,高考数学成绩都不及格。目前,数学是所有大模型的短板,得益于上海人工智能实验室在数学推理上的投入,“书生·浦语”2.0文曲星在高考中得到75分,在所有受测模型中位居榜首,但仍存在较大的提升空间。

    阅卷老师点评“考生”表现

    与以往多采用高考客观题评测大模型的方式不同,在此次测试中,研究团队使用了语数外三科的全卷试题,既有选择、填空等“答案唯一性”题目,也包括简答、阅读理解、作文等主观题,在更接近真实高考的环境中测试模型能力。

    为贴近高考评卷模式,研究团队邀请多位有阅卷经验的高中教师对主观题答案评分,每份考卷至少由3人分别打分。遇到评分悬殊的情况,老师们会进行复核,尽量做到评分公正,为人工智能学术界和产业界提供更有价值的参考指标。

    与真实的高考一样,所有大模型答卷均进行了匿名处理,避免阅卷教师产生“先入为主”的观念。在完成所有大模型答卷的评分工作后,阅卷教师才被告知所评“考生”的真实身份是大模型。

    对于这些“AI考生”的语数外水平,老师们给出了中肯的评价——

    语文评卷显示,大模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。大模型写的作文更像问答题,虽然有针对性,但缺乏修饰,几乎不用人类考生都会使用的举例论证、引用论证、名人名言等手法。多数大模型不理解“本体”“喻体”“暗喻”等语文概念。对于文章中的一些“潜台词”,大模型还无法完全理解。

    数学评卷显示,大模型的主观题回答相对凌乱,而且解题过程有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力很强,但无法在解题过程中灵活运用。

    大模型的英语整体表现良好,然而部分模型由于不适应一些题型,在七选五、完形填空等题型上得分较低。大模型写的英语作文普遍存在因超出字数限制被扣分的情况,而人类考生大多因为字数不够被扣分。

    声明:免责声明:此文内容为本网站转载企业宣传资讯,仅代表作者个人观点,与本网无关。仅供读者参考,并请自行核实相关内容。

    热门推荐

    • 一家人出行就靠它,车长4951m
    • 极狐汽车宣布即将推出S5车型,预
    • 天津,从来不紧绷韩韩观察
    • 比亚迪e平台3.0Evo海狮07
    • 比亚迪SHARK,430匹/加速
    • YPlus5㎡大空间,儿子车内学
    • 科林电气中小股东观望海信网能要约
    • 6/7座布局方程豹豹8内饰正式发
    • 瑞风RF8鸿蒙版粤港澳上市
    • 5月车企销量一览:比亚迪差点超上

    热点推荐

    • 紫金矿业再融资25亿美元后续业绩

      6月18日早间,紫金矿业发布公告称,公司根据一般性授权拟发行20亿美元可转换公司债券以及配

    • 大众速腾和奇瑞艾瑞泽8怎么选

      动力方面: 艾瑞泽81.6T的发动机最大马力是197匹,而速腾1.4T最大马力是150匹

    • 2024年高端电动车型盘点:极氪

      在今天这个快速发展的电动汽车市场中,各大车企的技术创新和风格革新的竞争愈发激烈。品牌们不仅

    • 6月中旬交付新款特斯拉Model

      6月2日,根据官方获悉,新款特斯拉Model3高性能版即日起由预售转为正式销售,售价33.

    • 我在现场·照片背后的故事丨“天渠

      穿过漆黑的隧洞,眼前豁然开朗,仿佛跨越时空之门。我站在刀削斧劈般的绝壁之上,脚下云雾缭绕,

    热门资讯

    理想L7正式申报定位大五座中大型SUV

    理想L7正式申报定位大五座中大型

    • 热点推荐 纯电中型车新选择,极狐阿尔法S5
    • 热点推荐 新款途胜L将于今年6月正式上市
    • 热点推荐 AI、VR……科技创新、潮流体验
    • 热点推荐 本田家族七座豪华SUV再进化!外
    • 热点推荐 感受电影之城魅力:老戏院有新“腔
    • 星辰汽车网 | 网站地图 | RSS订阅
    • 星辰汽车网-未经本站允许,禁止镜像及复制本站。投诉及建议联系邮箱:linghunposhui@sina.com
      Copyright © 2018 All Rights Reserved 星辰汽车网 star.cxxxc.com 版权所有
      沪ICP备2022017705号