测评榜单MathEval发布，大模型数学能力有了“风向标”

华西新闻
news.huaxi100.com

频道栏目

专题

新闻客户端

华西都市报新闻客户端

iPhone版 Android版
华西都市报新HD

iPad版
掌上四川

iPhone版 Android版

您当前的位置：华西都市网>企业 > 商业 >

测评榜单MathEval发布，大模型数学能力有了“风向标”

2024-03-01 18:09 来源：山城日报

　　近日，大模型数学能力测评基准MathEval上线，并已在官网发布最新测评榜单，学而思旗下九章大模型夺得冠军。

图：MathEval官网测评榜单

　　根据官网信息，MathEval由智慧教育国家新一代人工智能开放创新平台联合暨南大学、北京师范大学、华东师范大学、西安交通大学、香港城市大学共同发起，是一个专注于全面评估大模型数学能力的测评基准，共包含19个数学领域测评集、近30K道数学题目，旨在全面评估大模型在包含算术，小初高竞赛和部分高等数学分支在内的各阶段、难度和数学子领域的解题能力表现。

　　目前，涉及数学的应用领域正在越来越多地使用大模型，包括直接用大模型解决数学问题、使用大模型进行数据分析和学术研究、帮助学习辅导等。但行业内此前还没有较为全面、能覆盖各国主流通用大模型和垂类模型的数学能力测评榜单。数学能力评测通常被包含在通用榜单或推理能力、自然科学能力的排行之中，缺乏一致的标准。因此，MathEval作为专注于大模型数学能力的测评基准能够及时上线，弥补了行业空白，对大模型领域在数学能力上的进一步探索提升，可以提供非常有价值的参考。

　　对大模型进行数学能力测评有一些公认的难点：首先，各数据集的字段需要进行统一，每个大模型也都有自己的一套Prompt模板和答案形式，要想给“思维方式”不同的大模型进行统一的测试和比较，需要测评基准根据具体情况，设计符合需求的抽取打分规则，才能从模型输出的内容中批量抽取出可以进一步对比的答案。这对专业能力的要求很高，因为抽取规则的一点点改动，都会影响到最终的测评结果。

　　其次，要让测评榜单的结果具备足够的可参考性，就要使用足够丰富全面的数据集，并尽量全面的测评市面上的大模型，这对测评方的算力也提出了很高的要求。

　　据悉，MathEval截至目前已测试了30个大模型（含同一模型的不同版本），且未来会加入新出现的大模型，不定期更新榜单。在评测过程中，MathEval团队使用了GPT4大模型来进行答案抽取和答案的匹配，减少基于规则进行评测所带来的误差，并根据每个模型的Prompt模板进行了适配，以激发每个模型本身能达到的最佳效果。

　　从MathEval已发布的测评榜单来看，学而思旗下九章大模型在整体表现和中文、英文、各学段子榜单中，都具备领先优势，作为少有的专注于数学解题和讲题能力的大模型，九章大模型的这一表现可以说是并不意外。而作为通用大模型的文心一言4.0、讯飞星火V3.5在测评中的表现也颇为亮眼，占据了第二、三位，均优于GPT-4。可以说，国产大模型在数学方面的能力已经实现了赶超，未来还将如何提升及落地在应用场景，值得期待。

【免责声明】本文来源于网络，本站发布此信息的目的在于传播信息，与本站立场无关，亦不对您构成任何投资或购买建议。

免责声明：此域名下的内容以及本文内容均为转载企业宣传资讯，仅代表作者个人观点，与华西都市报、华西都市网无关。仅供读者参考，并请自行核实相关内容。如果您发现网站上有侵犯您的知识产权的作品，请与我们取得联系，邮箱：140432 6696#qq.com（把#改成@），我们会及时修改或删除。

新闻排行榜

WWD华熙万物：艺术之家

华西-梅奥国际重症医学大会2023暨西部重症医

享功能·有颜值·乐品质，优衣库LifeWear幸福

双11,冬季样板间招募全城开启 | 成都知希五恒

河南大学生专属，“超级马力测评团”成团在即

2023川渝婚嫁产业博览会暨广安餐饮消费周及特

长江智慧商贸港开启水产行业盛会：推动产业升

2024中国应用出海新兴市场，Flat Ads助你抢滩

“蔓迪泡沫剂”正式开售这篇文章告诉你值不

新手购买盛马自动售货机，需要考虑这些关键点

新闻动态