对标OpenAI o1!Kimi发布新一代推理模型:中考高考考研全第一
11月18日消息,对标代推第日前,布新国内人工智能公司月之暗面推出的理模Kimi国产大模型正式发布k0-math。
k0-math是型中Kimi推出的首款推理能力强化模型,采用全新强化学习和思维链推理技术,考高考考通过模拟人脑的研全思考和反思过程,大幅提升解决数学难题的对标代推第能力。
据了解,布新在多项数学基准能力测试中,理模k0-math的型中表现能对标OpenAI o1系列可公开使用的两个模型:o1-mini和o1-preview。
根据官方公布的考高考考结果,在中考、研全高考、对标代推第考研以及包含入门竞赛题的布新MATH等4个数学基准测试中,k0-math初代模型成绩超过o1-mini和o1-preview模型,理模拿下第一。
在业界最常使用的数学能力基准测试MATH 中,k0-math模型得分93.8,超过 o1-mini的90分和o1-preview的85.5分。
官方表示,k0-math这一成绩仅次于暂未开放使用的o1完全版94.8分。
据介绍,常规模型的设定目标是尽快提供问题的答案,但k0-math不同,k0-math模型在做题过程中会花更长的时间来推理,包括思考和规划思路,并且在必要时自行反思改进解题思路,提升答题的成功率。
不过,月之暗面坦言,k0-math虽然擅长解答大部分很有难度的数学题,但是当前版本还无法解答LaTeX格式难以描述的几何图形类问题。
另外,k0-math还有一些局限性需要突破,包括对于过于简单的数学问题,例如1+1等于几,k0-math模型可能会过度思考,对于高考难题和IMO题目依然有一定概率做错、猜答案。
月之暗面表示,这些局限性既是机遇,也是挑战,预计将在下一阶段的模型迭代中逐步得到改善。
相关文章
[流言板]帕尔默2024英超已参与39球,联赛最多&超越去年的哈兰德
[流言板]帕尔默2024英超已参与39球,联赛最多&超越去年的哈兰德由足球资讯发表在国际足球资讯 48212月26日讯 英超节礼日大战,切尔西目前1-0领先富勒姆,帕尔默攻入一球。这是他在202024-12-27- 作为新版《蜘蛛侠》系列电影的第4部,本片直到2024年9月才公布了全新的进展,由《尚气》导演德斯汀·丹尼尔·克雷顿接手该项目,克里斯·麦肯纳和埃里克·索莫斯则被请来撰写剧本。近日《蜘蛛侠》系列电影的主2024-12-27
《崩坏:星穹铁道》走近星穹 「乱破:白枭•忍者爆发四散之卷」
今日10月16日),米哈游官方公布《崩坏:星穹铁道》走近星穹——「乱破:白枭•忍者爆发四散之卷」。演播室,在燃烧。「咿呀——」银枪•修罗殿下闯入演播厅,将白枭•忍者投入炊饭釜中。何等无慈悲!大岚神也闭2024-12-27穆勒月报谈欧冠:本月2场输球都是在欧冠 接下来我们想全部拿下!
11月2日讯拜仁前锋穆勒更新自己的月报,谈到了各项赛事的进程,并着重谈到了欧冠。穆勒写道:“我们在德甲的进展顺利。我们位居榜首,这对我们来说很重要。到目前为止,我们不仅保持不败,而且经常表现得非常出色2024-12-27- 12月26日消息,特斯拉汽车宣布2024.44.4.1版本更新今日开始分批次推送。本次软件更新主要升级内容,包含ASS高级智能召唤、自动泊车改进、驻车盲点警报功能、寒冷天气改进等,部分功能实现效果可能2024-12-27
[流言板]有点疲惫?哈登运球砸到腿上出现失误,随后三分也未能命中
[流言板]有点疲惫?哈登运球砸到腿上出现失误,随后三分也未能命中由篮球资讯发表在篮球资讯 50211月10日讯 今日NBA常规赛猛龙对阵快船的比赛正在进行中。比赛第一节,哈登运球砸到腿上出现失误,随后2024-12-27
最新评论