首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|芯片|物聯(lián)網(wǎng)|量子|低空經(jīng)濟|智能汽車|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|大數(shù)據(jù)|報告|智慧城市|移動互聯(lián)網(wǎng)|會展

首頁 >> 移動互聯(lián)網(wǎng) >> 正文

高考數(shù)學全卷重賽！一道題難倒所有大模型，新選手Gemini奪冠，豆包DeepSeek并列第二

2025年6月11日 15:58 CCTIME飛象網(wǎng)

AI挑戰(zhàn)全套高考數(shù)學題來了!

話接上回。高考數(shù)學一結(jié)束，我們連夜使用六款大模型產(chǎn)品，按照一般用戶截圖提問的方式，挑戰(zhàn)了 14 道最新高考客觀題，不過有網(wǎng)友質(zhì)疑測評過程不夠嚴謹，所以這次我們加上解答題，重新測一遍。

本次參加挑戰(zhàn)的選手分別是：Doubao-1.5-thinking-vision-pro、DeepSeek R1、Qwen3-235b、hunyuan-t1-latest、文心 X1 Turbo、o3，并且新增網(wǎng)友們非常期待的 Gemini 2.5 pro。上一次我們使用網(wǎng)頁端測試，這次除 o3 外，其他模型全部調(diào)用 API。

在考題選擇上，我們?nèi)匀徊捎?2025 年數(shù)學新課標 Ⅰ 卷，包含 14 道客觀題，總計 73 分；5 道解答題，總計 77 分。其中第 6 題由于涉及到圖片，我們就單獨摘出來，后面通過上傳題目截圖的形式針對多模態(tài)大模型進行評測。其他文本題目全部轉(zhuǎn)成 latex 格式，分別投喂給大模型，還是老規(guī)矩，不做 System Prompt 引導(dǎo)，不開啟聯(lián)網(wǎng)搜索，直接輸出結(jié)果。

（注：第 17 題雖然也涉及到圖片，但文字表述足夠清晰，不影響答題，因此也以 latex 格式測評。）

客觀題計分方法按照以往高考判分原則：

單選題每道 5 分，選項正確計分，錯誤不得分；

多選題每道 6 分，全對計 6 分，漏選按正確答案數(shù)量計分，如答案為 ABCD，漏選其一扣 1.5 分，錯選不得分；

填空題每道 5 分，填空正確計分，錯誤不得分。

至于解答題，由于現(xiàn)在還未出具體的評分細則，所以我們請數(shù)學專業(yè)的朋友進行評判，主要還是看大模型的最終答案以及解題步驟中是否有嚴重失誤點。

7 家大模型考試成績?nèi)缦聢D所示。

從客觀題來看，各家大模型幾乎拉不開差距，最大分差也只有 3 分，第 6 題圖像題更是讓這幾家多模態(tài)大模型「全軍覆沒」。在上一次測評中，o3 客觀題成績墊底，但有網(wǎng)友表示，這可能是由于某些原因?qū)е潞笈_自動切換成其他模型，而這一次我們選用的是未「降智」的 o3，選擇題和填空題成績?nèi)允桥旁谧詈�，當然�?5 分的成績相比「降智」版確實有很大提升。

解答題是大模型失分的「重災(zāi)區(qū)」。除了 Gemini 2.5 Pro 拿到全部的分數(shù)外，其它模型或多或少均有失分。其中 DeepSeek R1 和 Doubao 最可惜，只丟了一分；o3 則失了 2 分，最終得到 75 分。相較而言，hunyuan-t1-latest 和文心 X1 Turbo 發(fā)揮不佳，分別拿到 68 分和 66 分。

從總分上來看，Gemini 2.5 Pro 考了 145 分，位列第一，Doubao 和 DeepSeek R1 以 144 分緊隨其后，并列第二；o3 和 Qwen3 也僅有一分之差，分別排在第三和第四。受解答題的「拖累」，hunyuan-t1-latest 和文心 X1 Turbo 的總成績排到了最后兩名。

（查看各大模型的測評截圖以及解答題答題情況，請移步：https://jiqizhixin.feishu.cn/docx/PR0PdzYaWoU92QxiJQqc2oe7n2g）

解答題：大模型失分「重災(zāi)區(qū)」

我們先來看看解答題的情況。

第 15 題和第 17 題，一道考查概率問題，一道涉及立體幾何知識，7 家大模型均拿到滿分。

第 16 題是一道數(shù)列綜合題，滿分 15 分，只要證明完整、計算過程完整、結(jié)果正確就能拿到全部的分數(shù)。大模型整體表現(xiàn)不錯，只有 Qwen3 解答正確，但最終答案里面增加了多余的假設(shè)求值，扣了一分。

第 18 題這道橢圓方程與幾何就難倒了不少大模型，僅 Doubao、DeepSeek R1 和 Gemini2.5 Pro 拿到滿分 17 分，其他模型各有各的扣分點。Qwen3 前面回答得都不錯，過程也很完整，但偏偏最后一小問｜PQ｜最大值取約等于 9 的步驟多余，導(dǎo)致結(jié)果偏差，扣了一分。

o3 則是第（3）問答案沒化簡丟了一分。

文心 X1 在第 2 問 (2) 正確算出 P 點軌跡，但未證明極值，直接按最遠點計算造成結(jié)果錯誤，扣 6 分。

hunyuan-t1-latest 前兩問中回答正確，到了第 3 問完成 P 點軌跡之后就全錯了，一下子丟了 5 分。

對于最后一道壓軸題，Gemini2.5 pro 是唯一全對的大模型。Doubao 只說明了震蕩項的振幅大于 0，但是也有可能震蕩項的相位是反的，那樣的話最大值反而有可能更小，證明過程不夠嚴謹，扣一分。

DeepSeek R1 在第（3）問中分情況討論，得出了兩類解，但對第一類解未做后續(xù)說明，扣了一分。

o3 第（2）問思路正確，但因為開閉區(qū)間差別，「完全重合」說法錯誤，扣 1 分。

hunyuan-t1-latest 在第（2）問上思路可行但證明過程模糊，扣 2 分，到了第（3）問沒有判斷 phi 取值，又扣了 2 分。

文心 X1 和 Qwen3 也都是在第 2 問和第 3 問上失了分，第 2 問證明模糊扣 2 分，第 3 問則是未具體說明 phi 值扣 2 分，而且文心 X1 比大小還發(fā)生錯誤，又扣了 1 分。

客觀題：一道圖像題難倒幾家多模態(tài)大模型

在不考慮識圖題（第6題）的情況下，客觀題大模型總體表現(xiàn)都不錯，Doubao、Qwen3、Gemini 2.5 pro、DeepSeek R1 、文心 X1 Turbo 和 hunyuan-t1-latest 均取得了 68 分的高分，只有 o3 在多選題上少選了一項丟了分。

其中，o3 在第 9 題計算過程中，忽視了「正三棱柱」這一關(guān)鍵條件。它在建立坐標系時，分別用 (x₀, y₀, 0) 表示 A 點坐標，用 (c, 0, 0) 表示 C 點坐標，但沒有考慮到：正三棱柱的底面是正三角形，這意味著正三角形的邊長 c 與 x₀、y₀之間存在關(guān)系：c=2x₀=2y₀/√3。導(dǎo)致對 B 選項的判斷出現(xiàn)錯誤。

接下來看看這道圖片題。

遺憾的是，此次測評的多模態(tài)大模型都在這道識圖題上表現(xiàn)不佳。雖然 hunyuan-t1-latest 不是多模態(tài)，但我們又測試了 hunyuan-t1-vision ，也在這道題上敗下陣來。

相比之下，Doubao 和 o3 至少正確識別了坐標位置，只是誤判了視風風速方向，而 Gemini 連基本坐標都未能正確識別。

總的來說，這次測評結(jié)果顯示，大模型在數(shù)學推理能力上有不小的進步，但仍有較大的提升空間。比如不少模型在解答題上丟分，這反映出大模型在復(fù)雜推理、嚴謹論證和多步驟計算方面還需加強。

此外，所有參測的多模態(tài)大模型在第 6 題的圖像識別上都出現(xiàn)了問題，這也暴露出當前 AI 在圖文結(jié)合理解方面的短板。

最后，緊張的高考已經(jīng)結(jié)束，祝福所有考生都能取得理想的成績，有著燦爛的未來！

編輯：T01

飛象網(wǎng)版權(quán)及免責聲明:
1.本網(wǎng)刊載內(nèi)容，凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有，未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載，請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源：XXXX”的作品，均轉(zhuǎn)載自其它媒體，在于傳播更多行業(yè)信息，并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3.如因作品內(nèi)容、版權(quán)和其它問題，請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系，我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777，郵件后綴為cctime.com，冒充本站員工以任何其他聯(lián)系方式，進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為，均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。

推薦新聞

·余承東：華為近十年研發(fā)累計投入12490億元	·2024年Q4我國固定寬帶用戶體驗平均網(wǎng)速99.14Mbit/s
·兩部門聯(lián)合開展智能養(yǎng)老服務(wù)機器人結(jié)對攻關(guān)與場景應(yīng)用..	·聯(lián)發(fā)科 2025 年 5 月合并營收 451.81 億元新臺幣，同比..
·IBM 宣布將打造大規(guī)模容錯量子計算機，計劃 2029 年交..	·科大訊飛劉慶峰：堅持國產(chǎn)算力自主可控，有實力做也必須做
·“變色龍”芯片賽道蓄勢待發(fā)，國產(chǎn)廠商加緊追趕	·定制芯片助推博通股價飆升70%
·全鏈條協(xié)同突破商業(yè)航天加速邁向“百箭千星”	·美媒：與中國的北斗系統(tǒng)脫鉤是短視行為
·SAP構(gòu)造企業(yè)數(shù)字化肌肉，以飛輪效應(yīng)實現(xiàn)韌性增長	·Orange Business伴跨國企業(yè)共啟航，推動商業(yè)版圖通達世界
·【用AI聯(lián)通】系列報道之五 \| 從診療到系統(tǒng)變革：AI如何..	·蘋果WWDC25回顧：AI依舊貫穿全場但今年歡樂多了