91视频观看-91视频观看免费-91视频免费网址-91视频免费网站-国产日产欧产精品精品推荐在线-国产日产欧美a级毛片

關(guān)于ZAKER 合作
鈦媒體 48分鐘前

主流大模型再戰(zhàn)高考作文:“幻覺”問題戲劇性拉滿!百度、騰訊考生竟是一家人?

文 | 大模型之家

北京時間 6 月 7 日,決定莘莘學子一生命運的高考又一次開考。而作為一年一度的 " 保留節(jié)目 ",大模型會戰(zhàn)高考作文題也成了檢驗這一年來,大模型進步情況的一次 " 考試 "。

值得注意的是,本次高考作文題目并沒有以 " 人工智能 " 相關(guān)的考題,因此大模型之家隨機抽選了北京卷的考題之一,對大模型的 " 寫作能力 " 進行考察。

根據(jù)下面題目完成作文,按要求作答。不少于 700 字。不透露所在區(qū)、學校及個人信息。

生活中,到處都有數(shù)字在閃耀,如比賽記分牌、新年倒計時、車站電子時刻表、智能家電顯示屏等。數(shù)字閃耀之時,可能是激動的時刻,可能是收獲的見證,也可能是幸福的日常……

請以 " 當數(shù)字閃耀時 " 為題,寫一篇記敘文。

要求:思想健康;內(nèi)容充實、合理,有細節(jié)描寫;語言流暢,書寫清晰。

作為一年一度的 " 整活 " 環(huán)節(jié),大模型之家這次不僅用上了 " 判卷智能體 ",還在今年的挑戰(zhàn)項目里增加了大模型 " 檢索能力 " 與 " 幻覺測試 " 的小問題,更加細化了大模型們 " 考試 " 的內(nèi)容。

這意味著不僅要根據(jù)北京卷的考題內(nèi)容作答,考驗了大模型本身的創(chuàng)作能力,還要考驗大模型是否是 " 一本正經(jīng)地胡說八道 "。

為了增加一些 " 挑戰(zhàn)性 ",大模型之家選擇北京時間的6712:30分進行提問(此時距2025年高考語文科目考試結(jié)束僅一個小時),考驗的就是大模型背后的聯(lián)網(wǎng)搜索功能,能否及時獲取到關(guān)鍵信息,如果沒能獲得信息的時候,大模型的回答會不會產(chǎn)生幻覺。

最終評分,我們還是通過大模型之家特制的 " 批改高考作文智能體 Plus" 進行閱卷,得出一個分數(shù)。同時根據(jù)大模型對于高考作文題的判斷正確給予分數(shù)補正:

正確回答出作文題的年份和地區(qū):+5 分

表示自己不知道(誠實獎):+2 分

沒有回答:0 分

大模型給出錯誤回答:-5 分(幻覺懲罰)

PROMPT:

請回答下面的作文題目是哪一年哪個地方的高考作文題?并根據(jù)下面的題目要求,完成一篇作文。

本屆比賽,大模型之家選取了來自國內(nèi)外 7 家主流的大模型產(chǎn)品,分別是:

百度 - 文心一言(文心 X1 Turbo)

阿里 - 通義千問(Qwen 3)

騰訊 - 元寶(Hunyuan-T1)

字節(jié) - 豆包(深度思考:開)

深度求索 -DeepSeek(DeepSeek-R1)

月之暗面 -Kimi(k1.5)

OpenAI-ChatGPT(GPT-4o)

在測試中,默認優(yōu)先使用自家的深度思考模型(ChatGPT 選擇 GPT-4o),并開啟聯(lián)網(wǎng)能力。

那么這場既比寫作,又拼幻覺的大模型高考作文賽,究竟哪家能再 2025 奪魁呢?(一定要看到最后)

Round 1 檢索能力比拼

令大模型之家感到意外的是,在第一輪的考題來源問答環(huán)節(jié),有 5家大模型能夠準確指出 " 該題來自2025年北京高考作文題",甚至包含本屆比賽唯一的 " 外國選手 "ChatGPT也能準確回答。

DeepSeek選擇了 " 放棄回答 ",未對題目的來源進行回答。

然而,騰訊元寶卻在該環(huán)節(jié) " 翻了車 ",表示該題同時來自2025年北京卷和天津卷高考作文題,并強調(diào) " 天津卷同樣包含該題目作為二選一選項 ",顯然發(fā)生了錯誤。率先拿到了 "-5分 " 的懲罰,與其他對手拉開了10分的差距。

如此 " 出師未捷分先扣 ",不由讓人對元寶最終的比賽結(jié)果捏了把汗。

Round 2 寫作能力比拼

而在第二輪比拼寫作能力的環(huán)節(jié),各家大模型都表現(xiàn)得輕車熟路,不同的模型,雖然從取材到寫作風格各有不同,但在行文方面都已輕車熟路,能夠足夠發(fā)散的去完成文章的撰寫。

各家的文章體裁風格也不盡相同,例如百度文心、阿里通義、ChatGPT通過 " 總分總 " 的結(jié)構(gòu),通過多個生活中的片段,去闡述 " 數(shù)字閃耀時 " 這一主旨,最終進行升華。而元寶、豆包、KimiDeepSeek則更傾向于通過記敘文,講述一個較為完整的故事。

但是出人意料的是,大模型之家發(fā)現(xiàn),百度文心和騰訊元寶這兩位 " 考生 " 竟然可能是 " 一家人 "!文心同學的 " 奶奶 " 和元寶同學的 " 外婆 " 都因罹患疾病入院,甚至連心律、血氧、血壓等數(shù)據(jù)都有些雷同,難免不讓人懷疑……

他們應(yīng)該背了同一本作文選。(笑)

在閱卷環(huán)節(jié),我們同上一年一樣,采用智能體閱卷的方式,并進一步完善了閱卷智能體的功能。我們將所有大模型生成的作文都是由人工手動復制到智能體對話框,保證了判卷的公平性(即智能體并不知道文章的作者)。

智能體給各家大模型寫的高考作文的打分情況如圖:

在這一環(huán)節(jié),騰訊元寶一雪前恥,以 ICU 監(jiān)護儀的數(shù)字變化為線索,串聯(lián)起搶救、康復、告別三個場景,體現(xiàn)數(shù)字作為生命體征載體的意義,并采用 " 危機—轉(zhuǎn)機—釋然 " 的敘事弧線,結(jié)尾以晨光中的數(shù)字收束,暗喻希望永續(xù)。通過完整的敘事與細膩的表達,以 49 分的分數(shù),問鼎所有大模型分數(shù)之首。

下面是其他各家大模型的完整回答,以及判卷智能體點評。 ( 后面還有總分環(huán)節(jié) )

FINAL 總分環(huán)節(jié)

就在騰訊元寶以暫時領(lǐng)先的作文高分沾沾自喜的時候,我們本屆大模型高考作文比拼的總分環(huán)節(jié),終于到來了!

由于各家大模型在作文環(huán)節(jié)分數(shù)十分膠著,導致第一輪的題目來源檢索對于比分的整體影響更大,也讓這次比賽的結(jié)果充滿了" 戲劇性 "

第一輪因為出現(xiàn)了 " 幻覺 ",直接騰訊元寶為自己 " 一本正經(jīng)地胡說八道 " 付出了代價,直接從作文分數(shù)第一名,因為扣分直接在本次比賽中成績墊底。

而緊隨其后的百度文心一言、OpenAI 的 ChatGPT、字節(jié)跳動旗下的豆包 " 坐享其成 ",三家并且拿下了本屆 " 大模型高考作文比拼 " 的并列第一。

DeepSeek 則因為第一輪沒有得分,被后面的通義千問與 Kimi 反超,以第 6 名收官。

可見,大模型在面對開放性任務(wù)時,一旦脫離事實檢索或知識邊界的校驗機制,幻覺問題就會成為其最大的 " 短板 "。幻覺不僅讓模型自信滿滿地輸出錯誤信息,更可能在實際應(yīng)用中引發(fā)嚴重的后果,一次幻覺可能意味著決策失誤,甚至是現(xiàn)實中的損失或傷害。

高分作文背后的幻覺提醒我們,大模型的能力值得贊嘆,但幻覺才是真正需要我們警惕的 " 黑天鵝 "。在大模型高速發(fā)展的今天,我們既要欣賞其能力邊界的不斷擴張,也不能忽視幻覺對行業(yè)應(yīng)用可能造成的系統(tǒng)性沖擊。真正的智能,不只是說得漂亮,還要經(jīng)得起推敲。

而當我們一邊驚嘆于大模型在語言理解、邏輯組織、表達能力上的高速進步時,也更需要警覺這種 " 像真的一樣 " 的錯誤,它正在用更具迷惑性的方式掩蓋模型背后的知識空洞。

最后,大模型之家祝各位考生高考順利,金榜題名!

相關(guān)閱讀

最新評論

沒有更多評論了
主站蜘蛛池模板: 日韩在线小视频 | 久草在线观看首页 | 成人久久久久 | 日本一区午夜爱爱 | 日韩欧美一区二区三区免费观看 | 国产成视频 | 日韩欧美在线观看一区 | 中文字幕日韩欧美一区二区三区 | 免费视频成人国产精品网站 | 亚洲国产精品一区二区九九 | 99热久久国产这里是精品 | 成人午夜免费视频 | 国产日产欧产精品精品推荐小说 | www.午夜| 色在线看 | 日本aaaa片毛片免费 | www.欧美成 | 欧美成人综合在线观看视频 | 波多野结衣aⅴ在线 | 国产一区免费在线观看 | 国产亚洲精品久久综合影院 | 中文字幕波多野不卡一区 | 久久国内精品视频 | 成人爱爱网站在线观看 | 欧美做a一级视频免费观看 欧美做爱毛片 | 免费看三级毛片 | 91精品在线国产 | 国产a∨一区二区三区香蕉小说 | 特黄aaaaaa久久片 | 欧美japanese孕交 | 看免费人成va视频全 | 亚洲 欧美 在线观看 | www成人国产在线观看网站 | 中文字幕水野优香在线网在线 | 青青自拍视频一区二区三区 | 免费观看的毛片手机视频 | 成人小视频在线观看 | 亚洲欧美日本韩国综合在线观看 | 怡红院成人永久免费看 | 欧美一级毛片欧美一级无片 | 欧美在线一级片 |