五大國產大模型寫高考作文,訊飛星火完勝
按照高考打分標準來打分,國產大模型誰的作文寫的好?
一年一度的高考再次登上熱搜,去年高考,ChatGPT以及國產大模型首發團隊文心一言、訊飛星火、阿里通義千問等掀起大模型寫作文的大混戰,有的號稱滿分,有的被批零分,有的文采有余情感不足……經過一年的時間這些大模型能力是否有大幅提升?恰好今年的高考題目就與人工智能有關,我們來看看誰家“孩子”能拿下高分?我們評測了國內知名的五家大模型產品:百度文心一言、科大訊飛星火、Kimi、騰訊元寶、阿里通義千問。
先說結論:訊飛星火,完勝。Kimi只是給了一個稿件提綱,其他則陷入了題干中關于“問題”的陷阱中。
新課標Ⅰ卷作文題目:
隨著互聯網的普及、人工智能的應用,越來越多的問題能很快得到答案。那么,我們的問題是否會越來越少?
以上材料引發了你怎樣的聯想和思考?請寫一篇文章。
要求:選準角度,確定立意,明確文體,自擬標題;不要套作,不得抄襲;不得泄露個人信息;不少于800字。
訊飛星火
文心一言
騰訊元寶
KIMI
通義千問
我們再看一遍這道作文題:
隨著互聯網的普及、人工智能的應用,越來越多的問題能很快得到答案。那么,我們的問題是否會越來越少?
以上材料引發了你怎樣的聯想和思考?請寫一篇文章。
這道題的題眼是“問題”二字,閱讀材料里“問題”出現了兩次,這兩個“問題”其實是不同的內涵,根據新華詞典的解釋,第一個“問題”對應著“答案”,是“要求回答或解釋的題目”的意思,而第二個“問題”是“需要研究并加以解決的矛盾、疑難”的意思,可以說第一個“問題”是狹義的,第二個“問題”是廣義的,類似英文中question和problem的不同。
文心一言、騰訊元寶、通義千問、Kimi都掉進了第一個“問題”的陷阱,一直在重復關于好奇、求知、解答、知識這些淺層話題,而訊飛星火明顯分辨出了兩個“問題”的不同含義,在文章中段就將討論范圍從狹義的需要個體解答的“小問題”延伸到了廣義的人類社會共同面對的“大問題”。
這體現的不是簡單的“考試狀態”,其背后充分體現了星火大模型在語言理解這一大模型核心能力上的領先。
為了能更好打分,我們按照全國高考作文評分標準對幾篇文章做詳細分析
文心一言:
基礎等級方面,文章始終沒有對互聯網和人工智能對解決問題和產生問題的核心做出解讀,明顯偏離題意。結構方面,盡管有“首先……其次……再者……綜上所述”這樣看似嚴謹的結構支撐,但段落和段落之間,段落和結論之間,關系并不緊密。
發展等級方面,文心一言分別引用了愛因斯坦、牛頓的名言和一句古詩,一如既往的“掉書袋”看似有創意、有文采,但仔細看來,其內在邏輯其實比較混亂,比如這一段:
牛頓的話是關于科學傳承,對這名言的引用顯然有“驢唇不對馬嘴”的感覺。
總體打分:35分
科大訊飛
基礎等級方面,開篇點題,中段在“個體體驗、信息爆炸、人工智能道德倫理”三個方面分析問題,結尾回歸“人類的智慧、勇氣和決心”升華價值,內容和表達無懈可擊。
發展等級方面,深刻與豐富做得很好,文采和創意有所欠缺,星火是唯一一個通篇沒有引用名人名言的“考生”,像是個嚴謹的理科生。
總體打分:55分
騰訊元寶
對題目的理解更加狹隘,感覺通篇一直在重復一種觀點“問題是個好東西”,這是大模型語言理解能力欠佳的表現。每一句話都自然流暢,名言引用也比較恰當,但所有句子湊在一起產生了一種“廢話連篇”的感覺,這是大模型文本生成能力欠佳的表現。畢竟騰訊元寶在5月底剛剛發布,也許不能要求太高。
總體打分:32
Kimi
作為以長文本著稱的大模型,高考作文理應是Kimi大顯身手的機會,但結果卻令筆者有些意外,Kimi輸出的文章在內容上并無特別之處,最大的區別是它給每一段加上了小標題,沒展示出長文本理解和生成的核心能力,卻有類似“標題黨”的小伎倆?不得不感慨:“Kimi真是個小機靈鬼。”
總體打分:42
通義千問
去年的高考作文AI寫作中,通義千問飽受詬病,被批“空洞沒營養”,今年的通義千問有明顯進步。通義千問的優點跟訊飛星火一樣,具備語言理解和文本表達的廣度和深度,缺點跟文心一樣,錯誤引用名人名言刻意展示文采,可謂集眾家所長,及所短。
總體打分:49
Chatgpt 問世以來,“寫文章”成為人工智能大模型產品展示能力的普遍手段,高考作文有著嚴格明確的要求,以及相對嚴謹科學的評分標準,無疑是最佳的試金石。通過本次評測明顯看出,訊飛星火大模型在語言理解和文本表達上的表現更勝一籌,拿高分實至名歸,你們覺得呢?當然各位也可以打開手機或者電腦試試看,如高考作文題目所言,隨著互聯網的普及、人工智能的應用,這個問題能很快得到答案。
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
