中文通用大模型評測基準SuperCLUE發(fā)布：訊飛星火認知大模型國內(nèi)第一文心一言墊底

日期：2023-05-09 來源：快科技作者：隨心瀏覽：81 違規(guī)舉報

快科技5月9日消息,，中文通用大模型綜合性評測基準SuperCLUE正式發(fā)布。

中文通用大模型基準（SuperCLUE）,，是針對中文可用的通用大模型的一個測評基準,，它嘗試在一系列國內(nèi)外代表性的模型上使用多個維度能力進行測試。

它主要回答的問題是：在當前通用大模型大力發(fā)展的情況下,，中文大模型的效果情況,。包括但不限于：這些模型不同任務(wù)的效果情況、相較于國際上的代表性模型做到了什么程度,、這些模型與人類的效果對比如何,？

根據(jù)首個榜單顯示，國內(nèi)大模型中,，近期發(fā)布的星火認知大模型最好,，總分53.58分,，與GPT-4相比有23個百分點的差距，與gpt-3.5-turbo在總分上有13個百分點的差距,。

值得一提的是,，訊飛星火認知大模型在對話、百科知識,、角色模擬,、計算能力、語義理解,、邏輯推理方面,，已經(jīng)達到GPT 3.5平齊的水準。

在語義理解方面,，訊飛星火認知大模型甚至得到100分的滿分,，超過GPT-4。

而百度文心一言在總榜單中排名最后一名,，得分32.61分,。

據(jù)了解，SuperCLUE評測榜單由三部分組成：總榜單,、基礎(chǔ)能力榜單、中文特性榜單,，排行榜會定期更新,，可點此訪問.

基礎(chǔ)能力：包括了常見的有代表性的模型能力，如語義理解,、對話,、邏輯推理、角色模擬,、代碼,、生成與創(chuàng)作等10項能力。

專業(yè)能力：包括了中學,、大學與專業(yè)考試,，涵蓋了從數(shù)學、物理,、地理到社會科學等50多項能力,。

中文特性能力：針對有中文特點的任務(wù)，包括了中文成語,、詩歌,、文學、字形等10項多種能力,。

總榜單

基礎(chǔ)能力榜單

中文特性榜單

免責聲明：
1,、本站所收集的部分公開資料來源于互聯(lián)網(wǎng),，轉(zhuǎn)載的目的在于傳遞更多信息及用于網(wǎng)絡(luò)分享，并不代表本站贊同其觀點和對其真實性負責,，也不構(gòu)成任何其他建議,。
2、本站部分作品內(nèi)容是由網(wǎng)友自主投稿和發(fā)布,、編輯整理上傳,，對此類內(nèi)容本站僅提供交流平臺，不為其版權(quán)負責,，更不為其觀點承擔任何責任,。
3、因行業(yè)及專業(yè)性有限,，故未能核驗會員發(fā)布內(nèi)容的真實性及有效性,，不為其負責，如有虛假或違規(guī)內(nèi)容敬請準備材料圖片發(fā)郵件到info@n#舉報,，本站核實后積極配合刪除,。
4、如果您發(fā)現(xiàn)網(wǎng)站上有侵犯您的知識產(chǎn)權(quán)的作品,，請與我們?nèi)〉寐?lián)系,，我們會及時處理或刪除。

標簽： 模型第一包括基礎(chǔ) 專業(yè) 大學

更多>同類資訊文章

0 條相關(guān)評論

推薦圖文

第八屆中國國際管道會	全國三八紅旗手｜張
追求卓越· 邁向第一	年薪超47萬 15年不用
汽車配件生意怎么做（	武漢一女子懷孕后遭公
賽凡回應(yīng)《流浪地球2	百度：文心一言發(fā)布首

推薦資訊文章

• 00后用DeepSeek日賣3.3億元”,？	• AI聚合平臺 Cherry Studio 超詳細介紹
• 最具顛覆性技術(shù) 馬斯克再次警告：AI有可能給人	• 李想稱自己微博是理想Mind GPT大模型生成：擅長
• 7000多個小組說關(guān)就關(guān) 美國貼吧的用戶這次徹底	• 印度也要自研AI技術(shù) OpenAI直接潑冰水：完全沒
• ChatGPT大更新,！API新增殺手級能力還降價：新模	• 三天漲超20%,！富士康最新發(fā)聲今年已漲150%
• 自研千億參數(shù)！360智腦獲工信部信通院認證：國	• 大模型三大能力超越ChatGPT 千億AI巨頭科大訊飛

中文通用大模型評測基準SuperCLUE發(fā)布：訊飛星火認知大模型國內(nèi)第一 文心一言墊底

中文通用大模型評測基準SuperCLUE發(fā)布：訊飛星火認知大模型國內(nèi)第一文心一言墊底