快科技5月9日消息,,中文通用大模型綜合性評測基準SuperCLUE正式發(fā)布。
中文通用大模型基準(SuperCLUE),,是針對中文可用的通用大模型的一個測評基準,,它嘗試在一系列國內(nèi)外代表性的模型上使用多個維度能力進行測試。
它主要回答的問題是:在當前通用大模型大力發(fā)展的情況下,,中文大模型的效果情況,。包括但不限于:這些模型不同任務(wù)的效果情況、相較于國際上的代表性模型做到了什么程度,、 這些模型與人類的效果對比如何,?
根據(jù)首個榜單顯示,國內(nèi)大模型中,,近期發(fā)布的星火認知大模型最好,,總分53.58分,,與GPT-4相比有23個百分點的差距,與gpt-3.5-turbo在總分上有13個百分點的差距,。
值得一提的是,,訊飛星火認知大模型在對話、百科知識,、角色模擬,、計算能力、語義理解,、邏輯推理方面,,已經(jīng)達到GPT 3.5平齊的水準。
在語義理解方面,,訊飛星火認知大模型甚至得到100分的滿分,,超過GPT-4。
而百度文心一言在總榜單中排名最后一名,,得分32.61分,。
據(jù)了解,SuperCLUE評測榜單由三部分組成:總榜單,、基礎(chǔ)能力榜單、中文特性榜單,,排行榜會定期更新,,可點此訪問.
基礎(chǔ)能力:包括了常見的有代表性的模型能力,如語義理解,、對話,、邏輯推理、角色模擬,、代碼,、生成與創(chuàng)作等10項能力。
專業(yè)能力:包括了中學,、大學與專業(yè)考試,,涵蓋了從數(shù)學、物理,、地理到社會科學等50多項能力,。
中文特性能力:針對有中文特點的任務(wù),包括了中文成語,、詩歌,、文學、字形等10項多種能力,。