國內“千模大戰”下,誰是最聰明的大模型?近日,《麻省理工科技評論》中國最新發布的大模型評測報告給出答案。
報告顯示,在8個一級大類的600道題目的測試和盲評中,訊飛星火認知大模型V2.0在6個大類中得分率排名第一,在此次評測中表現突出,以 81.5 分(百分制計)的成績在本次評測中登頂,榮獲“最聰明”的國產大模型稱號。
《麻省理工科技評論》為全球知名科技評論雜志,一直圍繞技術話題輻射和影響整個新興科技圈層,重點關注新興科技的商業化和社會價值?!堵槭±砉た萍荚u論》中國從研發和商業化能力、外界態度以及發展趨勢等維度全方位檢測大模型的能力,力圖評出“最聰明”的國產大模型。
本次評測選取了“訊飛星火”、“百度文心一言”、“商湯商量”、“阿里通義千問”作為中文大模型平臺的代表,展開系統、科學的評測。
本次評測使用的測試集包含600道題目,覆蓋了語言專項、數學專項、理科綜合、文科綜合、邏輯思維、編程能力、綜合知識、安全性共 8 個一級大類,126 個二級分類,290 個三級標簽,并針對問題的豐富性和多樣性做了優化。
在題目類型上,為了兼顧定量、定性的評價與測試,設置了“單選”、“多選”、“填空”、“簡答”4個題型,分別有 145 道、138 道、136 道和 181 道。大模型評測體系使用盲評方式,客觀評估國產大模型的聰明程度。
作為“最聰明”的大模型的基礎能力,語言專項評測包含對話理解、多語種、諷刺、古詩詞理解、文本生成、要點總結、情感分析、語義判斷等 61 個二級分類,題型則以簡答為主。結果顯示,訊飛星火 85.73%的得分率排名第一,明顯高于平均值。
值得一提的是,從題型角度來看,主觀簡答題中訊飛星火憑借 83.98% 的得分率位居第一;而在客觀題上,訊飛星火以 75.7% 的得分率排名第一,在主客觀題型中均有良好表現。
在剛剛過去的8月15日,訊飛星火認知大模型V2.0如期發布,進一步突破代碼能力和多模態能力。
8月12日,新華社研究院中國企業發展研究中心發布的《人工智能大模型體驗報告2.0》中,訊飛星火V1.5以總分1013分位列本次國產主流大模型測評榜首位,在四大評測維度中的智商指數和工具提效指數兩個維度獲得第一,《報告》認為訊飛星火“在工作提效方面優勢明顯”。
(安徽商報融媒體記者 梁?。?/p>