• 《麻省理工科技評論》:“訊飛星火”是中國“最聰明”的大模型
    來源:安徽商報 責任編輯:陳衛華 分享到 2023-08-18 20:43:37

    國內“千模大戰”下,誰是最聰明的大模型?近日,《麻省理工科技評論》中國最新發布的大模型評測報告給出答案。

    報告顯示,在8個一級大類的600道題目的測試和盲評中,訊飛星火認知大模型V2.0在6個大類中得分率排名第一,在此次評測中表現突出,以 81.5 分(百分制計)的成績在本次評測中登頂,榮獲“最聰明”的國產大模型稱號。

    《麻省理工科技評論》為全球知名科技評論雜志,一直圍繞技術話題輻射和影響整個新興科技圈層,重點關注新興科技的商業化和社會價值?!堵槭±砉た萍荚u論》中國從研發和商業化能力、外界態度以及發展趨勢等維度全方位檢測大模型的能力,力圖評出“最聰明”的國產大模型。

    本次評測選取了“訊飛星火”、“百度文心一言”、“商湯商量”、“阿里通義千問”作為中文大模型平臺的代表,展開系統、科學的評測。

     本次評測使用的測試集包含600道題目,覆蓋了語言專項、數學專項、理科綜合、文科綜合、邏輯思維、編程能力、綜合知識、安全性共 8 個一級大類,126 個二級分類,290 個三級標簽,并針對問題的豐富性和多樣性做了優化。

     在題目類型上,為了兼顧定量、定性的評價與測試,設置了“單選”、“多選”、“填空”、“簡答”4個題型,分別有 145 道、138 道、136 道和 181 道。大模型評測體系使用盲評方式,客觀評估國產大模型的聰明程度。

     作為“最聰明”的大模型的基礎能力,語言專項評測包含對話理解、多語種、諷刺、古詩詞理解、文本生成、要點總結、情感分析、語義判斷等 61 個二級分類,題型則以簡答為主。結果顯示,訊飛星火 85.73%的得分率排名第一,明顯高于平均值。

    值得一提的是,從題型角度來看,主觀簡答題中訊飛星火憑借 83.98% 的得分率位居第一;而在客觀題上,訊飛星火以 75.7% 的得分率排名第一,在主客觀題型中均有良好表現。

    在剛剛過去的8月15日,訊飛星火認知大模型V2.0如期發布,進一步突破代碼能力和多模態能力。

    8月12日,新華社研究院中國企業發展研究中心發布的《人工智能大模型體驗報告2.0》中,訊飛星火V1.5以總分1013分位列本次國產主流大模型測評榜首位,在四大評測維度中的智商指數和工具提效指數兩個維度獲得第一,《報告》認為訊飛星火“在工作提效方面優勢明顯”。

    (安徽商報融媒體記者 梁?。?/p>

    聲明:
    凡本報記者署名文字、圖片,版權均屬安徽商報、安徽商報合肥網所有。任何媒體、網站或個人,未經授權不得轉載、鏈接、轉貼或以其他方式復制發表;已授權的媒體、網站,在使用時必須注明 “來源:安徽商報或安徽商報合肥網”,違者將依法追究法律責任。
    成熟熟女国产精品一区二区_超碰在线中文字幕_中文字幕亚洲无码在线观看_一级欧美一级日韩片_亚洲色偷偷偷网站色偷一区_亚洲成l人在线观看线路