《麻省理工科技評論》：“訊飛星火”是中國“最聰明”的大模型-合肥網

當前位置：安徽商報 > 江淮24H

《麻省理工科技評論》：“訊飛星火”是中國“最聰明”的大模型

來源：安徽商報責任編輯：陳衛華分享到 2023-08-18 20:43:37

國內“千模大戰”下，誰是最聰明的大模型？近日，《麻省理工科技評論》中國最新發布的大模型評測報告給出答案。

報告顯示，在8個一級大類的600道題目的測試和盲評中，訊飛星火認知大模型V2.0在6個大類中得分率排名第一，在此次評測中表現突出，以 81.5 分（百分制計）的成績在本次評測中登頂，榮獲“最聰明”的國產大模型稱號。

《麻省理工科技評論》為全球知名科技評論雜志，一直圍繞技術話題輻射和影響整個新興科技圈層，重點關注新興科技的商業化和社會價值?！堵槭±砉た萍荚u論》中國從研發和商業化能力、外界態度以及發展趨勢等維度全方位檢測大模型的能力，力圖評出“最聰明”的國產大模型。

本次評測選取了“訊飛星火”、“百度文心一言”、“商湯商量”、“阿里通義千問”作為中文大模型平臺的代表，展開系統、科學的評測。

本次評測使用的測試集包含600道題目，覆蓋了語言專項、數學專項、理科綜合、文科綜合、邏輯思維、編程能力、綜合知識、安全性共 8 個一級大類，126 個二級分類，290 個三級標簽，并針對問題的豐富性和多樣性做了優化。

在題目類型上，為了兼顧定量、定性的評價與測試，設置了“單選”、“多選”、“填空”、“簡答”4個題型，分別有 145 道、138 道、136 道和 181 道。大模型評測體系使用盲評方式，客觀評估國產大模型的聰明程度。

作為“最聰明”的大模型的基礎能力，語言專項評測包含對話理解、多語種、諷刺、古詩詞理解、文本生成、要點總結、情感分析、語義判斷等 61 個二級分類，題型則以簡答為主。結果顯示，訊飛星火 85.73%的得分率排名第一，明顯高于平均值。

值得一提的是，從題型角度來看，主觀簡答題中訊飛星火憑借 83.98% 的得分率位居第一；而在客觀題上，訊飛星火以 75.7% 的得分率排名第一，在主客觀題型中均有良好表現。

在剛剛過去的8月15日，訊飛星火認知大模型V2.0如期發布，進一步突破代碼能力和多模態能力。

8月12日，新華社研究院中國企業發展研究中心發布的《人工智能大模型體驗報告2.0》中，訊飛星火V1.5以總分1013分位列本次國產主流大模型測評榜首位，在四大評測維度中的智商指數和工具提效指數兩個維度獲得第一，《報告》認為訊飛星火“在工作提效方面優勢明顯”。

（安徽商報融媒體記者梁?。?/p>

江淮24H

G3銅陵長江公鐵大橋北主塔順利封頂

合肥57名環衛工子女準大學生喜領助學金

10對新人，禮成！合肥這場集體婚禮超甜

商議院

商議院 | “瘋狂小楊哥”們被點名，...

商議院 | 時代如斯不必眷念

商議院 |為合燃華潤連夜整改點個贊

橙周刊

【本期策劃】秋聲

【橙筆記】青蝦且作席上珍

【橙筆記】在山中

聲明：

凡本報記者署名文字、圖片，版權均屬安徽商報、安徽商報合肥網所有。任何媒體、網站或個人，未經授權不得轉載、鏈接、轉貼或以其他方式復制發表；已授權的媒體、網站，在使用時必須注明 “來源：安徽商報或安徽商報合肥網”，違者將依法追究法律責任。

《麻省理工科技評論》：“訊飛星火”是中國“最聰明”的大模型

安徽商報

陳衛華

2023-08-18 20:43:37

國內“千模大戰”下，誰是最聰明的大模型？近日，《麻省理工科技評論》中國最新發布的大模型評測報告給出答案。

報告顯示，在8個一級大類的600道題目的測試和盲評中，訊飛星火認知大模型V2.0在6個大類中得分率排名第一，在此次評測中表現突出，以 81.5 分（百分制計）的成績在本次評測中登頂，榮獲“最聰明”的國產大模型稱號。

《麻省理工科技評論》為全球知名科技評論雜志，一直圍繞技術話題輻射和影響整個新興科技圈層，重點關注新興科技的商業化和社會價值?！堵槭±砉た萍荚u論》中國從研發和商業化能力、外界態度以及發展趨勢等維度全方位檢測大模型的能力，力圖評出“最聰明”的國產大模型。

本次評測選取了“訊飛星火”、“百度文心一言”、“商湯商量”、“阿里通義千問”作為中文大模型平臺的代表，展開系統、科學的評測。

本次評測使用的測試集包含600道題目，覆蓋了語言專項、數學專項、理科綜合、文科綜合、邏輯思維、編程能力、綜合知識、安全性共 8 個一級大類，126 個二級分類，290 個三級標簽，并針對問題的豐富性和多樣性做了優化。

在題目類型上，為了兼顧定量、定性的評價與測試，設置了“單選”、“多選”、“填空”、“簡答”4個題型，分別有 145 道、138 道、136 道和 181 道。大模型評測體系使用盲評方式，客觀評估國產大模型的聰明程度。

作為“最聰明”的大模型的基礎能力，語言專項評測包含對話理解、多語種、諷刺、古詩詞理解、文本生成、要點總結、情感分析、語義判斷等 61 個二級分類，題型則以簡答為主。結果顯示，訊飛星火 85.73%的得分率排名第一，明顯高于平均值。

值得一提的是，從題型角度來看，主觀簡答題中訊飛星火憑借 83.98% 的得分率位居第一；而在客觀題上，訊飛星火以 75.7% 的得分率排名第一，在主客觀題型中均有良好表現。

在剛剛過去的8月15日，訊飛星火認知大模型V2.0如期發布，進一步突破代碼能力和多模態能力。

8月12日，新華社研究院中國企業發展研究中心發布的《人工智能大模型體驗報告2.0》中，訊飛星火V1.5以總分1013分位列本次國產主流大模型測評榜首位，在四大評測維度中的智商指數和工具提效指數兩個維度獲得第一，《報告》認為訊飛星火“在工作提效方面優勢明顯”。

（安徽商報融媒體記者梁?。?/p>

國內“千模大戰”下，誰是最聰明的大模型？近日，《麻省理工科技評論》中國最新發布的大模型評測報告給出答案。

成熟熟女国产精品一区二区_超碰在线中文字幕_中文字幕亚洲无码在线观看_一级欧美一级日韩片_亚洲色偷偷偷网站色偷一区_亚洲成l人在线观看线路