當前動態:商湯大模型多個評測表現超ChatGPT
時間:2023-06-23 11:41:48
(相關資料圖)
本報訊 (記者沈湫莎)商湯科技近日公布了自研中文語言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三個權威大語言模型評測基準的成績。評測顯示,“商量”在這三個測試集中的表現均領先ChatGPT,實現了我國語言大模型研究的突破。 全球三大權威語言模型測評基準分別為由美國加州大學伯克利分校等高校構建的多任務考試評測集MMLU、由微軟研究院推出的學科考試評測集AGIEval(含中國高考、司法考試及美國SAT、LSAT、GRE和GMAT等),以及由上海交通大學、清華大學和英國愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集C-Eval。 截至6月,全球范圍內正式發布的大語言模型已超過40款,其中由中國廠商、高校、科研院所等發布的大語言模型近20款。在MMLU測評中,“商量2.0”綜合得分為68.6,超ChatGPT(67.3分),僅落后于GPT-4(86.4分)位居第二;在AGIEval測評中,“商量2.0”得分49.9分,超ChatGPT(42.9分),僅次于GPT-4的56.4分。在C-Eval測評中,“商量2.0”得分66.1分,在參評的18個大模型中,僅次于GPT-4(68.7分)。 4月,商湯發布“日日新”大模型體系以及中文語言大模型“商量”。目前,“商量”已在眾多行業和場景中落地應用,已有近千家企業客戶通過申請,應用和體驗“商量2.0”的長文本理解、邏輯推理、多輪對話、情感分析、內容創作、代碼生成等綜合能力。在服務客戶過程中,“商量2.0”持續迭代和提升,并實現知識的實時更新。
(原標題:商湯大模型“商量”多個評測表現超ChatGPT)
相關稿件
當前快報:盤點奇異博士10大敵人,洛基排第5,多瑪姆沒排上前3
每日觀察!我國累計招收博士后約34萬人 已設立博士后科研工作站4338個
天天快資訊丨賈乃亮帶女兒逛街被偶遇 10歲甜馨身高猛竄已到爸爸肩膀
全球視點!3-6,4-6!張帥連丟兩盤不敵世界第150,慘遭巡回賽10連敗
環球短訊!新青年|90次火箭燃料加注,這個“90后”的青春真的很“燃”!
過氧化鈉為什么不是堿性氧化物(過氧化鈉為什么不是堿性氧化物?)
華旺科技(605377)7.3萬股限售股將于6月23日解禁上市,占總股本0.02%|觀速訊
股價跌停!實控人前妻減持套現 昆侖萬維資本市場“瀉火” 環球熱訊
【聚看點】邵陽市腦科醫院臨床第二黨支部開展“端午艾草香,濃濃醫患情”主題黨日活動


