本报讯 (记者沈湫莎)商汤科技克日宣告了自研中口语语大模子“商量SenseChat 2.0”在MMLU、商量AGIEval、商汤C-Eval三个威信狂语言模子评测基准的大模多下场。评测展现,评测“商量”在这三个测试会集的展现展现均争先ChatGPT ,实现为了我国语言大模子钻研的商量突破。
全天下三大威信语言模子测评基准分说为由美国加州大学伯克利分校等高校构建的商汤多使命魔难评测集MMLU 、由微软钻研院推出的大模多学科魔难评测集AGIEval(含中国高考 、法律魔难及美国SAT 、评测LSAT 、展现GRE以及GMAT等) ,商量以及由上海交通大学 、商汤清华大学以及英国爱丁堡大学相助构建的大模多面向中口语语模子的综合性魔难评测集C-Eval 。
妨碍6月 ,评测全天下规模内正式宣告的展现狂语言模子已经逾越40款,其中由中国厂商 、高校、科研院所等宣告的狂语言模子近20款。在MMLU测评中,“商量2.0”综合患上分为68.6,超ChatGPT(67.3分) ,仅落伍于GPT-4(86.4分)位居第二;在AGIEval测评中,“商量2.0”患上分49.9分,超ChatGPT(42.9分) ,仅次于GPT-4的56.4分 。在C-Eval测评中,“商量2.0”患上分66.1分 ,在参评的18个大模子中,仅次于GPT-4(68.7分) 。
4月,商汤宣告“日日新”大模子系统以及中口语语大模子“商量” 。当初 ,“商量”已经在泛滥行业以及场景中落地运用,已经有近千家企业客户经由恳求,运用以及体验“商量2.0”的长文本清晰、逻辑推理、多轮对于话 、激情合成、内容创作、代码天生等综合能耐。在效率客户历程中 ,“商量2.0”不断迭代以及提升 ,并实现知识的实时更新。