国产成人久久精品二三区无码_二级韩国片完整版日韩电影_国产精品国语自产拍在线观看_亚洲精品中文字幕无码视频_台湾果冻传媒在线观看_99久久国产成人这里只有精品_欧美日韩国产综合视频一区二区二_人妻仑乱a级毛片免费看_国内精品第1页

原文来源：Tech星球

作者：贾宁宇

图片来源：由无界 AI生成

自12月1日阿里云宣布开源，通义千问72B大模型就开启了“屠榜”模式，接连问鼎多个权威排行榜。今天，通义千问又摘得一重要榜单冠军。

12月12日，中国权威的大模型评测平台OpenCompass日前更新了榜单，阿里云通义千问登上开源基座大模型榜首，并在中文数据集评测中包揽前二。

图注：通义千问72B登顶OpenCompass基座大模型榜。

OpenCompass是上海人工智能实验室开源的大模型评测平台，Qwen、LLaMA2等开源模型及GPT-4、ChatGPT等主流模型均参与评测，可全面评估大模型能力，是业界公认最权威的中文能力评测榜单之一。

通义千问72B开源模型（Qwen-72B），以67.1的综合得分夺得OpenCompass基座大模型榜单冠军，并在学科能力、理解能力两大维度评测中超越标杆GPT-4，创下开源大模型的新纪录。

而在OpenCompass中文数据集评测中，通义千问72B基座大模型和对话大模型（Qwen-72B-Chat）包揽前二，与其他模型拉开差距。

图注：通义千问72B基座大模型及对话大模型包揽中文数据集测试前二。

登顶HuggingFace榜单，刷新国产大模型纪录

就在几天前，通义千问力压Llama2等国内外开源大模型，登顶全球最大的开源大模型社区HuggingFace最新的开源大模型排行榜。

HuggingFace是全球最具影响力的AI开源社区，其开源大模型排行榜（Open LLM Leaderboard）被认为是最具公信力的专业榜单，收录了Qwen系列、LLaMA2等全球上百个开源大模型。

开源的通义千问（Qwen-72B）表现抢眼，以73.6的综合得分在所有预训练模型中排名第一。刷新了中国大模型在HuggingFace榜单上的纪录。

图注：通义千问72B登顶HuggingFace排行榜。

性能最强开源大模型，超越标杆LLaMA2

通义千问72B已成为国内外公认的性能最强的开源大模型，完全可满足企业级、科研级应用对大模型性能的高要求。

此前，在宣布开源的12月1日，Qwen-72B就在10个权威基准测评中夺得开源模型最优成绩，超越LLaMA2-70B，并在部分测评中超越闭源的GPT-3.5和GPT-4。

图注：通义千问720亿开源模型部分成绩超越闭源的GPT-3.5和GPT-4。

具体来看，在英语任务上，Qwen-72B在MMLU基准测试取得开源模型最高分；中文任务上，Qwen-72B霸榜C-Eval、CMMLU、GaokaoBench等基准，得分超越GPT-4；数学推理方面，Qwen-72B在GSM8K、MATH测评中断层式领先其他开源模型；代码理解方面，Qwen-72B在HumanEval、MBPP等测评中的表现大幅提升，代码能力有了质的飞跃。

将开源进行到底

据了解，阿里云已开源通义千问18亿、70亿、140亿、720亿参数的4款大语言模型，以及视觉理解Qwen-VL、音频理解Qwen-Audio的 2款多模态大模型，引领“全尺寸、全模态”开源之先。

截至目前，通义千问开源模型系列总下载量超150万，并涌现出150余款新模型和新应用。

阿里云CTO周靖人曾表示，开源生态对促进中国大模型的技术进步与应用落地至关重要，通义千问将持续投入开源，希望成为“AI时代最开放的大模型”，与伙伴们共同促进大模型生态建设。

开发者可在阿里云魔搭社区直接体验系列模型效果，也可通过阿里云灵积平台调用模型API，或基于阿里云百炼平台定制大模型应用；阿里云人工智能平台PAI还针对通义千问全系列模型进行深度适配，推出轻量级微调、全参数微调、分布式训练、离线推理验证、在线服务部署等服务。

编辑：web3528btc 来源：加密钱包代币

« 2024年 » « 11月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

全球资讯热分享网(专注热点收集平台)

refenxiang.com

开源仅12天，通义千问包揽多个大模型权威评测冠军

开源仅12天，通义千问包揽多个大模型权威评测冠军

登顶HuggingFace榜单，刷新国产大模型纪录

性能最强开源大模型，超越标杆LLaMA2

将开源进行到底

分享知识|收获智慧

行业分类

最新资讯

随机资讯