跑分没输过,体验没赢过,大模型刷分何时休?_全球资讯热分享网(专注热点收集平台)

跑分没输过,体验没赢过,大模型刷分何时休?


跑分没输过,体验没赢过,大模型刷分何时休?

  2023-12-25 10:23:25     简体|繁體
http://refenxiang.com/1025036.html

作者:一号

编辑:美美

图片来源:由无界 AI生成

从手机到大模型,国内产品为啥都这么热衷跑分?

IDCAI大模型技术能力评估,12项指标,7项满分,文心大模型3.5“大满贯”;360智脑在SuperCLUE评测中多项能力位列国产大模型第一,某些方面甚至跑赢了GPT-4;夸克大模型在C-Eval和CMMLU两大权威评测榜单中名列第一,显示出其在写作、考试等部分场景中甚至优于GPT-4......

今年以来,国产AI大模型发展趋势之迅猛,不得不让人感慨。截至目前,国产大模型数量已经超过了200个,而且,这些大模型纷纷表现不俗,从百度文心一言到阿里巴巴的夸克大模型,国产AI在各类评测榜单上的表现引人注目。有人对此评价,“跑分没输过,体验没赢过”。

这种似曾相识的“跑分”现象,不禁让人想到手机市场里类似的做法。这种在评测中名列前茅、表现出色,但实际用户体验一言难尽的情况,究竟意味着什么?


为何跑分与体验不符?


回顾手机市场,“跑分没输过,体验没赢过”这句话最开始就是从手机圈中兴起的,各大厂商通过不断叠加定语,来让自己获得第一;还有的手机会自动识别跑分软件,针对性地开启性能模式,让自己的跑分数据好看些,从而实现“作弊”。用户买到跑分高的手机后,实际体验并不是那么回事。

而在AI大模型领域,评估标准则相对公平,并且是同意的,其中包括MMLU(用于衡量多任务语言理解能力)、Big-Bench(用于量化和外推LLMs的能力),以及AGIEval(用于评估人类级任务的能力)。


目前国内厂商经常饮用的榜单就是SuperCLUE、CMMLU和C-Eval,其中C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,CMMLU则是MBZUAI、上海交通大学、微软亚洲研究院共同推出,至于SuperCLUE,则是由各大高校的AI专业人士设立的。

尽管大模型的评测标准相对公平,但其仍有一定的局限性,实际的测评之中总会出现问题,其中一个最大的问题就是“考题泄露”。

大模型评测的一个主要方法就是做题。为了让评测相对透明公开,避免暗箱操作,评测机构通常会将评测的方法、标准甚至是题库对外公开。例如C-Eval榜单在上线之初就有13948道题目,由于题库有限,并且更新频率不是特别高,这就给了一些大模型刷题“钻空子”的机会。

我们都知道,如果在考试之前知道会考哪些题目,那考生完全可以做针对性的学习,大模型也一样,并且大模型最擅长的就是记忆。在评测之前,把题库直接加入大模型的训练集,训练之后的大模型就能在评测中表现得比实际能力更好,甚至跑出一些夸张的成绩,例如1.3B的模型在某些任务上超越了10倍体量的大模型。

那么这样的评测结果,跟实际体验一定会很不相符。


为何热衷于跑分?


无论是国产手机厂商还是AI大模型公司,他们对跑分的热衷,本质上是一种营销策略。跑分成绩容易被量化、对比,因此成为了向公众展示技术实力的便捷手段。这种做法在短期内可能会吸引消费者和投资者的注意,但它也可能引起误导,使人们过分关注理论性能,而忽视了实际应用中的体验和效能。

这种营销策略的问题在于,它可能导致公司本末倒置,过分投入于提高特定测试的分数,而非真正的技术创新。在手机行业,这可能意味着优化设备性能以提升特定跑分软件的测试成绩;在AI领域,则可能表现为优化模型以应对评测榜单的特定题目。这种做法虽然能在短期内提高产品在评测榜单上的排名,但却可能忽视了产品在真实使用环境中的性能和用户体验。

这种以跑分为核心的营销策略需要被重新审视。尽管高分成绩在营销中具有吸引力,但它们并不总是反映产品的真实价值。对于消费者而言,理论上的高性能与日常使用中的实际体验之间往往存在差距。因此,无论是手机行业还是AI领域,公众和行业都应该更加关注产品在真实世界中的表现。


要放弃跑分吗?


从隋唐的科举到今天的高考,从国内的四六级到国外的托福雅思,考试在时间和空间的维度上,都是一种相对公平的衡量机制。因此,大模型评测作为大模型的“考试”,同样不能被轻易抛弃。

倘若评测相对准确、靠谱、权威,那么对于所有的大模型公司来说都是好事。研发者可以通过评测结果了解自家大模型的优缺点,查漏补缺,找到正确的方向钻研算法、提升技术、加强训练,不断攻克,进行优化迭代,从而让产品更具有竞争力。

对于AI大模型开发者而言,榜单的排名不应该成为最终目的,真正的挑战在于如何将先进的技术转化为实际应用中的有效工具,这不仅仅是一场分数的竞赛,更是对技术创新和实用性的追求。我们期待一个更加全面和科学的评测体系的出现,这不仅能正确评估AI模型的实际能力,还能促进整个行业向着更加健康、理性的方向发展。



编辑:美美

分享到:

  • 上一篇
    下一篇

  • 分享知识|收获智慧

    全球资讯热分享网(专注热点收集平台)
    手机查看(二维码扫一扫)

    全球资讯热分享网,最有影响力热点信息分类网站,主要集合图文、知识、日常、娱乐、财经、文化、生活、致富、女性、地区、科技等多类信息分享交流,免费提供最有价值的头条信息平台。
    « 2024年 » « 06月 »
    12
    3456789
    10111213141516
    17181920212223
    24252627282930

    最新资讯

    [开户]中医养生、骨病、羊奶粉、石斛、足浴包、血压贴,降糖贴等开户运营,量大,寻实力甲方
  • 2024-06-26 22:09:54

     

    [开户]快手头条,网店培训,网店代运营,中医培训,养生培训,家居建材,教育,个债,欢迎来咨询
  • 2024-06-26 22:04:49

     

    [开户]抖音直播间减肥,祛斑成交单
  • 2024-06-26 21:59:44

     

    [开户]OPPO中医养生量,自己户和量,随时可以切,需要的来
  • 2024-06-26 21:54:40

     

    [开户]磁力金牛余额账号
  • 2024-06-26 21:49:36

     

    强生宣布泰立珂在华获批,为治疗复发或难治性多发性骨髓瘤患者带来新选择
  • 2024-06-26 21:44:31

     

    200万养老年金险值得购买吗?附带优质保险产品
  • 2024-06-26 21:39:27

     

    医保外医疗费用责任险是什么意思?有什么区别?
  • 2024-06-26 21:34:23

     

    [开户]贷款、减肥、养生、食疗课、知识付费、旅游、电商、备孕、不孕不育、防水、流量卡推广服务
  • 2024-06-26 21:29:18

     

    [开户]有健康商城户 超高点收量
  • 2024-06-26 21:24:14

     

    [开户]头条本地推高政策开户,无企业店开户,线索加白
  • 2024-06-26 21:19:10

     

    [开户]BOSS推荐官,每单1000-5000不等,打字聊天即可!收益日结!公司源头项目!
  • 2024-06-26 21:14:05

     

    [开户]支付宝广告,寻淘系红包券形式跳转,盲盒,视频引流跳转,低成本获客,0.2元起
  • 2024-06-26 21:09:01

     

    [开户]百度(baidu)全国贷款,公积金,信贷,企业贷,放户,不需要资质费保证金,另有跨境,婚恋,期刊等
  • 2024-06-26 21:03:57

     

    [开户]腾讯广告全国接单,无资质可投放 各地区接单无限制
  • 2024-06-26 20:58:52