“大模型”激战正酣,“小模型”在开辟新战场_全球资讯热分享网(专注热点收集平台)

“大模型”激战正酣,“小模型”在开辟新战场


“大模型”激战正酣,“小模型”在开辟新战场

  2023-12-17 03:57:47     简体|繁體
http://refenxiang.com/1019582.html

原文来源:硬 AI 

作者 | 赵 颖 

图片来源:由无界 AI生成

AI模型军备竞赛风起云涌,各家大模型打得火热的同时,小模型竞争开辟出新战场。

本周多家公司在“小模型”方面开疆拓土,试图证明其模型可以事半功倍。周一,法国初创公司MistralAI公布的开源模型Mixtral 8x7B引起轰动,该模型不仅性能比肩GPT-3.5,另一大优势是规模小到足以在一台电脑上运行。

周二,微软亮出了小模型大招,发布27亿参数规模的小语言模型Phi-2,在部分基准测试中超过谷歌的Gemini Nano 2,可以在笔记本电脑、手机等移动设备上运行。

毫无疑问,规模较小的模型可以降低了大规模运行人工智能应用的成本,同时极大地拓宽了生成式AI技术的应用范围。

此外,事关模型能力强大与否的关键——强化学习(RL)技术最新的优化进展也引起业界的关注。


01“小模型开辟新战场”


MistralAI的小模型Mixtral 8x7B为开源模型,其规模参数相对较小,而能力却能达到GPT-3.5的水平,迅速引起了业内研究人员的关注。

Mixtral 8x7B 之所以叫 Mixtral 8x7B,是因为它属于稀疏模型,将各种为处理特定任务而训练的较小模型组合在一起,从而提高了运行效率。

性能方面,Mixtral表现优于Llama 2 70B,推理速度提高了整整6倍;在大多数标准基准测试上与GPT-3.5打平,甚至略胜一筹。

成本方面,由于Mixtral的参数较小,所以其成本也更低。与Llama 2相比,Mixtral 8x7B表现出自己高能效的优势。

值得一提的是,MistralAI刚刚完成4.15亿美元融资,最新估值已经冲破20亿美元,在短短6个月中增长了7倍多。

本周另一家登场的小模型是微软自制模型Phi-2,Phi-2 的参数只有27亿,小到足以在手机上运行。该模型在精心挑选的数据集上进行了训练,数据集的质量足够高,即使手机的计算能力有限,也能确保模型生成准确的结果。

从性能表现看,Phi-2在Big Bench Hard(BBH)、常识推理、语言理解、数学和编码基准测试中,其平均性能得分已经超过70亿、130亿参数规模的Mistral和Llama 2,在部分基准测试中超过谷歌的Gemini Nano 2。

目前微软正发力小模型的布局,分析指出,微软与OpenAI的紧密合作,使得GPT模型的表现在大模型市场一骑绝尘,再加上微软参数规模更小的Phi系列,能进一步抢占开源模型长尾市场。


02 模型能力强大的关键:强化学习技术


AI领域的另一大进展则是强化学习技术的优化,强化学习是一种基于“奖励期望行为”和“惩罚不期望行为”的机器学习训练方法。

许多人猜测,OpenAI的模型之所以表现如此出色,主要是因为它使用了人类来告诉模型哪些结果是好的,哪些结果是坏的,也就是所谓的“人类反馈强化学习”(RLHF)。

根据强化学习初创公司Adaptive的联合创始人Julien Launay介绍,AI缺少如何将这些知识整合在一起的规则。

例如,一个看似简单的问题“我的iPhone掉了会怎样?”需要模型理解iPhone是什么?物体掉落时会发生什么?iPhone很贵,掉了我会很伤心以及所有这些想法之间的关系。强化学习在某种程度上为模型提供了自己的知识图谱,告诉模型某些信息是如何关联的。

不过,强化学习远非完美,执行起来成本也很昂贵,业内期待更便宜、更有效的训练方案。这一点很重要,因为它意味着小型开发者可能很快就能利用,以前只有大型模型提供商才能使用的训练技术来改进他们的模型。

近期,一家利用私人数据开发定制模型的初创公司Contextual AI开发了一种方法,只需要人类发出信号,也许是在聊天机器人上点击,就能知道模型的反应是可取的还是不可取的。

这种方法改进了传统的、更加主观的做法,即要求人类从多个可能的回应中选出他们认为最佳的模型回应。Contextual 将这种新方法命名为“Kahneman-Tversky Optimization”,以纪念这两位著名的经济学家。

Contextual AI研究员Kawin Ethayarajh指出,研究人员还利用像OpenAI的GPT-4 这样更大、更复杂的模型,对更小、能力更弱的模型进行训练。

就目前而言,强化学习仍然是一个复杂而困难的过程,但像这样的新发现有望让处于劣势的开发者在与OpenAI的竞争中占得先机。



编辑:web3528btc 来源:加密钱包代币

分享到:

  • 上一篇
    下一篇

  • 分享知识|收获智慧

    全球资讯热分享网(专注热点收集平台)
    手机查看(二维码扫一扫)

    全球资讯热分享网,最有影响力热点信息分类网站,主要集合图文、知识、日常、娱乐、财经、文化、生活、致富、女性、地区、科技等多类信息分享交流,免费提供最有价值的头条信息平台。
    « 2026年 » « 03月 »
    1
    2345678
    9101112131415
    16171819202122
    23242526272829
    3031

    最新资讯

    我是深圳点动的运营经理左志飞,[开户]Facebook平点海外户,国内社群粉,AI培训粉,我们是,欢迎点击对接合作与我联系。
  • 2026-03-26 08:09:11

     

    我是全网互动的总经理李裕全,[开户]抖音巨量引擎/抖音本地推/小红书 教育培训、少儿教育、k12、学历提升、旅游等全行业开户合作,可全包代运营服务,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-03-26 08:00:07

     

    我是重庆维耀开的销售总监谢亚军,[开户]百度(baidu)开户 大搜信息流 医疗资质齐全 试管 亲子鉴定,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-03-26 07:51:04

     

    我是北京意克的销售总经理姜超,[开户]本地推 抖音一代 二代 渠道可以加我合作,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-03-26 07:42:00

     

    我是云南讯海的销售股问颜梦,[开户]三品一械,养生书,日用百货免领粉等开口率高,电商cid量大,roi高,证劵,股票,理财培训开户,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-03-26 07:32:57

     

    安逸花逾期还完款怎么恢复征信?安逸花征信修复:最快5年,第1步先结清欠款
  • 2026-03-26 07:23:53

     

    当“瓶瓶罐罐”成为负担,比瑞吉一袋顶三瓶烘焙犬粮如何改变喂养方式?
  • 2026-03-26 07:14:49

     

    借呗打电话说要上门核实情况是真的吗?真的上门了该怎么做?3秒辨真假,4个应对方法
  • 2026-03-26 07:05:46

     

    安逸花逾期办理停催吗?最长可以停催多久?
  • 2026-03-26 06:56:42

     

    笔墨润心,医术济世 周春光:守正创新脾胃中医守护者
  • 2026-03-26 06:47:39

     

    京东金条逾期多久上征信?逾期上征信了该怎么补救?
  • 2026-03-26 06:38:34

     

    张雪峰医疗文件疑遭泄露,卫健委已介入
  • 2026-03-26 06:29:30

     

    花呗逾期多久会进黑名单?会不会从扣另一个账号的钱?分4个阶段+2个种情况
  • 2026-03-26 06:20:27

     

    我是巨划算的销售专员练文杰,[代运营]百度(baidu)电商高点开户代运营 对公47 对私53!❗! !,我们是推广代运营服务商,欢迎点击对接合作与我联系。
  • 2026-03-26 06:11:23

     

    我是广州城猎的运营组长李世芬,[代运营]①电商订单/快递面单解M。②出平台指定产品料子痔疮,减肥,男科,妇科,③白酒,我们是,欢迎点击对接合作与我联系。
  • 2026-03-26 06:02:19