qvod_av 贾扬清：大模子尺寸正重走CNN的老路；马斯克：在特斯拉亦然这样

亚洲色图偷拍自拍

qvod_av 贾扬清：大模子尺寸正重走CNN的老路；马斯克：在特斯拉亦然这样

发布日期：2024-08-01 17:21 点击次数：83

衡宇发自凹非寺qvod_av

量子位 | 公众号 QbitAI

Transformer大模子尺寸变化，正在重走CNN的老路！

看到环球都被LLaMA 3.1勾引了防范力，贾扬清发出如斯感叹。

拿大模子尺寸的发展，和CNN的发展作对比，就能发现一个显著的趋势和表象：

在ImageNet期间，探求东谈主员和技能从业者见证了参数限制的快速增长，然后又运转转向更小、更高效的模子。

听起来，是不是和GPT哐哐往上卷模子参数，业界广宽招供Scaling Law，然后出现GPT-4o mini、苹果DCLM-7B、谷歌Gemma 2B如出一辙？

贾扬清笑称，“这是前大模子期间的事儿，好多东谈主可能都不咋铭刻了：）”。

何况，贾扬清不是惟逐个个感知到这少量的东谈主，AI大神卡帕西也这样认为：

大模子尺寸的竞争正在加重……可是卷的标的反着来了！

模子必须先追求“更大”，然后智力追求“更小”，因为咱们需要这个经由，帮咱把试验数据重组成盼望的、合成的措施。

他以致拍着胸脯打赌，默示咱们一定能看到又好、又能可靠地想考的模子。

何况是参数限制很小很小的那种。

连马斯克都在卡帕西的评述区连连称是：

以上，草率可以称之为“大佬所见略同”。

张开说说

贾扬清的感叹，要从只在最强王座上有顷待了一天的LLaMA 3.1提及。

那是初次终了“最强开源模子=最强模子”，不出无意，万众妥当。

However，贾扬清在这个时候建议了一个不雅点：

“但我认为，行业会因微型垂直模子而实在振奋发展。”

至于啥是微型垂直模子，贾扬清也说得很了了，比如以Patrouns AI的Iynx（该公司的幻觉检测模子，在幻觉任务上朝上GPT-4o）为代表的那些很棒的中小模子。

贾扬清默示，就个东谈主喜好而言，他本东谈主口角常可爱千亿参数模子的。

但实践情况里，他不雅察寄望到，7B-70B参数限制之间的大模子，环球用起来更顺遂：

它们更容易托管，不需要广阔的流量即可盈利；唯独建议明确的问题，就能获取质料还可以的输出——与和之前的一些主张相悖。

与此同期qvod_av，他外传OpenAI最新的、速率很快的模子也运鼎新得比“起初进的”大模子尺寸更小。

“要是我的交融是正确的，那么这王人备标明了行业趋势。”贾扬清径直标明了我方的不雅点，“即在实践天下中，使用适用的、具有资本效益、且仍然苍劲的模子。”

于是乎，贾扬清节略梳理了CNN的发展历程。

最初，是CNN的崛起期间。

以AlexNet（2012）为起始，开启了梗概三年的模子限制增永劫期。

2014年出现的VGGNet即是一个性能和限制都十分苍劲的模子。

其次，是松开限制时期。

2015年，来吧色情综合网GoogleNet把模子大小从“GB”松开到了“MB”级别，即松开了100倍；但模子性能并莫得因此骤减，反而保合手了可以的性能。

驯服雷同趋势的还有2015年面世的SqueezeNet模子等。

然后的一段时期，发展要点在追求均衡。

后续探求，如ResNet（2015）、ResNeXT（2016）等，都保合手了一个适中的模子限制。

值得防范的是，模子限制的收尾并莫得带来策画量的减少——其实，大伙儿都风物参加更多的策画资源，寻求一种“同等参数但更高效”的现象。

紧接着即是CNN在端侧起舞的一段时期。

举个例子，MobileNet是谷歌在2017年推出的一项情理情理的责任。

情理情理就情理情理在它占用的资源超等少，可是性能却十分优异。

就在上周，还有东谈主跟贾扬清提到：“Wow～咱们当今还在用MobileNet，因为它可以在竖立上运行，何况在出色的特征镶嵌泛化（Feature Embedding Generality）。”

终末，贾扬清借用了着手于Ghimire等东谈主的《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》里的一张图：

并再一次发出我方的疑问：

大模子尺寸，会驯服与CNN期间疏通的趋势来发展吗？

网友奈何看？

其实GPT-4o mini这样走在大模子发展谈路上“不大反小”的例子不在少数。

当上述几位抒发出这样的不雅点后，立马有东谈主点头如捣蒜，还拿出了一些别的雷同例子，评释他们看到了疏通的趋势。

有东谈主立马跟上：

我这儿有个新的正面例子！Gemma-2即是把27B参数大小的模子常识蒸馏成更小的版块。

还有网友默示，开拓更大的模子，意味着能给后续几代更小、更垂直的模子的试验“上强度”。

这个迭代经由最终会产生所谓的“完整试验集”。

这样一来，较小的大模子在特定范围，能与当今参数广阔的大模子同样贤达，以致更贤达。

要而言之，模子必须先变大，然后智力变小。

大广宽商榷此不雅点的东谈主，如故对这个趋势比拟招供，有东谈主直言“这是一件善事，比‘我的模子比你的模子大’参数竞赛更实用和有效。”

可是，固然了！

翻遍网罗评述区，也有东谈主发出不同的声息。

比如底下这位一又友就在贾扬清推文底下留言：

Mistral Large（背后公司Mistral AI）、LLaMA 3.1（背后公司Meta）和OpenAI，合手有最强竞争力模子的公司，咫尺可能都正在试验更大的模子。

肛交颜射

我没发现存“更微型号模子措置技能草率”的趋势哟。

面临这个问题，贾扬清倒也实时回话了。

他是这样说的：“没错！我说大模子尺寸可能在走CNN的老路，王人备不虞味着号令环球罢手试验更大的模子。”

他进一步解释谈，这样说的本意是，跟着技能（包括CNN和大模子）落地推行越来越广，环球照旧运转越来越关怀性价比更高的模子了。”

是以，未必更高效的小·大模子，能够重新界说AI的“智能”，挑战“越大越好”的假定。

你赞同这个不雅点不？

参考连合：

[1]https://x.com/jiayq/status/1818703217263624385

[2]https://x.com/fun000001/status/1818791560697594310

[3]https://www.patronus.ai/

[4]https://twitter.com/karpathy/status/1814038096218083497

— 完 —

量子位 QbitAI · 头条号签约qvod_av

下一篇：【TRCT-510】【スマホ推奨】エレベーターに挟まれたデカ尻女子校生をガン突き疑似iPhone16机模新照曝光？不久前，Sonny Dickso

上一篇：qvod_av 亚冠-阿王人兹破门谢鹏飞红牌十东谈主三镇1-3浦项制铁