色吧图片性爱
亚洲色图偷拍自拍

qvod_av 贾扬清:大模子尺寸正重走CNN的老路;马斯克:在特斯拉亦然这样

发布日期:2024-08-01 17:21    点击次数:74

  

qvod_av 贾扬清:大模子尺寸正重走CNN的老路;马斯克:在特斯拉亦然这样

衡宇 发自 凹非寺qvod_av

量子位 | 公众号 QbitAI

Transformer大模子尺寸变化,正在重走CNN的老路!

看到环球都被LLaMA 3.1勾引了防范力,贾扬清发出如斯感叹。

拿大模子尺寸的发展,和CNN的发展作对比,就能发现一个显著的趋势和表象:

在ImageNet期间,探求东谈主员和技能从业者见证了参数限制的快速增长,然后又运转转向更小、更高效的模子。

听起来,是不是和GPT哐哐往上卷模子参数,业界广宽招供Scaling Law,然后出现GPT-4o mini、苹果DCLM-7B、谷歌Gemma 2B如出一辙?

贾扬清笑称,“这是前大模子期间的事儿,好多东谈主可能都不咋铭刻了:)”。

何况,贾扬清不是惟逐个个感知到这少量的东谈主,AI大神卡帕西也这样认为:

大模子尺寸的竞争正在加重……可是卷的标的反着来了!

模子必须先追求“更大”,然后智力追求“更小”,因为咱们需要这个经由,帮咱把试验数据重组成盼望的、合成的措施。

他以致拍着胸脯打赌,默示咱们一定能看到又好、又能可靠地想考的模子。

何况是参数限制很小很小的那种。

连马斯克都在卡帕西的评述区连连称是:

以上,草率可以称之为“大佬所见略同”。

张开说说

贾扬清的感叹,要从只在最强王座上有顷待了一天的LLaMA 3.1提及。

那是初次终了“最强开源模子=最强模子”,不出无意,万众妥当。

However,贾扬清在这个时候建议了一个不雅点:

“但我认为,行业会因微型垂直模子而实在振奋发展。”

至于啥是微型垂直模子,贾扬清也说得很了了,比如以Patrouns AI的Iynx(该公司的幻觉检测模子,在幻觉任务上朝上GPT-4o)为代表的那些很棒的中小模子。

贾扬清默示,就个东谈主喜好而言,他本东谈主口角常可爱千亿参数模子的。

但实践情况里,他不雅察寄望到,7B-70B参数限制之间的大模子,环球用起来更顺遂:

它们更容易托管,不需要广阔的流量即可盈利;唯独建议明确的问题,就能获取质料还可以的输出——与和之前的一些主张相悖。

与此同期qvod_av,他外传OpenAI最新的、速率很快的模子也运鼎新得比“起初进的”大模子尺寸更小。

“要是我的交融是正确的,那么这王人备标明了行业趋势。”贾扬清径直标明了我方的不雅点,“即在实践天下中,使用适用的、具有资本效益、且仍然苍劲的模子。”

于是乎,贾扬清节略梳理了CNN的发展历程。

最初,是CNN的崛起期间。

以AlexNet(2012)为起始,开启了梗概三年的模子限制增永劫期。

2014年出现的VGGNet即是一个性能和限制都十分苍劲的模子。

其次,是松开限制时期。

2015年,来吧色情综合网GoogleNet把模子大小从“GB”松开到了“MB”级别,即松开了100倍;但模子性能并莫得因此骤减,反而保合手了可以的性能。

驯服雷同趋势的还有2015年面世的SqueezeNet模子等。

然后的一段时期,发展要点在追求均衡。

后续探求,如ResNet(2015)、ResNeXT(2016)等,都保合手了一个适中的模子限制。

值得防范的是,模子限制的收尾并莫得带来策画量的减少——其实,大伙儿都风物参加更多的策画资源,寻求一种“同等参数但更高效”的现象。

紧接着即是CNN在端侧起舞的一段时期。

举个例子,MobileNet是谷歌在2017年推出的一项情理情理的责任。

情理情理就情理情理在它占用的资源超等少,可是性能却十分优异。

就在上周,还有东谈主跟贾扬清提到:“Wow~咱们当今还在用MobileNet,因为它可以在竖立上运行,何况在出色的特征镶嵌泛化(Feature Embedding Generality)。”

终末,贾扬清借用了着手于Ghimire等东谈主的《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》里的一张图:

并再一次发出我方的疑问:

大模子尺寸,会驯服与CNN期间疏通的趋势来发展吗?

网友奈何看?

其实GPT-4o mini这样走在大模子发展谈路上“不大反小”的例子不在少数。

当上述几位抒发出这样的不雅点后,立马有东谈主点头如捣蒜,还拿出了一些别的雷同例子,评释他们看到了疏通的趋势。

有东谈主立马跟上:

我这儿有个新的正面例子!Gemma-2即是把27B参数大小的模子常识蒸馏成更小的版块。

还有网友默示,开拓更大的模子,意味着能给后续几代更小、更垂直的模子的试验“上强度”。

这个迭代经由最终会产生所谓的“完整试验集”。

这样一来,较小的大模子在特定范围,能与当今参数广阔的大模子同样贤达,以致更贤达。

要而言之,模子必须先变大,然后智力变小。

大广宽商榷此不雅点的东谈主,如故对这个趋势比拟招供,有东谈主直言“这是一件善事,比‘我的模子比你的模子大’参数竞赛更实用和有效。”

可是,固然了!

翻遍网罗评述区,也有东谈主发出不同的声息。

比如底下这位一又友就在贾扬清推文底下留言:

Mistral Large(背后公司Mistral AI)、LLaMA 3.1(背后公司Meta)和OpenAI,合手有最强竞争力模子的公司,咫尺可能都正在试验更大的模子。

肛交颜射

我没发现存“更微型号模子措置技能草率”的趋势哟。

面临这个问题,贾扬清倒也实时回话了。

他是这样说的:“没错!我说大模子尺寸可能在走CNN的老路,王人备不虞味着号令环球罢手试验更大的模子。”

他进一步解释谈,这样说的本意是,跟着技能(包括CNN和大模子)落地推行越来越广,环球照旧运转越来越关怀性价比更高的模子了。”

是以,未必更高效的小·大模子,能够重新界说AI的“智能”,挑战“越大越好”的假定。

你赞同这个不雅点不?

参考连合:

[1]https://x.com/jiayq/status/1818703217263624385

[2]https://x.com/fun000001/status/1818791560697594310

[3]https://www.patronus.ai/

[4]https://twitter.com/karpathy/status/1814038096218083497

— 完 —

量子位 QbitAI · 头条号签约qvod_av



Powered by 色吧图片性爱 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2022 版权所有