大模型性能重要,为何仍不断发布?

1个回答

写回答

[youth]

2026-02-18 05:30

+ 关注

手机
手机

你或许对大模型存在认知上的偏见。以开源的LLama 2为例,其参数量最小的7B模型,至少需要Nivida 3090(24GB显存)才能运行。

这东西这么大,装手机上再加上配套的,手机就比砖头小不了多少。更不用说70B这种大模型了,身体不好的话,A100都背不动那么多。当下,任何能在手机端运行的端侧大模型,都是经过500次阉割后性能极不乐观的大模型。就算能跑,你的手机也会烫得厉害。这么讲吧,当前的本地端侧大模型,主要就是有宣传价值,其实际应用价值远未达到可用的程度。端侧大模型在未来很可能采用云+本地的模式。计算量较大的任务必然通过云端处理,手机端大概处理简单些的任务。这其实是个很好的趋势。大模型小型化必然是未来趋势,毕竟大模型能运行的地方有限,有些地方出于安全或隐私考虑无法使用云计算。端侧,即本地化的小型大模型,同样有很大的市场。前段时间苹果不也在搞大模型嘛。实际上,不只是手机厂商,但凡有点实力的公司或企业,都会尝试大模型。大模型尤其是通用型的,根本就是有钱人才能玩的。大模型的性能是否重要?当然重要,性能决定智能程度,对大模型而言,智能程度是最基本且最重要的衡量指标。你参数即便有1亿亿个,若不如别家大模型,那也是没用的。但目前的状况是,GPT - 4在智能方面远超其他模型,别的大模型不管怎么说,智能程度就是比不上它。这就产生了一个怪异的悖论:智能程度不及GPT4,为何还不断有大量模型隔三岔五地发布?

很简单,大模型是有钱人的游戏,大公司自然都觉得自己该拥有。实际上,稍大些的公司大多会宣称自己拥有大模型。像文心一言、通义千问、网络知海图之类的。全球范围内,没有哪家敢称比GPT4厉害。不过大家仍然在接着做。很简单,投资人想看到你有这个,毕竟它在AI领域是大热门。即便智能程度不及GPT4.0,也可通过错位竞争。不好用和有是两个不同概念。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号