大模型性能重要，为何仍不断发布？

1个回答

[youth]

2026-02-18 05:30

手机

你或许对大模型存在认知上的偏见。以开源的LLama 2为例，其参数量最小的7B模型，至少需要Nivida 3090（24GB显存）才能运行。

这东西这么大，装手机上再加上配套的，手机就比砖头小不了多少。更不用说70B这种大模型了，身体不好的话，A100都背不动那么多。当下，任何能在手机端运行的端侧大模型，都是经过500次阉割后性能极不乐观的大模型。就算能跑，你的手机也会烫得厉害。这么讲吧，当前的本地端侧大模型，主要就是有宣传价值，其实际应用价值远未达到可用的程度。端侧大模型在未来很可能采用云+本地的模式。计算量较大的任务必然通过云端处理，手机端大概处理简单些的任务。这其实是个很好的趋势。大模型小型化必然是未来趋势，毕竟大模型能运行的地方有限，有些地方出于安全或隐私考虑无法使用云计算。端侧，即本地化的小型大模型，同样有很大的市场。前段时间苹果不也在搞大模型嘛。实际上，不只是手机厂商，但凡有点实力的公司或企业，都会尝试大模型。大模型尤其是通用型的，根本就是有钱人才能玩的。大模型的性能是否重要？当然重要，性能决定智能程度，对大模型而言，智能程度是最基本且最重要的衡量指标。你参数即便有1亿亿个，若不如别家大模型，那也是没用的。但目前的状况是，GPT - 4在智能方面远超其他模型，别的大模型不管怎么说，智能程度就是比不上它。这就产生了一个怪异的悖论：智能程度不及GPT4，为何还不断有大量模型隔三岔五地发布？

很简单，大模型是有钱人的游戏，大公司自然都觉得自己该拥有。实际上，稍大些的公司大多会宣称自己拥有大模型。像文心一言、通义千问、网络知海图之类的。全球范围内，没有哪家敢称比GPT4厉害。不过大家仍然在接着做。很简单，投资人想看到你有这个，毕竟它在AI领域是大热门。即便智能程度不及GPT4.0，也可通过错位竞争。不好用和有是两个不同概念。

举报有用（0）分享收藏

大模型性能重要，为何仍不断发布？

1个回答

[youth]

热门话题

相关问题