参加VDC有感，端侧模型为何必须做？

1个回答

萌阿mew

2026-01-15 08:15

手机

想聊聊今天参加VDC的一些感受。端侧模型是必须要做的，这并非出于技术方面的考量，而是成本因素。尽管近两年Token价格大幅下降，可各手机厂商有着数亿存量用户，像蓝心小v已经是月活达亿级、日活达千万级的产品，按每日数千Tokens的消耗来算，大模型成本依旧很高。所以有必要做老手机也能运行的端侧模型。去年我还觉得7B或许是比较契合端侧性能的模型。但今年，依据数据的Scalling Law（投喂更多数据可让参数量小的模型性能更强），中小体积模型的性能在不断增强。我自己体验后觉得，阿里的3B大概有着接近Qwen 1.5 7B到14B的水平，换算一下，差不多是比GPT3.5 - Turbo稍弱一些（现实中并没有GPT3.3 - Turbo这个版本，这里只是为了对比说明）的水平。蓝厂的端侧3B模型我还没收到推送，不过理论上应该是不错的。

7B模型性能虽强，可对手机内存带宽要求颇高。但对于7B大模型，中低端机型的内存带宽不太充足。中低端处理器常常会在I/O性能方面进行取舍。就像英特尔（这里暂不多说），还有高通778G，它仅支持32Bit内存通道，和旗舰机型的64bit相比少了一半。并且其支持的内存类型也不够新，内存带宽可能只有最新机型的三分之一到四分之一。3B模型下，X200顶配能达到80字/秒。入门机型要给UI、交互等留内存带宽，最后可能只剩20字/秒。要是换为7B模型，入门机型每秒就只剩七八个字，这样慢慢输出很让人头疼。

而且，3B小模型的训练速度比较快，能更迅速地迭代更新语料库，减少因数据实时性不够产生的模型幻觉。

阿里

安卓于2021年左右完成系统级SOA解耦，AI嵌入手机并非难事。但大模型交互要文字输入，现在大多数手机用户只在评论区骂街时才用到文字输入，他们连自身想法都表达不好，更难与LLM交互。vivo在许多需要语言表达之处，重新采用智能手机用户熟知的点、划、拖拽操作，大大降低了使用的难度。

当然，也开始与各应用开发商合作，将应用服务原子化，如此调用相关功能会更方便些。

我一直很喜爱vivo的vivo听见和vivo看见这两个AI功能。科技既能造福人类，也应造福人类。蓝厂的视觉模型架构与MiniCPM之前做的多模态模型有些相似，通过视觉模型与LLM嫁接来达成图像识别和自然语言输出。

借助手机的多模态功能（摄像头和语音），这一事物能很好地助力视障者看见，还可用于手语翻译。现场确实有视障人士前来体验，我想蓝厂肯定听取了诸多意见并作出改进。

大概就是这样了。

举报有用（0）分享收藏

参加VDC有感，端侧模型为何必须做？

1个回答

萌阿mew

热门话题

相关问题