参加VDC有感,端侧模型为何必须做?

1个回答

写回答

萌阿mew

2026-01-15 08:15

+ 关注

手机
手机

想聊聊今天参加VDC的一些感受。端侧模型是必须要做的,这并非出于技术方面的考量,而是成本因素。尽管近两年Token价格大幅下降,可各手机厂商有着数亿存量用户,像蓝心小v已经是月活达亿级、日活达千万级的产品,按每日数千Tokens的消耗来算,大模型成本依旧很高。所以有必要做老手机也能运行的端侧模型。去年我还觉得7B或许是比较契合端侧性能的模型。但今年,依据数据的Scalling Law(投喂更多数据可让参数量小的模型性能更强),中小体积模型的性能在不断增强。我自己体验后觉得,阿里的3B大概有着接近Qwen 1.5 7B到14B的水平,换算一下,差不多是比GPT3.5 - Turbo稍弱一些(现实中并没有GPT3.3 - Turbo这个版本,这里只是为了对比说明)的水平。蓝厂的端侧3B模型我还没收到推送,不过理论上应该是不错的。

7B模型性能虽强,可对手机内存带宽要求颇高。但对于7B大模型,中低端机型的内存带宽不太充足。中低端处理器常常会在I/O性能方面进行取舍。就像英特尔(这里暂不多说),还有高通778G,它仅支持32Bit内存通道,和旗舰机型的64bit相比少了一半。并且其支持的内存类型也不够新,内存带宽可能只有最新机型的三分之一到四分之一。3B模型下,X200顶配能达到80字/秒。入门机型要给UI、交互等留内存带宽,最后可能只剩20字/秒。要是换为7B模型,入门机型每秒就只剩七八个字,这样慢慢输出很让人头疼。

而且,3B小模型的训练速度比较快,能更迅速地迭代更新语料库,减少因数据实时性不够产生的模型幻觉。

阿里
阿里

安卓于2021年左右完成系统级SOA解耦,AI嵌入手机并非难事。但大模型交互要文字输入,现在大多数手机用户只在评论区骂街时才用到文字输入,他们连自身想法都表达不好,更难与LLM交互。vivo在许多需要语言表达之处,重新采用智能手机用户熟知的点、划、拖拽操作,大大降低了使用的难度。

当然,也开始与各应用开发商合作,将应用服务原子化,如此调用相关功能会更方便些。

我一直很喜爱vivovivo听见和vivo看见这两个AI功能。科技既能造福人类,也应造福人类。蓝厂的视觉模型架构与MiniCPM之前做的多模态模型有些相似,通过视觉模型与LLM嫁接来达成图像识别和自然语言输出。

借助手机的多模态功能(摄像头和语音),这一事物能很好地助力视障者看见,还可用于手语翻译。现场确实有视障人士前来体验,我想蓝厂肯定听取了诸多意见并作出改进。

大概就是这样了。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号