OriginOS 4与BlueLM大模型有何关联?

1个回答

写回答

2206299594

2026-01-06 08:50

+ 关注

vivo
vivo

OriginOS 4(以下用OS4指代)是基于AOSP14的大版本更新。不过,OS4和AOSP14有个明显区别,那就是OS4在性能指标与本地化功能方面都进行了强化,其最大的看点在于融入了vivo自主研发的BlueLM蓝心大模型的基础能力。近期,业界有个非常热门的概念——端侧大模型。以前我们使用ChatGPT时,它的训练以及结果推理都是在微软的Azure云端完成的,用户这边只要有个浏览器就能完整输出结果,毕竟GPT4的参数规模太大,放在本地很难处理。但从应用场景和实际需求来讲,将一部分推理放在边缘设备上进行是未来的发展趋势,像手机电脑和智能汽车这类具有强边缘场景的终端更是如此。边缘应用的复杂性和个性化,让云端的响应能力面临的挑战日益增大,用户对边缘场景中实时结果输出的速度和准确性要求也越来越高,这就是行业要发展端侧大模型的根本缘由。

我们先不说边缘终端厂商和云厂商在大模型研发方面有没有前瞻性,单看芯片厂商的前瞻性,就能体会到行业上下游对端侧大模型的重视程度。Apple A17 Pro开了个头,QualComm和MediaTek也跟着做,最新的SoC都把更多晶体管用于提升AI能力了。就拿最新的骁龙8G3来说,高通称这是第一代完全为生成式AI打造的SoC,还推出了新的AI计算引擎。高通大幅提升了LLM的本地推理速度,70亿参数模型的推理速度居然超过20 Tokens/s,这一速度相当惊人。这种卓越性能有力推动了边缘终端厂商在端侧大模型落地方面的快速发展。此外,Apple和联发科的AI性能也在不断提升,这也是vivo今日宣布端侧大模型BlueLM的根本依据。

今天vivo开发者大会宣布了OS4和BlueLM大模型。其实,vivo并非独自作战,背后有着强大的手机边缘智能场景需求以及SoC本地推理性能的有力支撑。

ChatGPT
ChatGPT

我评测和在实际工作中应用大型语言模型(LLM)快满一年了。当前我主要使用的平台有GPT4(涵盖OpenAI新推出的DALL - E3以及插件市场)、由RTX4090提供本地支持的Stable Diffusion,还有Discord上的MidJourney。在这三个平台里,Stable Diffusion是纯本地计算,GPT4和MidJourney的结果都是在云端生成的。因此,对于vivo的BlueLM的实际能力,我自认为能说上几句。接下来我会通过一些场景,简单评估一下BlueLM。由于BlueLM仍在发展,并且还需进行合规的IT审计,我估计它要到年底或者明年初才能正式商用。

今日,vivo推出五款自研蓝心AI大模型,其参数规模分别为1750亿、1300亿、700亿、70亿、10亿,同时将70亿蓝心大模型开源,开源地址如下:

这可不是靠嘴随便说说就能做到的,背后得有庞大的基础设施和工程团队来支撑,积累模型参数与学习资料也耗时良久。vivo目前已积累了15PB的多模态数据,还有2800T的中文文稿数据。其训练效率在行业中处于领先地位,我们测试时都觉得不可思议,仿佛是凭空出现的。但其实不是,这是近两三年积累下来的成果。

大模型的云端训练能力发展极快,其评测结果在数月间就可能有极大差异。而且,当下安卓平台主要的系统级芯片(SoC)为骁龙8G2与天玑9200,这两款都不支持本地推理。需等到骁龙8G3和天玑9300全面商用之后,到年底才有望看到支持本地推理的BlueLM商用。

vivo在LLM(大型语言模型)的布局与团队组建方面,比国内同行起步都要早。此前,该团队一直致力于OriginOS智慧生态的研究,而且创始人沈总在2017年就表示要加大人工智能投入。在GPT3.5发布之前,国内科研院所和工业界在大模型方面都有了初步探索。vivo涉足这一领域已有两三年,其间不管遭遇多大挫折与市场波动,沈总始终没有对大模型团队做任何削减,一直保障团队稳步发展。当前,这个团队已有1000多人,积累了700多项专利,发表了70多篇文章,近期还在多个横向评测中获得第一名。要评价一个大型语言模型(LLM)的综合能力,找一个有一定权威性的基准测试(Benchmark)是较为合理的做法。近期,vivo的BlueLM在多个Benchmark的综合性能或者部分细分维度上取得了第一名的成绩。有些人一看到排名就很激动,而有些人则天生抵触排名,这都是正常现象。其实在排名背后,只要我们弄清楚测试逻辑,就能判断模型的基本能力到底怎么样。SuperCLUE是一个开源的测试模型,我在上面列出了它的项目地址和报告地址,感兴趣的读者可以自己去判断。我个人比较认可SuperCLUE的评估逻辑,它涵盖四大能力、12个维度以及100多个任务场景。这些维度和场景基本包含了边缘终端侧用户在日常生活、学习和工作中可能遇到的典型场景,像知识推送、吃喝玩乐规划、专业技术咨询、安全保护等。与其他数码产品相比,手机不再是简单的通讯设备了。现在要是还抱有手机就是个电话,搞那么复杂干嘛这种想法就大错特错了。准确地说,现在的手机是边缘场景的计算终端,它通过捕捉信息、进行计算,最终在具体场景中为用户解决实际问题。一两年前规划旅行时,得打开好些APP查看博主攻略。如今有了大模型,只要让它输出路书和旅行计划就行,思维导图都能给画好。或者讲,做父母的,给孩子写发言稿、竞选稿,或者做课件PPT还要到网上买素材的情况将成为过去。以后只要根据提示让大模型直接输出样板就行。本地端侧推理全面上线后,输出内容会更精准,也更符合用户提示词。

接下来,我们借助一些典型场景,来一窥BlueLM在2023年10月具备的基础能力。测试平台为X90 Pro+的OS4测试版,其操作系统是基于AOSP14的。

vivo把BlueLM整合进了新版小V助手,小V助手类似GPT4和微软Copilot。vivo还构建新交互界面以实现智能交互。唤起小V助手容易,侧边栏左滑就行。当前小V助手仅展现了BlueLM极少的功能特性,但即便如此,也让我们犹如感受到未来已来那般激动兴奋。

手机上的大模型助手,最基本的能力应当是对手机自身信息与功能进行整合、筛选的能力,这会完全改变用户使用手机电脑的方式。以后,用户无需再去学习、摸索菜单设置,只需在大模型助手中动动嘴就行。比如,让BlueLM列出自己拍摄过的所有月亮照片、落日照片或者定位在京都的照片。显然,BlueLM会借助图像识别、图片基础信息识别以及标签识别来整理并输出结果。虽然当前安卓手机的相册功能已经很丰富了,但还是得让用户不断点击操作。这让我联想到乔布斯发布iphone时,用诺基亚手机演示打开和放大图片的情景。如今,我们看到了真正能改变手机行业的曙光:大模型的推理与筛选,会把以手机为代表的边缘终端信息获取体验提升到如同重新发明设备的高度。可以预见,未来BlueLM能通过相册标签、图片基础信息、精确图像识别,甚至人物特征识别来精准输出筛选信息,这种工作量是相册软件开发人员难以想象的。

所有大模型都具备根据筛选与推理结果创作可生成内容的基本能力。BlueLM与手机上的典型软件相结合,让这种创作变得极为丝滑、便捷。给小V助手提供一张图片,它就会询问你是否要撰写朋友圈文案,还能调用微信朋友圈接口一键发送。你能够在此为朋友圈文案给出特定的提示词,这样生成的文案会更简洁。许多人或许觉得这是多此一举,可大家得明白,我们的父母根本不会撰写朋友圈文案,他们会向我们询问发什么样的中秋节朋友圈比较好。以后,老人们无需再问这类问题了,一切都可交由小V助手完成。

如今,许多分析师和在校学生都开始借助GPT4开展辅助调查工作了。但由于模型训练数据存在滞后性,这样得出的调查结论往往时效性欠佳。BlueLM也有类似的能力,例如我想了解杭州萧山的奶茶行业状况时,它就提供了不少有用的基本信息。当然,若要完成一份有实际意义的工作,就得学会撰写提示词。学习构建提示词以及把握提示节奏是一项新兴技术。BlueLM除了能对调查性内容进行推理,还能对手机自身的一些功能特性加以解释,像是对蔡司自然色彩和质感影调的解释。不过,其输出结果在引用图片方面存在一些BUG,不过这后期肯定会修正,不是什么大问题。

当我们到一个陌生国家旅行时,以前大家往往会直接去旅游APP上查资料,或者看博主写的攻略。但以后这种做法可能会被淘汰。现在很多了解GPT4的人,已经不再依赖旅游APP,而是开始使用GPT4了。BlueLM也有类似的能力,不过它需要用户有较强的编写提示语的能力。比如问日本哪个神社适合学生去祈福,BlueLM推荐了京都的北野天满宫。看到这个推荐,我忍不住笑了,感觉它还挺靠谱的,从这个推荐就能看出它的推理能力还不错。

BlueLM有图像生成与美化的实验性功能,它提供三种风格变化选项,这是日漫风格选项,看起来还挺不错的。

AIGC能力方面,当前版本的BlueLM与行业领先的MJ存在一定差距,不过差距不算很大。由于大模型对中文提示词的理解效率本就不高,就相同提示词而言,BlueLM和MJ的生成结果(如上图所示)都还不错,只是BlueLM的细节稍显不足。我深信BlueLM很快就能赶上MJ,达到很高的可用性。

vivo打算在未来首批推出文档解读和推理这两个端侧本地功能,这一成果是借助骁龙8G3与天玑9300的本地AI引擎达成的。这是一个示例,我还额外添加了一份英伟达GPU AI能力评测指南,是全英文版本的。BlueLM按照我的指令,对全文做了英文转中文的总结以及纲要摘录,并且依据我提到的一些细节,给出了像如何测试GPU的AI性能这类相关步骤。目前来看,BlueLM的文档解读能力很强,几乎不受语言和专业的限制,可以想象再过几年这种能力会让专业领域人士的工作效率得到怎样的提升。最后要讲讲BlueLM的代码辅助编写能力。这里必须强调,对于一个可编译执行的程序而言,运行逻辑才是前提,而非代码本身。用户给出的提示越清晰,逻辑越简单规范,输出代码的质量就越高。在相同的语言和描述下,BlueLM和GPT4的输出结果会有差异,有时两者输出的代码都能直接编译运行,有时则都不行,会存在一些错误。作为程序设计者,基本的调试(Debug)能力不可或缺。从过程来看,BlueLM输出的代码对编译环境和运行环境有一定要求,用户得搭建好完善的环境,才能顺利执行代码或者进行调试。当然,我们用BlueLM来做几道大学本科的算法练习题是没问题的,但要是做项目,就得注意我提到的这些点了。

今日vivo推出的BlueLM,不仅体现了vivo下一代的发展方向,更代表着所有智能边缘终端的发展方向:运用LLM主动管理并输出用户的场景体验。从SoC到各类操作系统,再到互联网与终端厂商,都在强调大模型的意义。为何如此?因为我们总算不再受硬件设备本身的束缚,朝着人、场景和内容的连接迈进。大模型的发展前景是让用户完全不用在意手边设备的类型,而是专注于场景和任务。无论是创作一幅图片、输出一个视频,还是撰写一篇专业文章,我们无需纠结使用何种设备,只要模型能够支持创作与推理即可。我觉得,我们总算找到了重新定义手机的答案,是的,那就是LLM,是AIGC,这就是未来啊。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号