
中国
2017年,Transformer架构的问世推动深度学习模型参数突破亿级大关,随后模型规模在越大越好的趋势下迅猛发展。如今,模型参数已跃升至千亿级别,在自然语言处理领域取得了显著成就。大约从2019年起,中国科技企业开始积极布局这一赛道,vivo也在同期入局,着手构建自身的超大规模模型能力。经过数年的潜心研发与技术积累,vivo的自研大模型终于趋于成熟,并计划将其应用于OriginOS 4系统中,为用户带来更智能、更高效的体验。大模型展现出的巨大潜力,吸引了众多投资者,掀起新一轮AI创业潮,也让人们对智能手机的智能有了更高期待。我相信,近未来大模型于移动设备的应用将成为各智能手机厂商竞逐的关键领域,率先布局者将占据显著的先发优势。借此机会,谈谈我对智能手机与大模型结合的看法。大模型,又称基础模型,是指在海量无标注数据上预训练的人工智能模型,它具备执行多种任务的能力,无需针对特定任务另行训练即可广泛应用。这两个名称清晰体现了此类模型的特性:一方面,模型规模庞大,参数众多;另一方面,它能充当基础角色,提供更通用的解决方案。通过预训练大模型结合下游任务的微调,便可得到针对特定细分领域的垂直模型。
也就是说,大模型是学习能力强的通才,能迅速成为某领域专才。

vivo
在基础能力构建方面,vivo开发了两个超大规模参数模型,参数量分别达到1300亿和1750亿,后者与GPT-3相当。其中,vivo-LM在权威的C-Eval大模型评测中表现卓越,成功拔得头筹。vivo-LM参与了有限连接榜单。当前技术下,为兼顾性能、隐私保护与内容安全,手机操作系统中的模型通常采用云端与终端结合的方式部署,而C-Eval 有限连接排行榜正契合这一应用场景。
从具体分数子项来看,它在通识、人文社科以及 STEM 领域均有不错表现,但在高等数学和离散数学等难题上稍显不足。所以,指望 Jovi Copilot 帮忙完成高数作业的朋友可能要失望了(笑)。高数水平不如 GPA 5.0 的大神,会妨碍 Jovi Copilot 和你日常聊天吗?显然不会。这充分表明,vivo-LM 是根据手机实际应用场景的需求而研发的,并非单纯追求高分排名。凭借这个具备卓越通用能力的 vivo-LM,进一步优化出 660 亿、70 亿和 10 亿参数的大模型,分别适用于不同场景,从而形成了 OriginOS4 的大模型体系。先进行泛化赋能,再精炼适应场景,这种方式符合大模型研发的客观规律。大模型的通用特性,使其成为手机厂商不可忽视的全新广阔领域。荒野的魅力在于它充满无限可能。
让我们暂时忘却大模型,回到 2007 年 1 月 9 日,那个改变一切的 iphone 诞生时刻。乔布斯在发布会上曾说:这不是三个独立的设备,而是一个设备——集 iPod、手机与互联网通信器功能于一身。 这句话重新定义了我们对移动设备的认知,成为经典瞬间。它将音乐、通讯和互联网完美融合,开启了全新智能时代。一款具备通用功能的掌上设备问世,标志着智能手机时代正式开启。智能手机与传统手机有所不同,主要体现在三个方面:过去十多年,智能手机算力迅猛提升,交互经历全面屏革新,第三方应用也从众多小型工具逐渐整合为几大超级应用。要在高度成熟的手机市场中寻找新机会,或许需要一些颠覆性的创新来打破现状。大模型在这三个领域展现出极大的吸引力。语音助手被认为是除戳屏幕之外最具潜力的人机交互方式,它自然、灵活,让移动设备从工具转变为助手。然而,长期以来依赖问题库的语音助手常被调侃为人工智障。大模型的 emergence 为解决这一问题提供了关键支点,有望支撑起手机操作系统的下一代交互模式,实现从传统人机交互向人机沟通与写作的转变。这种新方式将更贴近人类的交流习惯,极大提升交互体验。此外,大型模型具备出色的 comprehension 能力,结合手机中众多的传感器,将赋予下一代手机系统全方位与多模态的感知实力,使智能设备真正实现对用户的理解、对场景的洞察以及对环境的感知。依托大模型的基石能力,为系统与第三方开发者提供支持,创造出新的应用形式和创新模式。设备将从被动响应逐步转变为 proactively 提供功能。手机厂商在系统中集成的大模型,将成为智能时代开发者可依赖的新基础设施。毫无疑问,大模型将对智能手机系统产生深远影响。好,到这儿我们提到的仍是比较宽泛的概念。具体到手机上,大模型能做什么?主要是带来新交互、新感知和新赋能。其中部分愿景在OriginOS4上已有所体现,有些还较为遥远,但相信随着时间推移,终将实现。
以一个简单的日程为例,11月1日,vivo将举办开发者大会,主题演讲从上午10点持续到12点半,你设置了日程提醒,以便到时观看直播。
一位朋友邀你那天中午吃饭,你想问Jovi当天中午安排,查看日程是否冲突。如果你提问我1月1日有安排吗?,它无法理解,会给出奇怪的回答。你需要按照其问题库的格式提问,例如我11月1日的日程安排是什么?,Jovi 才能调用系统日历接口并作答。有了能理解指令的大模型,这个问题有望改善。未来,我们或许能像跟朋友聊天一样与Jovi对话,不再需要提前琢磨该怎么问才合适。
大模型也能助力输入法。以往输入法的智能推荐仅限一两个词汇,如今借助大模型可直接续写内容,大幅提高写作效率。这张图中提到的照片搜索和图片创作也引起了我的关注。
vivo的大模型让OriginOS4的照片搜索更出色,体现了其多模态感知能力。Jovi Copilot可按需生成多种风格的图像,展现多模态输出实力,这一创新潜力巨大,未来想象空间广阔。若算力无限且能耗无虑,期待vivo大模型为无障碍领域贡献力量,助力每个人享受科技带来的便利。中国有14亿人口,其中视障者约1300万,听障者约2000万,读写障碍者约7000万。随着老龄化加剧,65岁以上老人近2亿,上述特殊需求群体约占总人口的20%,他们的数字化生活面临诸多挑战,需要更多无障碍支持。他们遭遇生活中的诸多不便与挑战,处处似有无形的门槛。而智能手机及无障碍功能,以技术为梯,助人跨越阻碍,享受美好人生。OriginOS 已通过 AI 技术推出无障碍通话与vivo 听说功能,借助 AI 语音合成和识别技术,满足听障人士的通话及线下交流需求。随着多模态大模型的发展,无障碍功能迎来了更多创新可能性,为用户带来更贴心的体验。
vivo手机影像实力强劲,多摄系统能兼顾广角与长焦。若结合具备多模态能力的大模型,未来是否可助视障人士看见世界?想象一下,未来的某一天,视障用户只需掏出自己的vivo手机,其智能影像系统就能自动识别盲道上的障碍物并及时提醒;借助系统内置的地图功能,规划出最适合视障用户的出行路径;通过超广角镜头获取周围环境信息,同时利用长焦镜头清晰读取远处路牌内容,提供精准至每个转弯处的导航服务。所有这些信息,都会经由先进的语音技术,以自然流畅的方式传递到vivo TWS耳机中。视障用户将不再因特殊需求而感到与众不同,他们可以像普通人一样,自信、从容地走在路上,与每一位拿着手机行走的人别无二致。想象一下,未来某天,我们与手语使用者交流时,可以借助 vivo 手机,将我们的语音实时转化为屏幕上的手语动画,同时,手机摄像头也能捕捉对方的手语手势,并即时翻译成语音或文字反馈给我们。这项技术还能突破语言障碍,让我们轻松与远在地球另一端的听障人士无障碍沟通。设想一下,未来某天,当听障人士使用vivo听说时,如果周围环境嘈杂,麦克风难以准确拾音,我们可以借助多模态模型,通过读取唇形和语气来辅助还原对话内容,还能结合图像识别,判断是谁在说话,为沟通提供更大便利。听障人士不再局限于安静环境才能交流。即使在嘈杂的集市,他们也能听见摊主的叫卖;在激昂的赛场,能感知粉丝的欢呼,还能通过扬声器表达自我。如今,他们可以与多人同时互动,甚至未来可能加入激烈的辩论,突破沟通界限,拥抱更丰富多彩的生活。想象一下,未来的某一天,老年人在使用vivo手机新功能时,有一位耐心且博学的助手。它会手把手教学,对看不清的控件不仅放大显示,还大声解说。它用自然语言解释功能作用,甚至以方言沟通,让老人轻松理解并掌握操作,真正感受到科技的温暖与便利。人与人交流天生多模态,包含语言、手势、表情和触感等丰富形式。如果上天让一些人失去了感知某些方式的能力,就让科技成为他们连接世界的桥梁,让每个人都能平等地获取信息、表达自我。
多模态是理解世界的方法,大模型让手机具备了与我们相似的世界认知能力。OriginOS 不仅能为各类交互赋予自然智能,还有一大未来方向值得关注,那就是洞见赋能。相较于尚处起步阶段的多模态探索,洞见赋能已是触手可及、能够立即实现的实用技术。它将为用户带来更深层次的价值与体验提升。洞察力是指发现非直观信息与关联的能力。在OriginOS4上,它将体现在对场景的深度理解中,展现出更智慧的特性。
OriginOS 的原子组件和原子通知让我非常满意。零层级操作让叫车、查物流、买票等日常任务更加高效。如果将原子组件与大模型技术结合,是否能让它更智能?比如,当我准备下楼买菜时,系统能否提醒我顺便取个快递?或者当我滑出侧边栏时,它能否根据当前场景推荐更贴合需求的应用?此外,原子通知或许可以进一步优化,通过更精准地筛选重要通知,把关键信息直接呈现在桌面卡片或状态栏中,同时屏蔽那些无关紧要的普通通知或营销推送,从而让我们的使用体验更加清爽高效。
借助大模型技术,vivo手机与IoT生态将实现更深层次的融合。未来,我们可能无需通过复杂设置构建智能家居场景,大模型会根据使用习惯主动提供个性化建议,辅助决策。例如,OriginOS可能会贴心提醒:您今天下午有场视频会议,是否在会议开始时将空调切换为静音模式,并调亮灯光?这种智能化体验让生活更加便捷高效。我推测 OriginOS4 或将带来更智能的超级终端,突破传统模式,借助手机和平板的大模型能力,为其他 IoT 设备提供更强支持。上述多种应用场景在手机上能实现多少,关键取决于算力与功耗。有些场景看似遥不可及,归根结底是其复杂度太高,所需算力过大。即使是拥有 Azure 超级计算机资源的 OpenAI,在面对众多付费用户时,也只能提供 3 小时 50 次的 GPT-4 对话机会。这充分说明了算力和功耗对实际应用的重要制约作用。要将大模型应用于手机系统,需软硬结合,两手都要硬。先从硬件说起。
过去几年,苹果的 NPU 性能提升了数十倍。在最新 A17 Pro 中,NPU 规模扩充至 16C,算力达 35T。作为端侧模型领域投入领先的公司,Apple 每年新增的晶体管中,有很大比例分配给了 NPU,彰显其对神经网络处理能力的高度重视与持续优化。近年来,业界普遍认为,大模型是赋予智能手机智能的关键,但缺乏强大算力则无法开启这把钥匙。
昨日,vivo与联发科联合发布了具备10亿及70亿参数的生成式AI,以及10亿级视觉大模型的应用成果。在影像技术方面,vivo自主研发的V系列芯片展现出强大的NPU性能。通过深度挖掘平台潜力并持续加大自研投入,vivo在硬件领域为大模型的发展积累了雄厚实力。在软件方面,vivo自2018年起便成立了人工智能全球研究院,组建了千人规模的研究团队持续深耕。经过长期积累,成功打造了包含10亿、70亿、660亿、1300亿及1750亿参数在内的五大模型体系,覆盖从终端到云端的多样化需求。此前,在OriginOS系统中,vivo已引入不公平调度机制,通过优先分配资源给需即时响应的任务,为本地大模型的运行提供了有力的软件支持。六千字长文,简单总结如下:大模型有望成为世界模型,因其不仅能多模态理解世界,还具备强大通用性和无限想象空间,宛如人类认知的延伸。这为手机操作系统带来了机遇与挑战。它有望彻底革新智能手机的交互方式,增强多模态能力并赋能生态系统。然而,算力限制和能耗问题是在将大模型应用于手机时需重点考虑的因素。鉴于当前技术状况,vivo 在 OriginOS4 中提出了模型矩阵方案,涵盖从 purely 本地运行的端侧小模型到借助云端服务器支持的大模型协同工作模式,实现性能与效率的平衡。已知信息显示,OriginOS4将在语音助手、场景推荐等领域应用大模型,涵盖图片语义识别与生成式内容创作,这只是一个开端。大模型有望成为高频、强感知的颠覆性创新,或将成为未来智能手机操作系统的核心能力与基础设施。其对产品的具体影响仍需探索和观察。只有坚持长期投入,秉持长期主义,才能在这一领域取得突破。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号