AI PC选型指南(1),为什么是LLM大语言对话模型?

AI

1个回答

写回答

云朵118

2026-02-16 08:35

+ 关注

AI
AI

仅供参考补充。当核显性能达到核心性能十倍…测试平台: imperfect有其独特的价值所在。更多探索、总结与未来展望拟定题目AI PC选型指南时,感觉内容可能涵盖不足,于是加上了序号(1),方便后续继续补充完善,同时也避免篇幅过长导致内容难以一次性完整呈现。这篇文章推荐给关注在PC上运行端侧大模型的朋友们。即使您已获取官方参考数据,仍建议参考此测试。我主要探讨使用CPU(含iGPU集成显卡)进行推理的表现,不仅涉及最新的AI PC,还涵盖英特尔13代大小核架构处理器,您将看到Arc与Xe性能的对比分析。为何选择大语言对话模型?因其强大与广泛适用性。几个月前,我参与了一场关于AI PC的市场活动,有同事感叹:展台上大多展示的是语言类模型。这在国内确实常见,毕竟像微软Copilot这样的产品都难以落地。无论是聊天机器人、AI助手、翻译工具、文档总结功能,还是RAG(检索增强生成)本地知识库,都离不开大型语言模型的支持。

这是在戴尔AIPC笔记本上运行的本地大模型演示。不同硬件的算力对比,在这类应用中主要体现为输出速度(每秒生成的token数)和响应延迟。另一个备受关注的原因是,现有的AIPC CPU(如Intel Ultra系列)已能顺畅运行LLM推理,达到适配正常阅读的输出速度。例如上述Demo展示,Intel Arc集成显卡的算力相比以往CPU有显著提升。同时,通过优化控制,显存占用可保持在4GB以上(以int4量化加载6B模型为例),这进一步提升了效率和实用性。第一次见到这类演示时,我心中浮现了两个小想法。其一是:能在非AI PC上运行吗?本文将解答这个疑问;第二个想法暂且留待日后实现后再与大家分享:)高通近期时常明示或暗示地拿Intel第一代Ultra CPU的NPU算力作比较,其仅有11 TOPS(INT8)。Intel则表示,CPU核心加上GPU与NPU总计可达34 TOPS。除去CPU常规约5 TOPS以及NPU的算力,目前实际算力最强的是iGPU,也就是Arc集成显卡,大约能达到18 TOPS。这表明在综合性能上,各部件的贡献各有侧重。Intel与微软的下一步计划,或许关注新闻的朋友们已有所了解。我打算先分享测试数据,留待文末再做展望。测试内容:每秒生成的token数(平均延迟)与首个token的延迟时间。如何评估对比AI算力性能?这个问题我思考了很久。行业内并非缺乏BenchMark基准测试工具,但现有工具要么聚焦于基础架构,比如GPU服务器,要么仅提供一个跑分,难以全面反映实际表现。相比之下,之前测试图形或视频工作站时,会安装具体的ISV应用软件,例如SolidWorks或Davinci进行实际运行。同样地,AI算力测试也应使用具体的大模型来推理运行,这样得出的结果更直观、更有说服力和参考价值。拓展阅读:基准测试的局限性——NVIDIA RTX A4000显卡在SOLIDWORKS中的性能表现分析双路Xeon NUMA优化权衡:DaVinci 4K/8K视频剪辑与调色性能测试

尽管用英文数据测试,但中文大模型在该领域的能力不容小觑。唯一的差异在于,英文单词输出速度看似更快,因为1000词的英文约等于800字的中文。在此次测试中,我采用了ipex-llm框架(源于Big-DL)中的BenchMark工具,支持手动设置以下参数:选择测试模型,本次主要采用智谱的ChatGLM3-6B进行实验。推理引擎:例如transformer。计算精度上,对于集成显卡的笔记本,采用量化精度如sym_int4会比直接使用FP16更适合。

英特尔
英特尔

我此次共测试了5款笔记本电脑(包括移动工作站),旨在评估不同定位CPU的大型语言模型推理能力。每款CPU均通过自身及集成显卡iGPU运行测试,图表中用同一颜色标识。为提供参考并减少品牌间的横向对比争议,具体CPU型号未完全列出。在测试中,连续输出 token 的性能最优的是 Core Ultra H28/H45(TDP 为 28/45W)所配备的集成显卡 Arc iGPU,其速度可达 22 token/秒。而使用这两款笔记本的 CPU Core 运行时,性能相差不大,均为 14 token/秒。那么,不同笔记本的散热设计与性能调校,对大模型推理应用是否毫无影响?这个问题,建议大家先看完后续测试内容再一起探讨。

今年初,我在Intel Core Ultra解析:AI NPU+小小核的理想与现实一文中整理了格。从表中可以看出,Core Ultra U15系列CPU依然采用2个大核加8个小核的设计,集成显卡并未使用Arc命名,且仅具备H系列一半的4个Xe-Core。因此,在我的测试中,一款搭载Ultra 7 U15的轻薄本性能稍低是正常现象。然而,这款CPU相较于上一代产品——Core 13代的U15和P28,仍实现了显著提升,这也正是AI PC价值的体现。仅看token生成速度,Core Ultra H28比上一代P28快两倍多,无论使用iGPU还是CPU运行。官方对比测试数据——供补充参考使用

集成显卡与独立显卡对比上面的图表看起来像是从Intel官方文档中截取的,实际上,它来源于Optimizing Large Language Models with the OpenVINO? Toolkit。这里给大家提供一些额外参考。该报告专注于使用OpenVINO进行优化,而我的测试则基于IPEX工具完成,两者各有侧重,但都旨在提升大型语言模型的性能表现。Intel的报告同样采用int4测试,以平均延时(ms/token)计算吞吐量(token/秒)。但其具体数值似乎比我测得的低?部分原因可能是:测试中未将首个token的延时与从第2个token起的平均延时区分开来评估,而直接使用了Input/Output为1024/128的整体数据。当然,也可能存在其他因素,例如测试平台、驱动版本等存在差异,因此结果仅供参考。

处理器性能对比英特尔公布了13900K台式机CPU的测试数据,其性能略胜Ultra 7 165H一筹,但125W TDP的能效比不够理想。因此,英特尔第13代、14代桌面处理器未被冠以AIPC之名,除非搭配独立显卡提升GPU性能。以下是我在测试时第一个token的输出延迟情况:

需要注意的是,一项测试存在特殊情况:搭载13代i7 P28 CPU的笔记本仅配备16GB内存,用集成显卡运行6B大模型时已接近内存极限,因此2556.77这一数值应视为异常。其他机型均配备32GB及以上内存,未出现此类问题。

第13代Core P28笔记本展现了不俗的计算能力,CPU核心测试中延时为1407ms,与Core Ultra相差无几。目前,在测试过程中尚未明显体现CPU对iGPU算力5 vs. 18 TOPS的比例关系,不过在接下来的项目中或许能够看到更多差异……当集成显卡性能达到CPU核心的十倍时…

当大模型输入长度达到1024时,笔记本CPU的性能远远落后于iGPU(仅针对本次测试情况)。在Core Ultra H28/H45平台上,使用iGPU生成首个token的延迟约为3秒,而切换到CPU后,耗时竟高达其10倍,这样的表现显然难以令人满意。这表明,在处理大规模模型任务时,CPU的效率已无法满足需求。我认为Intel可能在软件层面优化了GPU,尤其是Ultra这一代集显。与13代Core笔记本相比,同等功耗下,iGPU在此项测试中的表现提升了约3到4倍,效果显著。测试平台:不完美,却有独特的价值所在。下面是我测试的五款笔记本,虽因条件限制,配置并非完全理想,但能取得这些数据,我已经感到满意。Precision 3591:虽更多移动工作站用户青睐NVIDIA专业显卡GPU,但此次我的测试目的另有侧重。XPS 9440:理论上,Intel核显配置应搭配6400 MT/s内存,7467内存则对应RTX 4050独显。不过我仅找到独显测试机,因此用上述核显完成了测试。Inspiron 5620:原本想找一款搭载DDR5内存、13代P28 CPU的笔记本进行对比,但近期没有合适的选择,而且这款只有16GB内存。不过,我因此发现了更多有趣的情况:)Latitude 5440也有P28 CPU/DDR5配置,我这台是低配版。更多探索、归纳与未来展望

在多数AI应用中,iGPU相比CPU速度更快、效率更高已是公认的事实。本文测试显示,Core Ultra笔记本在H28、H45甚至更高功耗释放上差异不大。毕竟,Arc集成显卡的功率输出有限,作为CPU中的一个模块,其单独运行时功耗仅能达到1x-2x瓦的水平。

在当前的Intel平台笔记本上,生成式AI主要依赖集成显卡运行。Intel 会固定将系统内存的一半分配给集成显卡作为动态显存。当输入长度增加时,例如本次测试的 1024 输入,可以明显看到 KV Cache 的开销增大。我认为至少要留出 8GB 内存供集显使用,而此时大模型仍会占用普通内存。因此,我用 16GB 内存,在没有运行其他程序的情况下也不够用。正如大家所说,AI PC 至少需要 32GB 内存才够。如果还想尝试需 16GB 以上显存的大模型,那就得选择配备更大内存的笔记本了。无论是OpenVINO还是IPEX,短期内都难以匹敌发展多年的CUDA生态。不过,只要支持Intel Arc集显的大型语言模型,通常也能兼容12代、13代笔记本CPU中的Xe显卡。尽管速度可能稍慢,但至少可以运行,并且比纯CPU运算更快。这样能够扩大软件适配的硬件范围。大家心里都清楚,搭载Intel集显的笔记本存量相当可观,挖掘这部分潜力意义重大。与高通近期推出的45 TOPS NPU相比,英特尔AMD的10 TOPS左右的NPU显得有些勉强。不过,用iGPU运行大模型也是可行的选择。虽然高通在算力上占据优势,除了微软的支持外,其软件开发环境和ARM生态构建能力仍需时间验证。此外,不仅仅是AI领域,在传统x86应用的兼容性等方面,还有更多挑战需要面对。

能否针对现有NPU算力,开发类似微软Phi3 0.5B这样的小型化模型以适应需求?欢迎大家多多提出宝贵意见,不足之处,期待下次继续交流!参考信息来自英特尔官网发布的OpenVINO工具套件在大语言模型解决方案白皮书。该文档详细介绍了如何利用OpenVINO优化大模型性能,包括推理加速、内存管理等技术方案,适用于多种应用场景,可显著提升效率与扩展性。扩展阅读:企业存储技术文章分类索引(微信公众号专辑)本文观点仅代表作者个人,与任何组织无关。如有疏漏,欢迎留言批评指正。想在本公众号分享技术干货的读者,欢迎联系我。)尊重知识,转载时请保留全文,含本行与下方二维码。感谢阅读和支持!企业存储技术微信公众号:HL_Storage

历史文章汇总页面:http://www.toutiao.com/c/user/5821930387/ 欢迎访问。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号