AI PC选型指南(1)，为什么是LLM大语言对话模型？

1个回答

云朵118

2026-02-16 08:35

仅供参考补充。当核显性能达到核心性能十倍…测试平台： imperfect有其独特的价值所在。更多探索、总结与未来展望拟定题目AI PC选型指南时，感觉内容可能涵盖不足，于是加上了序号(1)，方便后续继续补充完善，同时也避免篇幅过长导致内容难以一次性完整呈现。这篇文章推荐给关注在PC上运行端侧大模型的朋友们。即使您已获取官方参考数据，仍建议参考此测试。我主要探讨使用CPU（含iGPU集成显卡）进行推理的表现，不仅涉及最新的AI PC，还涵盖英特尔13代大小核架构处理器，您将看到Arc与Xe性能的对比分析。为何选择大语言对话模型？因其强大与广泛适用性。几个月前，我参与了一场关于AI PC的市场活动，有同事感叹：展台上大多展示的是语言类模型。这在国内确实常见，毕竟像微软Copilot这样的产品都难以落地。无论是聊天机器人、AI助手、翻译工具、文档总结功能，还是RAG（检索增强生成）本地知识库，都离不开大型语言模型的支持。

这是在戴尔 AIPC笔记本上运行的本地大模型演示。不同硬件的算力对比，在这类应用中主要体现为输出速度（每秒生成的token数）和响应延迟。另一个备受关注的原因是，现有的AIPC CPU（如Intel Ultra系列）已能顺畅运行LLM推理，达到适配正常阅读的输出速度。例如上述Demo展示，Intel Arc集成显卡的算力相比以往CPU有显著提升。同时，通过优化控制，显存占用可保持在4GB以上（以int4量化加载6B模型为例），这进一步提升了效率和实用性。第一次见到这类演示时，我心中浮现了两个小想法。其一是：能在非AI PC上运行吗？本文将解答这个疑问；第二个想法暂且留待日后实现后再与大家分享：）高通近期时常明示或暗示地拿Intel第一代Ultra CPU的NPU算力作比较，其仅有11 TOPS（INT8）。Intel则表示，CPU核心加上GPU与NPU总计可达34 TOPS。除去CPU常规约5 TOPS以及NPU的算力，目前实际算力最强的是iGPU，也就是Arc集成显卡，大约能达到18 TOPS。这表明在综合性能上，各部件的贡献各有侧重。Intel与微软的下一步计划，或许关注新闻的朋友们已有所了解。我打算先分享测试数据，留待文末再做展望。测试内容：每秒生成的token数（平均延迟）与首个token的延迟时间。如何评估对比AI算力性能？这个问题我思考了很久。行业内并非缺乏BenchMark基准测试工具，但现有工具要么聚焦于基础架构，比如GPU服务器，要么仅提供一个跑分，难以全面反映实际表现。相比之下，之前测试图形或视频工作站时，会安装具体的ISV应用软件，例如SolidWorks或Davinci进行实际运行。同样地，AI算力测试也应使用具体的大模型来推理运行，这样得出的结果更直观、更有说服力和参考价值。拓展阅读：基准测试的局限性——NVIDIA RTX A4000显卡在SOLIDWORKS中的性能表现分析双路Xeon NUMA优化权衡：DaVinci 4K/8K视频剪辑与调色性能测试

尽管用英文数据测试，但中文大模型在该领域的能力不容小觑。唯一的差异在于，英文单词输出速度看似更快，因为1000词的英文约等于800字的中文。在此次测试中，我采用了ipex-llm框架（源于Big-DL）中的BenchMark工具，支持手动设置以下参数：选择测试模型，本次主要采用智谱的ChatGLM3-6B进行实验。推理引擎：例如transformer。计算精度上，对于集成显卡的笔记本，采用量化精度如sym_int4会比直接使用FP16更适合。

英特尔

我此次共测试了5款笔记本电脑（包括移动工作站），旨在评估不同定位CPU的大型语言模型推理能力。每款CPU均通过自身及集成显卡iGPU运行测试，图表中用同一颜色标识。为提供参考并减少品牌间的横向对比争议，具体CPU型号未完全列出。在测试中，连续输出 token 的性能最优的是 Core Ultra H28/H45（TDP 为 28/45W）所配备的集成显卡 Arc iGPU，其速度可达 22 token/秒。而使用这两款笔记本的 CPU Core 运行时，性能相差不大，均为 14 token/秒。那么，不同笔记本的散热设计与性能调校，对大模型推理应用是否毫无影响？这个问题，建议大家先看完后续测试内容再一起探讨。

今年初，我在Intel Core Ultra解析：AI NPU+小小核的理想与现实一文中整理了格。从表中可以看出，Core Ultra U15系列CPU依然采用2个大核加8个小核的设计，集成显卡并未使用Arc命名，且仅具备H系列一半的4个Xe-Core。因此，在我的测试中，一款搭载Ultra 7 U15的轻薄本性能稍低是正常现象。然而，这款CPU相较于上一代产品——Core 13代的U15和P28，仍实现了显著提升，这也正是AI PC价值的体现。仅看token生成速度，Core Ultra H28比上一代P28快两倍多，无论使用iGPU还是CPU运行。官方对比测试数据——供补充参考使用

集成显卡与独立显卡对比上面的图表看起来像是从Intel官方文档中截取的，实际上，它来源于Optimizing Large Language Models with the OpenVINO? Toolkit。这里给大家提供一些额外参考。该报告专注于使用OpenVINO进行优化，而我的测试则基于IPEX工具完成，两者各有侧重，但都旨在提升大型语言模型的性能表现。Intel的报告同样采用int4测试，以平均延时（ms/token）计算吞吐量（token/秒）。但其具体数值似乎比我测得的低？部分原因可能是：测试中未将首个token的延时与从第2个token起的平均延时区分开来评估，而直接使用了Input/Output为1024/128的整体数据。当然，也可能存在其他因素，例如测试平台、驱动版本等存在差异，因此结果仅供参考。

处理器性能对比英特尔公布了13900K台式机CPU的测试数据，其性能略胜Ultra 7 165H一筹，但125W TDP的能效比不够理想。因此，英特尔第13代、14代桌面处理器未被冠以AIPC之名，除非搭配独立显卡提升GPU性能。以下是我在测试时第一个token的输出延迟情况：

需要注意的是，一项测试存在特殊情况：搭载13代i7 P28 CPU的笔记本仅配备16GB内存，用集成显卡运行6B大模型时已接近内存极限，因此2556.77这一数值应视为异常。其他机型均配备32GB及以上内存，未出现此类问题。

第13代Core P28笔记本展现了不俗的计算能力，CPU核心测试中延时为1407ms，与Core Ultra相差无几。目前，在测试过程中尚未明显体现CPU对iGPU算力5 vs. 18 TOPS的比例关系，不过在接下来的项目中或许能够看到更多差异……当集成显卡性能达到CPU核心的十倍时…

当大模型输入长度达到1024时，笔记本CPU的性能远远落后于iGPU（仅针对本次测试情况）。在Core Ultra H28/H45平台上，使用iGPU生成首个token的延迟约为3秒，而切换到CPU后，耗时竟高达其10倍，这样的表现显然难以令人满意。这表明，在处理大规模模型任务时，CPU的效率已无法满足需求。我认为Intel可能在软件层面优化了GPU，尤其是Ultra这一代集显。与13代Core笔记本相比，同等功耗下，iGPU在此项测试中的表现提升了约3到4倍，效果显著。测试平台：不完美，却有独特的价值所在。下面是我测试的五款笔记本，虽因条件限制，配置并非完全理想，但能取得这些数据，我已经感到满意。Precision 3591：虽更多移动工作站用户青睐NVIDIA专业显卡GPU，但此次我的测试目的另有侧重。XPS 9440：理论上，Intel核显配置应搭配6400 MT/s内存，7467内存则对应RTX 4050独显。不过我仅找到独显测试机，因此用上述核显完成了测试。Inspiron 5620：原本想找一款搭载DDR5内存、13代P28 CPU的笔记本进行对比，但近期没有合适的选择，而且这款只有16GB内存。不过，我因此发现了更多有趣的情况：）Latitude 5440也有P28 CPU/DDR5配置，我这台是低配版。更多探索、归纳与未来展望

在多数AI应用中，iGPU相比CPU速度更快、效率更高已是公认的事实。本文测试显示，Core Ultra笔记本在H28、H45甚至更高功耗释放上差异不大。毕竟，Arc集成显卡的功率输出有限，作为CPU中的一个模块，其单独运行时功耗仅能达到1x-2x瓦的水平。

在当前的Intel平台笔记本上，生成式AI主要依赖集成显卡运行。Intel 会固定将系统内存的一半分配给集成显卡作为动态显存。当输入长度增加时，例如本次测试的 1024 输入，可以明显看到 KV Cache 的开销增大。我认为至少要留出 8GB 内存供集显使用，而此时大模型仍会占用普通内存。因此，我用 16GB 内存，在没有运行其他程序的情况下也不够用。正如大家所说，AI PC 至少需要 32GB 内存才够。如果还想尝试需 16GB 以上显存的大模型，那就得选择配备更大内存的笔记本了。无论是OpenVINO还是IPEX，短期内都难以匹敌发展多年的CUDA生态。不过，只要支持Intel Arc集显的大型语言模型，通常也能兼容12代、13代笔记本CPU中的Xe显卡。尽管速度可能稍慢，但至少可以运行，并且比纯CPU运算更快。这样能够扩大软件适配的硬件范围。大家心里都清楚，搭载Intel集显的笔记本存量相当可观，挖掘这部分潜力意义重大。与高通近期推出的45 TOPS NPU相比，英特尔和AMD的10 TOPS左右的NPU显得有些勉强。不过，用iGPU运行大模型也是可行的选择。虽然高通在算力上占据优势，除了微软的支持外，其软件开发环境和ARM生态构建能力仍需时间验证。此外，不仅仅是AI领域，在传统x86应用的兼容性等方面，还有更多挑战需要面对。

能否针对现有NPU算力，开发类似微软Phi3 0.5B这样的小型化模型以适应需求？欢迎大家多多提出宝贵意见，不足之处，期待下次继续交流！参考信息来自英特尔官网发布的OpenVINO工具套件在大语言模型解决方案白皮书。该文档详细介绍了如何利用OpenVINO优化大模型性能，包括推理加速、内存管理等技术方案，适用于多种应用场景，可显著提升效率与扩展性。扩展阅读：企业存储技术文章分类索引（微信公众号专辑）本文观点仅代表作者个人，与任何组织无关。如有疏漏，欢迎留言批评指正。想在本公众号分享技术干货的读者，欢迎联系我。）尊重知识，转载时请保留全文，含本行与下方二维码。感谢阅读和支持！企业存储技术微信公众号：HL_Storage

历史文章汇总页面：http://www.toutiao.com/c/user/5821930387/ 欢迎访问。

举报有用（0）分享收藏

AI PC选型指南(1)，为什么是LLM大语言对话模型？

1个回答

云朵118

热门话题

相关问题