
苹果
M4 Ultra的内存带宽应该能达到1092GB/s,这个数值比4090略高一点,不过高得并不多。但这其实并不重要,因为M4 Ultra最早也要到明年3月才会推出,不管怎样都会比5090要晚,预计5090的内存带宽能达到1500GB/s。真正有意思的问题是,在M4 Ultra之后,是否还会有四联Max的超大杯版本。根据Mark Gurman最初的爆料,
苹果一开始是打算做一个四联胶水(产品)的。不过这个消息的可靠性值得怀疑,因为Asahi
linux的发起人Hector Martin很早就通过逆向工程预测出当时M1的底层设计仅仅支持双联。从M1 Ultra到M2 Ultra有巨大的提升这一点来看,
苹果显然是遇到了一些胶水瓶颈,可能在很早的时候就放弃了四联产品的开发。然而,四年的时间过去了,发生了许多事情。首先,Mac Pro并没有被砍掉,但是它现在的处境十分尴尬,它的性能和Mac Studio相同,价格却贵很多,而且PCI - E还不能插显卡。Mac Pro的CPU散热是按照500W的至强处理器来设计的,这个散热能力是M2 Ultra的两倍。其次,
苹果需要大量的GPU来运行云端LLM,以支持自己的私有云计算(Private Cloud Compute)。目前
苹果的云端LLM只有14B,这可能更多是受到
Apple Silicon的限制。
苹果显然不打算购买第三方显卡来做推理,所以他们需要一个比Ultra更大的显卡。除了私有云计算,
苹果可能也有一些训练需求要开放给开发者。目前
Apple Intelligence使用LoRA提升了小模型的性能。
苹果会依据具体的任务,例如邮件重写、通知总结等,先在14B(相对而言)的大模型上运行、收集数据,然后微调小模型以得到适配器(这是
苹果的术语)。目前这个流程是
苹果专属的,但在可预见的未来,必然要开放给开发者。再加上未来
苹果在端侧肯定会有多个不同的LLM版本(至少会有中文和英文两个版本),
苹果极有可能推出上传数据,放在类似Xcode Cloud的平台上进行微调,然后根据用户设备下载不同适配器的服务。当然,对于这种服务
苹果可能会继续使用TPU,不过如果使用
Apple Silicon的话,就可以在CoreML里实现,让开发者在本地进行训练和测试。用Mac运行
AI并不是果粉的疯狂之举。随着生态的成熟,包括
苹果自己官方的MLX库,用Mac运行
AI已经变成一件性价比很高的事情了——要知道这还是在
苹果内存价格昂贵的情况下。