
公司
国内有个主业做量化的
公司,能搞出大模型就已经相当厉害了。可现在,它竟然只用了其他同级别模型十分之一的成本,就训练出处于第一梯队的大模型,这真的很令人钦佩!回到相关问题上,
DeepSeek证实了算力极限会制约大模型的演进其实是个伪命题。在硬件、架构、算法等方面,还有很大的工程优化空间,而且这个上限相当高。我对此深信不疑,因为目前大模型的上限与
人类大脑的上限相比,差距非常大。
人类大脑拥有600万亿神经元突触,功率大概仅20瓦,而1000B(1万亿)参数的大模型,推理时消耗功率达上千瓦,训练时消耗就更大了,至少是百万瓦级别。更厉害的是,
DeepSeek还把优化的过程和方法详细地写在论文里,并且把模型开源了。从这点来看,
DeepSeek真可谓是行业中的一盏明灯,比Close
AI强太多了。再想想看,人家居然是国内的一个量化基金,真的是再次令人钦佩!