
中国
混合架构模型的实际潜力尚未被充分认识。这种模型能够融合不同架构的优点,最大化各自长处并弥补短板。在训练时,各部分架构会提取相应的特征,从而增强模型的特征表达多样性。过去对其重视不足,或许源于Attention is all you need这一标题的影响。然而从当前视角出发,在合理初始化与有效训练的基础上,模型架构越多样化,其性能往往越出色。在中国,若想尝试新架构,建议选择RWKV而非Mamba。原因是RWKV有企业支持和客服服务,且每年迭代一次架构。当前两者性能相当,但RWKV在外部资源和支持方面具备Mamba所不具备的优势。真正有能力的研究者,我建议别拘泥于Mamba、RWKV和Transformer,应着手开发全新架构。AGI会基于哪种架构实现尚无定论。神经图灵机(NTM)潜力巨大,若能攻克并行训练难题,很可能成为AGI架构的有力选项。探索未知,方能引领未来。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号