关于Mamba模型的争议与潜力,您怎么看?

1个回答

写回答

15925143231

2026-02-11 11:45

+ 关注

今年的ECCV上出现了不少关于Mamba的研究,但前一阵子我总觉得有些不对劲。Mamba被吹得太过头了,各种论文中的性能指标看起来异常突出,这让我心生疑虑,于是暂时放弃了对它的研究。现在回想起来,感觉自己像个笑话。我之前尝试过使用Mamba,但结果并不理想:速度慢、显存占用高,而且性能指标也不如预期。我知道直接把Transformer Block替换为VSSM Block是一种非常粗糙的操作,但真的会导致如此大幅度的性能下降吗?事实上,最早那些基于VMamba的文章正是这么做的。最近我又仔细阅读了一些新的Mamba相关研究,确实学到了一些新思路,其中有些想法确实很出色。不过也有一些地方让人忍不住吐槽。Mamba本来是为了应对Transformer二次复杂度问题而设计的,但为什么还有那么多将Mamba与Transformer结合的文章?这就像是说:我发明了一个叫电灯泡的东西,它能发光,比蜡烛亮!然后你举起灯泡,发出耀眼光芒,但在灯泡的钨丝旁边还绑着两根蜡烛(先忽略真空的问题)。谁也搞不清楚,到底是钨丝的亮度,还是蜡烛的亮度让这个灯泡变得明亮。反正,它就是亮了。2024年10月28日,同期的KAN刚刚被NeurIPS 2024拒稿了,而Mamba却在今年中了好几个会议。这是否意味着Mamba依然有很大的潜力?我不太确定。毕竟,Mamba也曾被拒过一次。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号