
ABS
目的是探索MLLMs(多模态大语言模型)的最佳实践方式,实验涉及Image Encoder(图像编码器)、VL Connector(视觉 - 语言连接符)、数据配比、训练策略等多个方面。实验得出的结论为:在大规模数据集以及模型参数量相同的情况下,不管是预训练阶段还是SFT(监督微调)阶段,不同的VL Connector的选择对最终模型性能产生的影响都比较小。但需要注意的是,在MM1中仅对Avg Pool(平均池化)、Attn Pool(注意力池化)、C -
ABStractor(卷积映射)这三种VL Connector进行了实验论证,Q - former并未参与到实验当中。更多详细内容可查阅:
https://zhuanlan.zhihu.com/p/692808151?utm_psn=1763652284700213248