
人类
大型语言模型(LLMs)与视觉 - 语言模型(VLMs)不断发展,这极大地促进了人工智能的发展。不过,在迈向真正的人工通用智能(AGI)时,它们仍存在着关键的局限性。AGI得有广泛知识、多领域推理能力,还要能适应新环境与挑战。但现有的LLMs和VLMs大多专注特定领域或任务,缺乏跨领域综合知识,也没有处理复杂问题的能力。而且,这些模型往往依靠大量外部数据,人类的一般智能则来自内在认知机制与经验的累积。所以,要达成AGI,就必须对模型设计、学习流程以及推理方式等进行深度研究与创新。简而言之,大型语言模型和视觉 - 语言模型虽能力惊人,但距离真正的人工通用智能仍有漫漫长路。关键挑战在于知识广度、跨领域推理和内在认知机制建模等方面。令人惊讶的是,研究结果显示,即便像GPT - 4和Gemini这样最先进的视觉语言模型(VLMs),在瑞文渐进矩阵(RPMs)任务中的表现也差强人意,往往只是比随机猜测略好一些。由于RPMs是标准化智商测试里的抽象视觉模式识别任务,所以这些模型的准确率与人类表现相比相形见绌。研究发现VLMs在复杂视觉推理任务中的性能受三个关键瓶颈限制。这些瓶颈表明,视觉语言模型(VLMs)在达成通用智能的关键认知能力方面,如感知、学习、推理以及解决跨模态新问题时,存在着根本性限制。这和人类智力的灵活运用不一样,人类智力涵盖广泛知识领域、多领域推理,且能基于单一视觉输入,无需自然语言提示或训练数据。
这一差距表明朝着人工智能通用智能(AGI)发展面临巨大挑战。若要突破瓶颈,达成人类水平的AGI,就得进行多学科融合的努力,像认知科学、神经科学、发育心理学等领域都要涵盖其中。我们要有更丰富、更严谨的理论框架与训练方法,保证AI系统在发展时能形成像人类那样普遍、多元模态的推理能力。其可能的发展方向为提升抽象视觉处理能力、基于少量示例的关系学习、概念组合表示和假设生成等关键技能。总体而言,若不突破视觉推理与认知能力的核心局限,人工智能就会不断出现专业化和局限性的问题,终究无法达成与人类通用智能相当的全面、灵活且广泛的智能。诸如关系推理问题(RPMs)这类任务的基准测试,对衡量进步、发现盲点、激励创新以及推动人工智能发展出类似人类的灵活、动态和广泛特性的关键领域极为重要。通向通用人工智能(AGI)的道路或许艰难重重,但承认并正视这一挑战,对达成这一革命性的里程碑意义非凡。要提升视觉语言模型(VLMs)识别与描述抽象视觉模式和关系的能力,关键是多维度优化其感知和推理能力。首先,可探索对比学习(Contrastive Learning)或者强化学习(Reinforcement Learning)技术。这两种技术能提升VLMs的视觉归纳推理能力,还能为生成与验证假设提供有效策略。其次,构建多元丰富、包含不同视觉归纳推理风格的多模态基准测试非常关键。这有助于评估模型在各类抽象视觉问题中的表现,推动该领域不断发展进步。此外,VLMs在视觉推理任务中可能过度自信或不确定性校准不足,所以研究校准技术与方法也极为重要。同时,改进提示工程(Prompt Engineering)的方法,让其专为视觉语言高效交互和推理而设计,这也是提升整体系统性能的关键。要让VLMs专门应对像RPM这种颇具挑战性的视觉推理领域,可精心挑选RPM训练数据,运用精细的微调策略。如此,模型在特定视觉抽象推理任务中的表现能达到更高水平。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号