请前往标签设置摘要
清华大学团队 投稿量子位 | QbitAI近年来,多模态大模型(MLLMs)发展迅猛,从看图说话到视频理解,似乎无所不能。但你是否想过:它们真的“看懂”并“想通”了吗?模型在面对复杂的、多步骤的视觉推理任务时,能否像...