50条数据解锁空间智能，RL视觉语言模型3D空间推理框架 |西北大学_资讯

50条数据解锁空间智能，RL视觉语言模型3D空间推理框架 |西北大学

创始人

2025-03-22 17:03:04

在三维空间理解任务中，让视觉语言模型（VLM）生成结构合理、物理一致的场景布局仍是一项挑战。以“请将这些家具合理摆放在房间中”为例，现有模型尽管能够识别图像中的物体，甚至给出语义连贯的布局描述，但通常缺乏对三维空间结构的真实建模，难以满足基本的物理约束与功能合理性。

为了解决这一问题，已有研究尝试采用多智能体交互（multi-agent interaction）方法，通过多个语言模型或代理之间的迭代协商与验证优化布局结果。然而，这类方法不仅计算成本高，而且在迭代过程中容易陷入死锁，导致无法收敛至有效解。

另一类方法则通过构建大规模真实房间布局的描述语料，结合监督微调（Supervised Fine-Tuning, SFT）对模型进行训练。这种方式可以在一定程度上提升模型基础能力，但受到空间任务本身的限制：空间布局任务不存在唯一的标准答案。对于同一个输入，合理的三维布局可以有多种形式，因此以单一ground truth为监督信号的SFT方法无法全面覆盖可能的合理解空间，限制了模型的泛化能力与生成多样性。

针对这一挑战，西北大学计算机系与基础模型与生成式AI中心的研究人员潘震宇 (Zhenyu Pan) 以及其导师刘晗 (Han Liu) 提出了核心问题：是否可以通过规则驱动的强化学习策略，为视觉语言模型注入空间推理能力？

三维布局任务具备强化学习适用的若干关键特性：

强化学习（Reinforcement Learning）通过奖励函数（reward function）而非依赖人工标注，引导模型在与环境交互中不断优化策略。这使其天然适用于空间布局这类缺乏唯一标准答案、解空间复杂多样的任务。近年来，结合规则奖励机制的强化微调范式（Reinforcement Fine-Tuning, RFT）已在结构化任务中取得显著成果，如文本生成、数学推理、代码理解等，典型代表包括DeepSeek-R1和OpenAI o1。

然而，在三维空间推理这一融合视觉、语言与结构理解的多模态任务中，这一策略仍未被充分探索。

为此，他们提出了MetaSpatial框架。该方法首次将基于规则奖励的RFT策略成功迁移至视觉语言模型（VLMs）的空间布局场景中，在仅使用约50条无ground truth数据的条件下，即可显著提升模型的空间推理能力与布局生成质量。

具体而言，MetaSpatial构建了一套可程序化评估的奖励函数，衡量布局结构是否合理、是否满足物理约束，以及是否符合用户偏好。同时引入多轮布局 refinement 机制，引导模型在训练过程中逐步优化空间决策。借助这一策略，模型无需依赖大规模标注数据，即可学习到具备泛化能力与结构适应性的空间推理策略。

实验结果显示，MetaSpatial在多个空间生成指标上显著优于传统SFT方法，充分验证了基于规则奖励的强化学习在三维空间智能建模中的有效性与通用性。

MetaSpatial：引入R1突破3D空间推理壁垒

MetaSpatial 将训练3D空间推理过程建模为一个多轮决策过程，其基本形式是：给定一组多模态输入，模型通过一系列推理步骤生成结构化布局输出，并基于可程序化评估的奖励信号进行策略优化。

输入与输出形式

在每一轮交互中，MetaSpatial的输入包括：

模型输出为两个部分：

The goal is to arrange the objects in a dinning room setting that includes a ,..., and respect the spatial constraints and user preferences. Here's how we can approach this:1. **Kitchen Island**: Place it centrally ...2. **Hanging Pot Rack**: Hang it above ......Let's compute the positions:- **Kitchen Island**: (3, 2.5, 0.45)- **Hanging Pot Rack**: (3, 2.5, 0.65)...Now, let's generate the JSON output.[{"new_object_id": "kitchen_island_1", "x": 3.0, "y": 2.5, "z": 0.45}, ......]

该布局JSON文件既作为最终输出，也作为强化学习中的环境状态，用于评估和反馈。

奖励函数与惩罚机制设计

为了衡量布局结果的好坏，MetaSpatial构建了三级奖励信号，分别从结构合法性、物理合理性和主观偏好三个维度评价模型输出：

1. 格式奖励（Format Reward）

2. 物理奖励（Physics Reward）

3. 物理奖励（Physics Reward）

{'realism_and_3d_geometric_consistency': {'mean': 5.0, 'std': 0.0}, 'functionality_and_activity_based_alignment': {'mean': 6.0, 'std': 0.0}, 'layout_and_furniture': {'mean': 5.0, 'std': 0.0}, 'color_scheme_and_material_choices': {'mean': 4.0, 'std': 0.0}, 'overall_aesthetic_and_atmosphere': {'mean': 4.0, 'std': 0.0}}

最终奖励为三者的加权组合，提供连续型反馈信号，以供强化学习优化使用。

Trajectory 生成与多轮布局优化

与传统一次性生成不同，MetaSpatial 在训练阶段采用multi-turn rollout策略，允许模型对布局结果进行多轮 refinement：

这种机制不仅提高了模型的布局能力，也为策略训练提供了更多的高质量决策路径。

策略优化：基于 GRPO 的强化学习训练

为实现稳定、高效的策略更新，MetaSpatial引入了Group Relative Policy Optimization（GRPO）。与常规的策略梯度方法不同，GRPO 不依赖于单条轨迹进行更新，而是利用同一输入样本生成的多条trajectory作为一个group进行比较性学习。

具体过程如下：

借助GRPO，MetaSpatial能够在样本极少（如仅50条无标注数据）的情况下，稳定学得适应性强的空间决策能力。

MetaSpatial实验结果

1. Qwen2.5 的 7B 和 3B 两个视觉语言模型（VLM）都从 MetaSpatial 框架中受益，但其中 7B 模型的性能提升更加显著。相比之下，3B 模型仍然在输出格式的生成方面存在困难，比如无法始终保持与输入一致的物体数量和名称，或是未能为所有物体持续稳定地提供完整的三维坐标（x, y, z）。

2. 实验结果表明，MetaSpatial 能够有效提升Qwen2.5-VL的3B和7B 模型的空间布局能力，但其中7B模型的提升更加明显。具体表现为：随着训练的进行，7B模型能够生成更长、更稳定、结构更清晰的响应，而3B模型的输出则表现出较大的不一致性，其响应长度波动较大，最小值和最大值之间频繁跳变，显示出在保持输出格式一致性方面的困难（例如：物体数量正确、结构化空间坐标完整等）。相比之下，7B模型的响应更加稳定，这也进一步印证了一个趋势：规模更大的模型在强化学习驱动的空间推理任务中更具适应能力。

3. 在“RL-Before vs RL-After”的对比实验中，MetaSpatial 框架在提升模型三维空间推理能力方面的效果得到了清晰体现。强化学习训练前，模型生成的物体布局普遍混乱、错位，且常出现物体漂浮、重叠或放置在不符合物理规律的位置等问题。训练后，生成的布局则变得更加结构化、逼真，并且在语义上更加连贯，表现出更强的空间感知能力、物体对齐能力以及功能合理性。

这些结果进一步强化了一个核心结论：强化学习能够有效优化视觉语言模型的空间推理策略，使其具备更自然、更实用的三维场景生成能力，可广泛应用于如元宇宙、AR/VR 以及游戏开发等多种现实场景中。

总结

总的来说，MetaSpatial的贡献主要有下面四部分：

目前，项目已全面开源，包含训练代码、评测流程、数据集生成脚本以及完整的数据集。

项目地址： https://github.com/PzySeere/MetaSpatial

上一篇：恒瑞医药创新药组合闯关FDA再度延迟

下一篇：中国海警局南海分局在“惊雷”打私行动中破案73起

50条数据解锁空间智能，RL视觉语言模型3D空间推理框架 |西北大学

相关内容

热门资讯