卡内基梅隆大学推出AI模型LegoGPT，敲键盘就能生成可搭建积木_资讯

创始人

2025-05-09 22:31:27

IT之家 5 月 9 日消息，据外媒 Tom's Hardware 今日报道，卡内基梅隆大学的研究团队开发出一款名为 LegoGPT 的 AI 模型，能够根据文字指令生成可实际搭建的乐高设计。

IT之家附项目地址：LegoGPT: Generating Physically Stable and Buildable LEGO Designs from Text

GitHub：https://github.com/AvaLovelace1/LegoGPT/

根据介绍，团队训练了一种自回归大型语言模型，通过预测下一个 token 的方式，判断下一块该放置什么积木。

团队还为模型增加了有效性校验和带有物理感知的回滚机制，确保生成的设计不会出现积木重叠或悬空等问题，也就是说最终结果始终可行且结构稳固。不仅如此，LegoGPT 输出的设计，既能由人手搭建，也支持机器人操作。

用于训练 LegoGPT 的数据集被命名为 StableText2Lego，构建流程也相当复杂：系统会先将文本提示转化为 ShapeNetCore 网格模型，再将其嵌入一个 20×20×20 的体素网格中，从而生成初步的乐高积木布局。

在保持整体造型不变的前提下，系统对这些布局做出变化，随后剔除掉结构不稳定的设计。保留下来的样本会从 24 个不同角度进行渲染，最终交由 GPT-4o 生成相应的描述文本。

该数据集包含超过 47000 个乐高建构样本，涵盖了 28000 多种三维造型，包括书架、桌子、椅子、汽车、船只、吉他等。这些数据被用来训练模型，使 LegoGPT 能够从一段文字生成独特且原创的设计。

LegoGPT 首先把用户输入的文本转化为乐高设计图，再按从底部到顶部的顺序，将这些设计编码为文本 token。系统随后会生成指令，将乐高积木结构与注释相对应，让模型学会理解文本描述与积木组件之间的对应关系。

接下来，LegoGPT 采用自回归方式一步步预测需要放置的下一块积木。每次添加积木时，系统都会检验其格式是否正确、是否存在于积木库中、是否与已有结构冲突。这一过程会持续进行直到设计完成，最后还会进行稳定性测试。

如果 AI 判断结构不稳，它会自动回滚到最近的稳定状态，再从该点继续生成，直到完成稳定设计。

目前，这个项目已经完全开源，团队发布了数据集、代码和模型，方便其他人复刻或扩展。