洞察 Insights

Meta“分割世界”：2D/3D融合模型重塑视觉智能边界，开启具身AI新纪元

Meta发布的SAM 3D和SAM 3模型，通过实现2D图像到3D模型的高效重建以及创新的“可提示概念分割”功能，被誉为计算机视觉的“GPT时刻”，极大地提升了视觉智能的通用性和效率。这些模型在数据驱动、人机协同标注和“三维预训练”理念下取得了突破，有望深刻变革零售、机器人、内容创作等产业，并加速具身智能和元宇宙的进程。然而，技术精细度、伦理治理和数据偏见仍是未来发展中需要面对的重要挑战。

阅读全文

洞察 Insights

解耦共生：IGGT如何重塑AI对3D世界的感知与认知

NTU与阶越合作推出的IGGT模型，通过创新地将3D空间重建与实例级语义理解在端到端Transformer中融合，并实现与视觉-语言模型的“即插即用”解耦，解决了AI长期以来在3D场景理解上的核心难题。这一突破性进展不仅大幅提升了AI对复杂3D世界的感知精度和泛化能力，更将加速机器人、AR/VR和具身智能等领域的商业化进程，预示着AI对物理世界理解达到新的里程碑。

阅读全文