## 南洋理工大学MMLab攻克AI交互难题：Hand2World让世界模型真正“伸手”操作
世界模型终于长出了“手”。南洋理工大学MMLab团队提出的Hand2World，攻克了AI从被动观察转向主动操作的核心难题。现有模型如Sora能生成逼真世界，Genie 3能实现3D探索，但它们始终缺少交互能力——用户只能“看”，无法“触”。Hand2World打破了这一僵局：用户只需对着一张场景照片在空中比划手势，AI就能实时生成手伸入场景抓取杯子、翻动书本或打开盒子的第一人称交互视频。这并非一次性生成，而是支持用户边看边调整手势，模型实时跟进响应，首次实现了世界模型的闭环持续交互。

这项突破的关键在于解决了长期困扰该领域的“遮挡误导”与“运动纠缠”两大技术瓶颈。传统方法基于2D手部遮罩训练，模型在训练时看到的总是被物体部分遮挡的“残缺的手”，而在实际推理时却收到完整的空中手势，导致数据分布严重错配，生成结果出现伪影。Hand2World摒弃了旧有路径，创新性地采用3D手部结构与射线编码，成功解耦了第一人称视频中纠缠在一起的手部运动与头部转动，让模型能清晰分辨“是手在动还是头在动”，从而生成背景稳定、交互逼真的视频。

该研究基于单目视频实现了全自动标注，大幅提升了数据的可扩展性与实用性，为增强现实（AR）与机器人交互等领域铺平了道路。它标志着世界模型正从纯粹的视觉仿真，迈向具备物理交互能力的下一代范式。随着主动操作难题被攻克，AI与物理世界交互的“最后一道坎”正在被跨越。
---
- **Source**: 36氪最新 (RSSHub)
- **Sector**: The Lab
- **Tags**: 人工智能, 世界模型, 人机交互, 计算机视觉, 增强现实
- **Credibility**: unverified
- **Published**: 2026-04-14 08:33:05
- **ID**: 63348
- **URL**: https://whisperx.ai/zh/intel/63348