## 南洋理工与港中文团队突破动作生成瓶颈：MoTok模型实现“越控制越自然”，token量压缩至1/6
在动作生成领域，追求精确控制往往以牺牲动作的自然流畅度为代价，反之亦然。这一长期存在的“二选一”困境，如今被南洋理工大学与香港中文大学的研究团队提出的新模型“MoTok”所打破。该模型的核心突破在于，它成功摆脱了现有方法中可控性与自然度相互拉扯的局限，实现了在增强控制的同时，动作质量反而得到提升的“越控制越自然”效果。

研究团队指出，现有方法的根本问题在于，将“高层语义规划”（决定动作要做什么）和“低层细节重建与控制”（决定动作如何精确执行）这两类性质不同的任务，强行塞进了同一个生成阶段。这导致模型在全局一致性与局部精细约束之间难以平衡。MoTok则首创了一种基于扩散模型的离散运动分词器，为条件动作生成提出了一种全新的“感知-规划-控制”三阶段通用范式。在这一范式下，模型先理解输入条件，然后在离散的token空间进行高层语义规划，最后由一个基于扩散的解码器负责低层动作细节的重建与精确控制。

这一架构革新带来了显著的性能提升。在将运动token数量压缩至现有最佳方法六分之一的前提下，MoTok将轨迹误差降低了89%，动作质量评估指标FID降低了65%。尤为关键的是，在施加更强的关节轨迹控制时，模型的动作自然度（FID）反而进一步降低了58%。这不仅证明了其架构的有效性，也为机器人、动画、虚拟人等需要高精度且自然动作的领域，提供了一个摆脱取舍困境的统一新范式。
---
- **Source**: 36氪最新 (RSSHub)
- **Sector**: The Lab
- **Tags**: 人工智能, 动作生成, 计算机视觉, 扩散模型, MoTok
- **Credibility**: unverified
- **Published**: 2026-03-31 08:39:38
- **ID**: 42749
- **URL**: https://whisperx.ai/zh/intel/42749