## 美团LongCat-Next突破多模态瓶颈：统一离散Token框架，视觉理解力比肩专用模型
美团最新发布的多模态大模型LongCat-Next，正直接挑战该领域的一项核心认知：将图像、声音、文字全部转化为离散Token进行处理，不仅没有导致细节丢失，反而在关键的细粒度视觉理解任务上，达到了与专用连续特征模型相当的水平。这项基于LongCat-Flash-Lite MoE架构、拥有685亿总参数的研究成果，标志着统一多模态模型在技术路径上的一次重要突破。

LongCat-Next是一款离散原生自回归多模态大模型，其激活参数仅为30亿。在官方评测中，它在OCR、复杂图表等需要精细理解的视觉任务上，表现与同等参数量的专用视觉模型Qwen3-VL-A3B不相上下。这颠覆了业界长期认为离散化会严重损害视觉细节的固有观点。更引人注目的是，模型还破解了视觉理解与生成任务之间的优化冲突。实验表明，在联合训练中，理解任务的训练信号非但没有拖累生成质量，反而对其产生了正向促进作用，这一发现与多数统一模型的实际经验相悖。

该模型的优势不仅限于视觉。在图像生成方面，其长文本理解和文字渲染能力显著优于同类统一模型，整体生成质量可与专用文生图模型Flux-dev抗衡。在音频领域，其语音识别与理解能力也超越了Gemini 3.1 Flash-Lite preview、MiMo-Audio等同量级对手。当所有模态都以离散Token形式在同一嵌入空间共同训练后，模型内部自发涌现出跨模态的语义交融现象，视觉Token与文本Token在表示空间中形成交织分布。这一技术突破，为构建更高效、更统一的多模态人工智能系统提供了新的可能路径。
---
- **Source**: 36氪最新 (RSSHub)
- **Sector**: The Lab
- **Tags**: 人工智能, 多模态大模型, 计算机视觉, 美团技术, AI研究
- **Credibility**: unverified
- **Published**: 2026-04-02 04:59:19
- **ID**: 46628
- **URL**: https://whisperx.ai/zh/intel/46628