## 美团发布原生多模态LongCat-Next，统一视觉语音文本为AI“原生母语”
美团发布并全面开源其原生多模态大模型LongCat-Next，直接挑战当前以语言为中心的“拼凑式”AI架构。该模型的核心在于其离散原生分辨率视觉分词器（dNaViT），它将图像、语音与文本统一映射为同源的离散Token。这意味着，LongCat-Next不再将视觉和语音视为需要额外“翻译”或拼接的模块，而是通过纯粹的“下一个Token预测”范式，让它们成为AI的“原生母语”。此举旨在从根本上提升模型对多模态信息的理解和生成效率。

LongCat-Next的发布，标志着美团在基础模型层面对AI技术路线的关键押注。不同于主流大模型通常以文本为核心，再外挂视觉或语音模块的做法，美团试图从底层统一数据表示，追求更高效、更统一的多模态智能。其开源策略也意图吸引开发者生态，加速技术迭代与应用落地。

这一技术突破可能对美团的本地生活服务、即时零售、无人配送等多个核心业务场景产生深远影响。更强大的原生多模态理解能力，有望显著提升其平台在商品识别、语音交互、内容生成及复杂环境感知等方面的智能化水平。在AI军备竞赛日趋激烈的背景下，美团此举不仅是技术展示，更是对其未来业务护城河的一次重要构建。
---
- **Source**: 36氪
- **Sector**: The Lab
- **Tags**: 人工智能, 多模态大模型, 开源, 美团, LongCat-Next
- **Credibility**: unverified
- **Published**: 2026-03-27 05:09:54
- **ID**: 36841
- **URL**: https://whisperx.ai/en/intel/36841