美团龙猫团队开源多模态大模型 LongCat-Next - 凉西西资源小圈-凉西西资源小圈

LongCat团队提出了一种名为DiNA（离散原生自回归）的统一建模框架，旨在让AI像处理语言一样，用同一种方式简洁有效地处理物理世界的多模态信息（如图像、语音和文本）。该框架将所有模态信号统一映射为同源的离散Token，并通过纯粹的下一个Token预测范式进行建模，从而打破了传统多模态模型中“语言基座+外挂模块”的割裂架构。核心技术包括：1）DiNA架构，实现所有模态共享同一自回归骨干，使理解与生成在数学形式上统一；2）dNaViT（离散原生分辨率视觉Transformer），像分词器一样将图像离散化为语义完备的视觉Token，支持任意分辨率并保留细节；3）通过多级残差向量量化等技术，确保离散表示在压缩的同时保持高层语义与细粒度信息。实验表明，LongCat-Next模型在视觉理解、图像生成、音频处理及文本任务上均达到先进水平，证明了统一离散建模的有效性。团队已将模型与分词器开源，希望推动原生多模态智能的发展。

文章版权声明 1 本网站名称：凉西西小圈
2 本站永久网址：https://www.xcxybbs.cn
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ418005852进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

文章版权归作者所有，未经允许请勿转载。