LongCat团队提出了一种名为DiNA(离散原生自回归)的统一建模框架,旨在让AI像处理语言一样,用同一种方式简洁有效地处理物理世界的多模态信息(如图像、语音和文本)。该框架将所有模态信号统一映射为同源的离散Token,并通过纯粹的下一个Token预测范式进行建模,从而打破了传统多模态模型中“语言基座+外挂模块”的割裂架构。 核心技术包括:1)DiNA架构,实现所有模态共享同一自回归骨干,使理解与生成在数学形式上统一;2)dNaViT(离散原生分辨率视觉Transformer),像分词器一样将图像离散化为语义完备的视觉Token,支持任意分辨率并保留细节;3)通过多级残差向量量化等技术,确保离散表示在压缩的同时保持高层语义与细粒度信息。 实验表明,LongCat-Next模型在视觉理解、图像生成、音频处理及文本任务上均达到先进水平,证明了统一离散建模的有效性。团队已将模型与分词器开源,希望推动原生多模态智能的发展。
© 版权声明
文章版权归作者所有,未经允许请勿转载。

