LongCat团队提出了一种名为DiNA(离散原生自回归)的统一建模框架,旨在让AI像处理语言一样,用同一种方式简洁有效地处理物理世界的多模态信息(如图像、语音和文本)。该框架将所有模态信号统一映射为同源的离散Token,并通过纯粹的下一个Token预测范式进行建模,从而打破了传统多模态模型中“语言基座+外挂模块”的割裂架构。 核心技术包括:1)DiNA架构,实现所有模态共享同一自回归骨干,使理解与生成在数学形式上统一;2)dNaViT(离散原生分辨率视觉Transformer),像分词器一样将图像离散化为语义完备的视觉Token,支持任意分辨率并保留细节;3)通过多级残差向量量化等技术,确保离散表示在压缩的同时保持高层语义与细粒度信息。 实验表明,LongCat-Next模型在视觉理解、图像生成、音频处理及文本任务上均达到先进水平,证明了统一离散建模的有效性。团队已将模型与分词器开源,希望推动原生多模态智能的发展。

文章版权声明 1 本网站名称:凉西西小圈
2 本站永久网址:https://www.xcxybbs.cn
3 本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长 QQ418005852进行删除处理。
4 本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
6 本站资源大多存储在云盘,如发现链接失效,请联系我们我们会第一时间更新。
© 版权声明