新闻动态

开源2B9B模型!商汤NEO架构,多模态智能迈入“原生时代”

发布日期:2025-12-12 17:25    点击次数:78

财经摆渡人这一块儿,咱们得晓得它可是帮你把复杂的金融信息变得简明扼要的神器。它就像那个导航仪似的,总能带你穿越迷雾,找到财路。无论是股市动态,还是经济走势,都能逐一给你梳理得清清楚楚。用它一看的时候,心里就踏实多了,没那么迷糊,知道当前的热点在哪里,未来的方向在哪。说白了,就是帮你把钱赚得明明白白,甭再自己掉坑里。

精研出品

破浪奋进,共谋财富新天地

大家好,欢迎来到【古今财鉴】栏目!

商汤科技和南洋理工大学最近合作搞了个大事情,他们一起开发的NEO多模态模型架构如今正式开源啦!

这可不是一般的AI模型哦,而是业界首个真正能用的“原生多模态架构”。

现在AI领域多模态模型挺多的,但大多数都是靠拼凑凑出来的货色。这次NEO直接从底层开始重做,可以说是给行业带来了一种全新的思路。

之前的多模态模型嘛,就像是带个翻译器一样聊天,图像先变成文字,再送到语言模型那边处理。

我搞不懂,为啥图像和文字老像隔着层薄纱似的,想要合一的时候,要么丢了点细节,要么让语言理解变得慢腾腾的。

商汤打算在2024年下半年直面这个难题,首先在自家的日日新SenseNova6.0上实现了原生融合训练的功能,今年7月份推出的6.5版本,更是把编码器层面的早期融合搞得明明白白,性价比直接提升了三倍。

这时候,NEO架构突然冒出来,算是把之前积累的技术全面融合整理了一遍。

最引人注目的是商汤这次决定开源,直接推出了2B和9B两款不同参数尺寸的模型。

在AI圈里开源这事儿挺常见的,不过要是真把原生多模态的架构给公开出来,那就相当于把底层的技术蓝图摊到众人面前,真是挺豪气的一步棋。

从翻译到原生对话,NEO架构的三大技术破局点

NEO最让人觉得新鲜的地方,就是它完全放下了传统的“图像翻译器”。

过去模型在处理图像的时候,得先把图片分成一块块的小片,然后变成离散的“图像token”,就像把一幅画拆成拼图再描述,结果细节基本都丢掉了一半。

NEO开发出了一套独家的PatchEmbeddingLayer(PEL),它可以直接把像素转换成连续的词元映射,图片上的纹理、色彩渐变这些细腻的细节,模型都能完整保留住。

图像处理完了以后,位置这块也得同步跟上。

一只普通的位置信息编码,就像给文字串标个顺序号一样,可是在图像里可就不灵了。图像有长宽高三个方向,通道也是个维度,而文字只有个序列的维度,两个东西可不一样。

NEO的原生三维旋转位置编码(Native-RoPE)还挺聪明的,它把高频信息分给了视觉维度,用来抓空间结构;低频部分则留给文本维度,保证语义的连贯性。

原本觉得位置编码不过是个小动作用料,没想到一改之后,模型看图时候就像人用眼睛扫一样,能清楚地分出主体和背景,辨别得特别明明白白。

说到注意力机制,那可是全场的重点亮点。

通常啊,传统的方法在处理图文的时候,文字部分靠自回归注意力来搞定,而图片部分用的是双向注意力,两套体系各自为战,没有什么交集。

NEO直接把两种注意力放到一个框架里,文字token按顺序生成的同时,图像token可以从各个方向提供信息,真是挺厉害的设计。

就像几个人在聊,谁说话都紧跟着思路讲,听的人还会随时补充点细节,沟通一下子就变得顺畅了。

数据少10倍还更强?NEO的性能优势怎么实现的

光有技术创新可不行,还得看用起来怎么样,表现得是不是靠谱。

NEO最搞笑的地方在于,它想达到那些顶尖视觉理解模型的水平,数据量可是需要几百亿的图像加文字配对,而它只用了3.9亿左右的样本,差不多就只有别人用量的十分之一。

原本觉得数据少,性能肯定受影响,可在MMMU、MMStar这些权威评测中,NEO的总成绩居然还超过了同类的原生模型,特别是它的语言理解能力一点没掉,算是实现了“精确无损”。

推理的耗费也让人挺意外,没想到会这么低。

现在的AI模型参数动不动就上百亿,这让小设备根本撑不起来啊。

NEO专门为0.6B到8B参数这段范围量身定做的优化方案,手机、边缘设备啥的都能扛得住。

比如说,以前要处理一张多种信息混杂的网页,得依赖云端的大模型,现在在本地设备上就能搞定,反应快得很,花费也少了不少。

这样的精准度和速度双管齐下,才真算是把多模态技术从实验室搬到实际应用中,落地得实实在在。

对应的使用场景也随之逐步展开了。

由于采用早期融合方案,NEO可以应对各种分辨率的图像,长篇图文输入也完全没问题。

在视频处理方面,它能更准确地把握跨帧的动作变化;给机器人用时,视觉感知和语音指令能顺畅衔接,让操作更顺畅;在智能终端里,无论是拍照找商品还是实时翻译,反应都变得更加自然顺畅。

多模态AI呼了这么多年“看懂世界”,这次NEO算是真正踏出了一大步。

把开源这事摆出来,商汤其实走得挺前头的。

推出2B和9B模型,就像给科研和产业界搭了个“架子”,大家可以在这个基础上调调参数、改改代码,还不用从头开始造轮子。

这种开源合作加上场景应用的双轮推动,说不定真的能带动整个行业树立新的技术标杆。

归根结底,NEO架构的价值不单是一种模型,更是一种多模态AI的新理念,从“拼凑融合”转变为“原生共生”。

只要图像和文字能在模型底层直接“交流”,AI离真正搞懂这个世界,可能就不远啦。



上一篇:创建一个网站靠谱吗
下一篇:没有了