查看原文
其他

实时视频理解首次上端!面壁小钢炮2.6 携单图、多图、视频理解3 SOTA,全面对标 GPT-4V 最强多模态

AI前线
2024-09-17
整理 | 褚杏娟

8 月 6 日,面壁智能宣布「小钢炮」 MiniCPM-V 2.6 模型重磅上新!据悉,该模型仅 8B 参数,但将实时视频理解、多图联合理解(还包括多图 OCR、多图 ICL 等)能力首次搬上了端侧多模态模型。

据介绍,MiniCPM-V 2.6 延续了小钢炮系列一贯的以小博大与高效低成本特点:

  • “三合一”最强端侧多模态:首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V,单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini 。

  • 多项功能首次上端:实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图 OCR 等功能,第一次让端侧模型睁开观察、理解真实流动世界的「眼睛」,不仅看得清晰,还能有样学样、模仿学习。

  • 极致高效,最高多模态像素密度:类比知识密度,小钢炮 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度(token density),在端侧方寸之地,一路将大模型「能效比」挖到极限。这一进展,得益于视觉 token 相比上一代下降 30% ,比同类模型低 75%。

  • 端侧友好:量化后端侧内存仅占 6 GB;端侧推理速度高达 18 tokens/s,相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理;且支持多种语言。

  • 统一高清框架,高效能力一拖三:小钢炮的传统优势 OCR 能力延续了其 SOTA 性能水平,并进一步覆盖单图、多图、视频理解。

  • MiniCPM-V 2.6 开源地址:

GitHub🔗 https://github.com/OpenBMB/MiniCPM-V

HuggingFace: 🔗 https://huggingface.co/openbmb/MiniCPM-V-2_6

  • llama.cpp、ollama、vllm 部署教程地址:https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

  • MiniCPM 系列开源地址:
    https://github.com/OpenBMB/MiniCPM

单图、多图、视频理解 3 SOTA

以小博大,是端侧模型的核心竞争力。在知识压缩率方面,MiniCPM-V 2.6 体现出极致的高效,取得了两倍于 GPT-4o 的最高多模态大模型像素密度(Token Density) 。

注:Token Density = 编码像素数量 / 视觉 token 数量,是指单个 token 承载的像素密度即图像信息密度,直接决定了多模态模型实际的运行效率,数值越大,模型运行效率越高。

面壁通过 API 收费方式估算得到闭源模型的 Token Density,结果表明 MiniCPM-V 2.6 是所有多模态模型中 Token Density 最高的。评测结果如下:

  • 单图方面:在综合评测权威平台 OpenCompass 上,单图理解能力超越多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini ;

  • 多图方面:在多图评测权威平台 Mantis-Eval 榜单上,MiniCPM-V 2.6 多图联合理解能力实现开源模型 SOTA ,且超越 GPT-4V;

  • 视频方面:在视频评测权威平台 Video-MME 榜单上,MiniCPM-V 2.6 的视频理解能力达到端侧 SOTA,超越 GPT-4V;

OpenCompass | Mantis-Eval | Video-MME

此外,在 OCRBench 上,MiniCPM-V 2.6 OCR 性能实现开源 + 闭源模型 SOTA,延续并加强了小钢炮系列最强端侧 OCR 能力的传统优势。

在幻觉评测榜单 Object HalBench 上,MiniCPM-V 2.6 的幻觉水平(幻觉率越低越好)优于 GPT-4o、GPT-4V、Claude 3.5 Sonnet 等众多商用模型;

榜单成绩

Obiect HalBench | OCRBench

实时视频理解,首次上端

据介绍,端侧视频理解具有天然优势,手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头,具有天然的多模态输入能力。相比云端,端侧视频理解离用户更近,链路更短、效率更高,同时具有更强的隐私安全优势。

MiniCPM-V 2.6 让实时视频理解功能第一次运行在端侧。在下面对面壁智能公司实时拍摄中,室内场景的各种办公设备、墙上、会议室上的文字都能轻松被模型精准识别。

此外,对于「太长不看」的视频,现在可以直接把文件拖进来,让模型为你总结重点信息,不用看完、不用倍速、也不用快进。

这段 1 分钟左右的天气预报视频,MiniCPM-V 2.6 能在没有听到任何语音的情况下,发挥强大的视频 OCR 功能,识别出视频画面里密集的文字,给出不同视频段落中不同城市的详细天气描述。

注:该结果为代码环境中复现。

多图联合理解,首次上端

最新发布的 MiniCPM-V 2.6 首次将 多图联合理解、多图 ICL(上下文少样本学习 )功能集成在端侧模型,这也是此前业界多模态王者 GPT-4V 引以为傲的能力。

就像人们习惯把多个文件拖拽给大模型处理,在日常生活和工作中,联合处理多张图像是高频刚需。比如常令人头疼的记账或报销难题,小票上密密麻麻的数字难以辨别,更别提进行繁琐的总账计算。拍照下来,一口气甩给 MiniCPM-V 2.6,除了一一找出每张小票的金额,最后还把总账计算出来,十分方便。

强大的 OCR 能力 +CoT (思维链)能力加持,不仅小票金额精准抓取,解题思路与卷面呈现都清晰简洁:

另外,面壁还刷新了端侧多模态复杂推理能力。

比如在 GPT-4V 官方演示中的经典命题:调整自行车车座。这个对人很简单的问题对模型却非常困难,它非常考验多模态模型的复杂推理能力和对物理常识的掌握能力。MiniCPM-V 2.6 通过和模型进行多图多轮对话,清晰地告知完成调低自行车车座的每一个详细步骤,还能根据说明书和工具箱帮你找到合适的工具。

得益于强大的多图复杂推理能力,MiniCPM-V 2.6 不仅能联合识别多张图片的表面信息,还能“读懂”梗图背后的槽点。

比如让模型解释下面两张图背后的小故事,MiniCPM-V 2.6 能够通过 OCR 精准识别到两张图片上的文字:“WFH Employees 8:59 AM”和 “WFH Employees 9:00 AM”,推理出“WFH”居家办公状态,然后结合两张图片的视觉信息联合推理出“工作在家时,8:59 还在床上睡觉,9 点立马出现在视频会议上”的居家办公的“抓狂”状态,尽显梗图的槽点和幽默,可谓是多图联合理解和 OCR 能力的强强结合。

多图 ICL,首次上“端”

多图 ICL(In context learning)上下文少样本学习能激发出模型的潜力,让模型无需 fine-tune,即可快速适配到特定领域和任务,显著提高模型的输出稳定性。

在下面的例子中,直接通过视觉 prompt 给大模型下指示:

给出两组神转折画面,以及对画面中的「梗」给出示意文字描述,例如一个戴着手套、重视卫生的厨师,下一秒却用戴手套的手直接去拿实际有些肮脏的纸币;一个看似热衷环保的人,却把塑料瓶装水打开装进环保水壶……

这时 MiniCPM-V 2.6 能够自动从前面两组图文关系,揣摩出题人的意图,并自动学会“答题模版”,给出神转折答案—— 一个人手握大量加密数字货币,可你猜怎么着,他出门购物,可是商店却竟然只收现金!

统一高清视觉架构

新一代小钢炮的最大亮点:单图、多图、视频理解等核心能力对 GPT-4V 的全面对标。据悉,在 Qwen2-7B 基座模型的性能加持之外,这次功能改进还要归功于采用了统一高清视觉架构。

统一高清视觉框架,让传统单图的多模态优势功能得以继承,并实现了一通百通。例如,多管齐下的 OCR SOTA 能力 将 MiniCPM-V 单图场景的“180 万高清图像解析”进行能力迁移和知识共享,无缝拓展至多图场景和视频场景,并将这三种视觉理解场景统一形式化为图文交替的语义建模问题,共享底层视觉表示机制,实现相比同类型模型,视觉 token 数量节省超过 75% 。

OCR 信息提取的基础上,MiniCPM-V 2.6 还能进一步对表格信息进行类似 CoT(思维链)的复杂推理。比如让模型计算 2008 年奥运会获得金牌数最多的 3 个国家一共获得了多少枚金牌,CoT 的过程是:

  1. 首先利用 OCR 能力识别并提取出奖牌榜中金牌数量的前三名国家;

  2. 再将前三名国家的金牌总数相加。

8.2% 的超低幻觉率,亦是发挥了小钢炮系列 AI 可信方面的传统优势。

面壁 RLAIF-V 高效对齐技术对低幻觉贡献颇多,MiniCPM-V 2.6 的复杂推理能力和通用域多图联合理解能力亦因面壁 Ultra 对齐技术得到一并增强。

在多模态复杂推理能力对齐方面,MiniCPM-V 2.6 通过复杂题目的 CoT 解答数据,构造高效对齐种子数据,并通过模型自迭代完成数据净化和知识学习。在多图联合理解方面,MiniCPM-V 2.6 从通用域自然网页中结合文本线索挖掘多图关联语义,实现多图联合理解数据的高效构造。

活动推荐

8 月 18-19 日,AICon 全球人工智能开发与应用大会将在上海举办。来自字节跳动、华为、阿里巴巴、微软亚洲研究院、智源研究院、上海人工智能实验室、蔚来汽车、小红书、零一万物等头部企业及研究机构的 60+ 资深专家,将带来 AI 和大模型超全落地场景与最佳实践分享,帮助与会者提升技术视野、获得有价值的实践指导。大会火热报名中,详情可联系票务经理 13269078023 咨询。

 内容推荐

在这个智能时代,AI 技术如潮水般涌入千行百业,深度重塑生产与生活方式。大模型技术引领创新,精准提升行业效率,从教育个性化教学到零售精准营销,从通信稳定高效到金融智能风控,AI 无处不在。它不仅是技术革新的先锋,更是社会经济发展的强大驱动力。在 AI 的赋能下,我们正迈向一个更加智能、便捷、高效的新未来,体验前所未有的生活变革与行业飞跃。关注「AI 前线」公众号,回复「千行百业」获取免费案例资料。


今日荐文

OpenAI“秘密武器”被曝光:能识别 AI 生成内容,准确率达 99%!AI 帮你做的工作再也瞒不住你老板了
曝英伟达紧急推迟Blackwell AI芯片发货:有设计缺陷;任天堂员工平均年龄首破40岁;比亚迪成清华毕业生最爱之一 | AI周报
全球外包之王易主?每月 1200元工资还天天 996,印度程序员 AI 加持下还是集体失业了!
英特尔裁员 1.5 万人,股价暴跌 20 %!CEO:我们将提高退休员工待遇,鼓励自动离职
拜登又要出芯片新规!六家中国头部厂商遭禁,新增 120 家实体,美国的盟友却先拍桌子了!

你也「在看」吗?👇

继续滑动看下一个
AI前线
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存