AI能帮忙厨房看火了!面壁智能开源全模态模型MiniCPM-o4.5,边看边听还能主动抢答
创始人
2026-02-04 22:53:31
0

henry 发自 凹非寺

量子位 | 公众号 QbitAI

空气炸锅“叮”了一声。

我还没反应过来,AI先开口了:“好了,它已经叮了。”

这不是语音助手升级,而是面壁智能刚开源的全模态模型MiniCPM-o4.5

手机往厨房一放,它能一边跟你说话,一边盯着灶台、听动静。

不再是“你问一句、它答一句”,而是边看、边听、主动说的AI。

AI开始竖起耳朵,瞪大眼睛

既然这AI这么能盯,还能提醒,那是不是干脆给它挂在教室、楼道门口?

老师家长一来就提醒我,岂不美哉?(doge)

Wwwwwait!AI肯定不是这么用的。

不过,在实测和官方用例里,我们确实发现了一件挺有意思的事:它能干的事儿,已经和以前的AI不一样了。

先说最直观的。

这次面壁的MiniCPM-o4.5,最大的变化,其实就一句话:它能一边听、一边看,还能主动说

比如逛超市,人往前走,货架在变,商品也在变。

随口问一句:水果都什么价?它立马接得上。

这里的关键不在“答得快”,而在于它在回答我的同时,眼睛其实没停,一直跟着你看。

你走着,货架在变,它也能马上接话,就像旁边有个朋友。

要是放在以前的AI身上,基本就是你问一句,它答一句。

等它下一次再说话,才重新“看”一次世界,加载的圆圈多少要重新开始转几圈。

再比如出门上班。你走进电梯,刷着手机,脑子已经在想别的事了。

你只需要在一开始告诉它提醒你,它就能持续识别电梯楼层的变化,在你该下的时候,直接开口提醒。

还有一点也很关键:MiniCPM-o4.5不需要你先开口,也能主动应答

这一点,在开头的测试里表现得特别明显。因为在现实场景中,等你再去问一句“好了没”,往往已经晚了。

真正有用的是——你没问,AI听到“叮”的一声,直接来一句:“加热好了。”

此外,我们还发现MiniCPM-o4.5一个挺反直觉的地方:它在说话的时候,也还在听

因为大家都知道,人一旦开口说话,注意力基本就不在“听”上了。

但o4.5不一样,一方面,它能一边跟你聊天,一边留意外界的动静——

敲门声、烧水声、空气炸锅“叮”的那一下,都不会被漏掉。

更狠的是,在它自己说话的时候,也能听见你新插进来的指令,能实现即时自由对话

为此,我们刻意做了件有点“为难”模型的事。

它正在解说画面的蓝色鸭子在哪里,这时我突然插一句新的要求,让它告诉我小黄(鸭子)在哪里。

结果是,MiniCPM-o4.5在说完上句话后,立马回答了这句突然插入的话。

这也让MiniCPM-o4.5跟那种一问一答的AI不一样。

它不是等你说完一句再轮到它,而是一边听、一边说,一边随时改口

换句话说,今年的AI已经不玩回合制问答,开始整临场反应,学会抢答了。

顺带一提,除了上面这些,还有更“邪修”的玩法。比如让AI解说实况比赛,或者盯着你练组数、数次数。

我们就不一一演示了,链接在最后,留给大家自己去慢慢折腾。

首个可以「即时自由对话」的大模型

那么,上面这些“自由对话”是怎么做到的?

关键在于MiniCPM-o4.5对交互方式本身做了重构

以往的多模态模型,本质是串行的:先听完,再想,再说。

一旦开始输出,模型对外界输入的感知就会被暂停,形成典型的I/O阻塞,这是无法边看边听边说的原因。

在MiniCPM-o4.5中,面壁团队首次引入了全双工(Full-Duplex)多模态实时流机制。模型可以一边持续接收视频和音频输入,一边同步生成语音或文本输出,两条信息流并行运行,互不阻塞。

在实现上,MiniCPM-o4.5将原本离线的模态编码器与解码器,升级为支持流式输入/输出的在线版本;

语音侧采用文本与语音token交错建模,既支持全双工语音生成,也提升了长语音生成的稳定性。

同时,通过时分复用机制,对在毫秒级时间线上对齐的多模态输入与输出进行统一建模,实现高效的流式处理。

在整体架构上,MiniCPM-o4.5采用端到端的全模态设计,通过稠密特征将各模态的编码器与解码器直接连接到大语言模型主干,视觉、音频等模态在模型生成输出的同时仍能持续更新。

除了并行处理,MiniCPM-o4.5还改变了对话时机的判断方式。模型会持续进行语义层面的判断,并以1Hz的频率决定是否介入回应,而不再依赖“检测到静音就回答”的VAD(语音互动检测)机制。

(传统语音助手往往依赖外部的VAD:一旦检测到短暂静音,就认为用户“说完了”并开始回答)

这使得模型不仅能被自然打断,还能基于对场景的持续理解,主动发起提醒或评论。

这也是为什么前面我还没把话说完,它就已经“抢答”了。

此外,值得一提的是,在Benchmark测试上,MiniCPM-o4.5的表现同样亮眼。

在仅9B参数规模下,模型在全模态理解、视觉理解、文档解析、语音理解与生成,声音克隆等多个方向上,均达到了当前全模态模型的领先水平

那么像MiniCPM-o4.5这样,边看、边听、主动说的AI,意味着什么?

最近,Clawdbot(现已更名为OpenClaw)的爆火,其实已经提前给了答案:人们真正需要的,可能不是“更聪明的问答机”,而是能持续运行、一直在场的AI

不是你问它一句,它才醒一下;而是它本来就在运行,在看、在听,也随时准备说话。

这,正是这类“边看、边听、主动说”的模型真正产生价值的地方。

过去的AI,更像对讲机。你说完,它才听;它一开口,外界就等于被按了暂停键。

而这一次,面壁做的尝试是:让AI在说话的时候,世界周遭事物依然是流动的。它在持续感知世界的同时,也在持续参与对话和行为,而不是仅在节点式的“提问/回复”之间来回倒腾。

也正因为这样,它能自然地延展到更多地方:

对具身智能来说,感知、决策、动作本来就不该被拆开;对车端或终端助手来说,真正有用的往往不是“回答问题”,而是在合适的时机接话;对复杂系统来说,“等一下再想”本身就是一种失效。

因此,全双工并不是体验升级,而是AI能否真正进入现实连续世界的分水岭。

也正是在这个意义上,面壁将MiniCPM-o4.5定义为一款全模态的基础模型,并以此作为后续赋能汽车、手机、机器人等各类终端形态的起点。

面壁智能:只做端,把端做到极致

面壁智能成立于2022年8月。

在端侧AI还远没成为行业热词、讨论重心仍集中在云端和算力堆叠时,面壁就已经把方向押在了端侧AI模型这条路上。

这次发布的MiniCPM-o4.5,由清华大学人工智能学院助理教授、面壁智能多模态首席科学家姚远牵头研发。

在整场发布中,面壁反复强调了两个关键词:软硬一体,端侧部署

以MiniCPM-o4.5为例,它主打的是持续感知视觉和听觉环境。而这种“全天候伴随”的AI形态,本身就无法以云端为主要形态存在。

一方面是不可回避的隐私风险;另一方面,是延迟、稳定性和可用性在工程上根本扛不住。

也正因为如此,MiniCPM-o4.5从一开始就被定义为一款端侧模型,并且与面壁长期坚持的端侧路线保持高度一致。

面壁智能联合创始人、CEO李大海在采访中提到:

端侧模型的目标,本来就是赋能终端,而赋能终端天然就要跟端侧芯片要做更深的结合。

据透露,过去近两年,面壁与多家芯片厂商形成了一种高度协同的工作方式:

芯片在设计阶段就向模型侧开放,验证架构是否匹配未来模型需求;模型研发也同步反向输入,对算子形式与硬件能力提出明确要求。

这种软硬一体、双向奔赴,已经成为模型演进的前提条件。

在具体的路径上,面壁智能联合创始人、COO雷升涛则给出了更清晰的拆解:

  • 端原生模型:不把云端模型压缩下来跑,而是在训练阶段就以端侧芯片为目标环境,让模型“生来就能跑在端上”。
  • 软硬协同的Infra层:包括量化、精度压缩之后能力如何保持。这一层技术难度极高,依赖长期积累,是最核心的壁垒。
  • 产品化交付:把这些能力打包成可直接使用的方案,交付给客户和合作伙伴,跑在不同终端上。

像面壁计划在年中发布的首款AI硬件松果派(Pinea Pi),用于支持硬件场景的全栈开发,以及过去一年多在智能座舱等方向的落地,都是这条软硬协同路线的具体体现。

从这个角度看,MiniCPM-o4.5本身也可以被理解为一款端侧原生的全模态模型。

据面壁智能介绍,MiniCPM-o4.5将与松果派这款AI Native的端侧智能开发板配套推出,计划于今年上市,在开发板上实现“开箱即用”,面向开发者快速构建端侧智能硬件。

与此同时,松果派等端侧硬件本身,也构成了面壁在生态层面的能力:

在发布模型的同时,就明确指定并深度适配好的硬件平台,让开发者更快上手,让终端厂商更快把能力真正跑进场景里。

本质上,这是在打通端侧模型到应用的最后一公里

当被问及如何看待有越来越多玩家进入端侧市场时,面壁也指出了一个常被误解的地方:很多人把“端侧”当成一个统一市场。

但在面壁看来,其实恰恰相反——端侧由大量差异化终端和长尾高价值场景构成。

从技术上看,端侧的关键不是规模,而是用尽可能少的参数,实现尽可能强的能力。

从商业上看,这也意味着:这是一个可以同时容纳很多创业公司的市场,而不是必须打“阵地战”的地方。

也正是在这种背景下,面壁给出的差异化非常明确:

我们最大的差异化就是我们只做端,而且我们把端做到极致。如果一家公司专注于做端的话,那我觉得其他公司可能很难跟我们相比把端做得这么好。

从两三年前手机、车、机器人普遍质疑“真的需要大模型吗”,到今天逐渐成为共识,端侧AI正在不断被重新定义。

而MiniCPM-o4.5所呈现的,并不是一次炫技式的能力展示,而是面壁这条路线走到今天的自然结果:

只做端,把端做到极致

GitHub:https://github.com/OpenBMB/MiniCPM-o

HuggingFace:https://huggingface.co/openbmb/MiniCPM-o-4_5

ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5

体验链接-全双工全模态模式:https://huggingface.co/spaces/openbmb/minicpm-omni

体验链接-图文对话模式:http://211.93.21.133:18121/

相关内容

2026年常州屋顶防水补漏...
随着建筑使用年限的增长以及极端天气的频发,屋顶防水补漏已成为建筑维...
2026-02-04 23:06:34
2026年常州卫生间漏水检...
随着城市化进程的深入和既有建筑存量时代的到来,建筑渗漏问题,尤其是...
2026-02-04 23:06:17
2026年常州地下室防水补...
随着城市化进程的深入与既有建筑的老化,地下室空间的防水防潮问题日益...
2026-02-04 23:06:15
2026年常州厨房防水维修...
在现代建筑维护体系中,厨房防水维修的重要性日益凸显。厨房作为家庭或...
2026-02-04 23:06:06
2026年 常州外墙防水维...
2026年常州外墙防水维修施工队口碑推荐:专业团队与高效解决方案深...
2026-02-04 23:05:40
探讨靠谱的钢梁钢柱包封硅酸...
在建筑领域,钢梁钢柱的防火防护至关重要,关乎着整个建筑的安全与稳定...
2026-02-04 23:04:56
2026年 建筑漏水检测施...
2026年建筑漏水检测施工队推荐:专业精准定位与高效修复服务口碑之...
2026-02-04 23:04:37
讲讲净化工程精品定制施工队...
在当今对环境洁净度要求日益严苛的时代,净化工程的作用愈发凸显。无论...
2026-02-04 23:04:01
2026年市场比较好的北京...
在2026年,随着人们生活品质的提升,对装修的要求也越来越高。个性...
2026-02-04 23:03:29

热门资讯

2026年国内专业的北京装修公... 在2026年,装修行业迎来了全面升级,客户对于装修的需求愈发多元化和精细化,传统的装修模式已经难以满...
2026年2月玉林装修公司排行 在玉林,装修是众多业主生活中的一件大事,选择一家靠谱的装修公司至关重要。2026年2月,玉林装修公司...
中建珠江海外取得带防护结构塔吊... 国家知识产权局信息显示,中建珠江海外发展有限公司取得一项名为“一种带防护结构的塔吊料斗”的专利,授权...
立春暖气片养护,为停暖做好准备 立春过后,气温逐渐回升,供暖即将进入尾声,此时做好暖气片养护,既能保障剩余供暖期的使用效果,也能为来...
口碑好的办公屏风厂家实力盘点与... 导语:办公屏风作为现代办公空间规划的核心设备,其设计合理性、材质安全性及功能适配性直接影响团队协作效...
颈椎枕的选择与使用指南:科学护... 在现代生活中,越来越多的人因长时间坐办公室、低头玩手机或不当的睡姿而饱受颈椎不适的困扰。根据世界卫生...
数字人不是“花瓶”!2026年... 2026年,数字人技术正从概念走向现实,从实验室走向产业,从单一功能走向多元应用。大模型RAG与智能...
上海铂金饰品回收,免费估价,专... 上海宝易埠珠宝:专业回收铂金饰品的首选之选 在上海这座繁华的大都市,珠宝市场犹如一颗璀璨的明珠,散发...
北京家居适老化改造的“破”与“... 午后阳光斜照进通州区一处老小区的三楼阳台,77岁的李凤萍(化名)扶着崭新的助行器,从客厅缓缓走向卫生...
AI能帮忙厨房看火了!面壁智能... henry 发自 凹非寺 量子位 | 公众号 QbitAI 空气炸锅“叮”了一声。 我还没反应过来,...