谷歌Gemini 3.1炸场:开口就能写App,Siri这回真抱上“大腿”了?

温故智新AIGC实验室

TL;DR:

谷歌发布了实时语音模型Gemini 3.1 Flash Live,这波是“动嘴派”的胜利,以后写App不靠键盘靠嗓门。不仅函数调用准确率吊打友商,连Siri都可能要靠它“续命”,程序员的键盘这回真要落灰了。

如果你还觉得和AI说话像是在跟复读机交流,那谷歌这次可能会让你彻底“真香”。

就在昨日凌晨,谷歌突袭发布了其最高质量的音频和语音模型——Gemini 3.1 Flash Live。这名字听起来有点长,但翻译成“人话”就是:谷歌给AI装上了一个反应极快、记性极好且不仅能听懂你说话,还能直接帮你把App改了的“超级大脑”。1

不仅如此,由于苹果已经获得了谷歌Gemini模型的完整授权,外网网友直接炸锅,纷纷表示:这不就是Siri梦寐以求的“最强外挂”吗?

技术大揭秘:什么是“Vibe Coding”?

这次更新中最让人直呼“好家伙”的,莫过于谷歌展示的语音驱动应用开发(Vibe Coding)

想象一下,你坐在电脑前,不用敲一行代码,只需动动嘴:“把那个麦克风图标放大点,背景再加点波普风格的黄色波点。”AI就像一个随叫随到的资深设计师兼前端工程师,在你说话的同时,界面就在实时发生变化。1

这种“脑暴式开发”不仅能实时调整UI,甚至能处理复杂的交互逻辑。

“这哪里是在写代码,这分明是在指挥‘数字民工’,只要你的‘Vibe’(感觉)对了,App就出来了。”

行业“地震”:谁在榜单上被“摩擦”了?

谷歌这次显然是有备而来,直接掏出了一堆数据作为“军功章”。在衡量语音Agent关键能力的ComplexFuncBench audio测试中,Gemini 3.1 Flash Live的函数调用准确率达到了90.8%

要知道,就在几个月前,它的前辈表现还只有71.5%左右。这种进步速度,就像是一个平时考及格的差生,突然在期末考拿了全校第一。而在Scale发布的音频输出榜单中,它也顺利把GPT-Realtime-1.5和GPT-4o Audio Preview挡在了身后。1

除了快,它还更“机灵”了:

  • 听力升级:在嘈杂的背景下也能精准捕捉你的指令,再也不怕在地铁上开会AI听不清了。
  • 记性更好:上下文窗口提升至此前的2倍,不用担心聊着聊着它就忘了你前三句说了啥。2
  • 价格感人:API价格也随之公开,文本输入每百万token仅需0.5美元。这种“加量不加价”的操作,确实很谷歌。1

未来预测:语音交互的“iPhone时刻”到了吗?

虽然谷歌在能力上限上疯狂试探,但实际体验中还是有些许“槽点”。比如智东西的初步体验显示,其中文语音表现依然有点“机械感”,不如国内的豆包那么会“唠嗑”。1

而国内玩家也没闲着。阶跃星辰的Step-Audio R1.1最近就在语音推理榜单上拿下了第一,甚至在准确率上压过了Gemini。1 看来,全球AI语音Agent的“诸神之战”才刚刚拉开序幕。

谷歌目前已经通过Google AI Studio免费开放了该模型的预览版,程序员们,是时候去试试看你的嗓门能不能撑起一个复杂的项目了。3 毕竟,未来的编程门槛可能不再是C++或Java,而是你的普通话到底标不标准。

引用


  1. 谷歌掀语音Agent新纪元,开口就是生产力,Siri的最强外挂来了? · 智东西 · 江宇 (2026/3/27) · 检索日期 2026/3/27 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. Google 剛剛推出了Gemini 3.1 Flash Live 即時多模態模型 · Threads · Prompt Case (2026/3/26) · 检索日期 2026/3/27 ↩︎

  3. Google AI Studio 使用指南:玩转最强Gemini 全家桶! · 腾讯云开发者社区 (2026/2/14) · 检索日期 2026/3/27 ↩︎