谷歌Gemini 3.1炸场：开口就能写App，Siri这回真抱上“大腿”了？

谷歌发布了实时语音模型Gemini 3.1 Flash Live，这波是“动嘴派”的胜利，以后写App不靠键盘靠嗓门。不仅函数调用准确率吊打友商，连Siri都可能要靠它“续命”，程序员的键盘这回真要落灰了。

如果你还觉得和AI说话像是在跟复读机交流，那谷歌这次可能会让你彻底“真香”。

就在昨日凌晨，谷歌突袭发布了其最高质量的音频和语音模型——Gemini 3.1 Flash Live。这名字听起来有点长，但翻译成“人话”就是：谷歌给AI装上了一个反应极快、记性极好且不仅能听懂你说话，还能直接帮你把App改了的“超级大脑”。¹

不仅如此，由于苹果已经获得了谷歌Gemini模型的完整授权，外网网友直接炸锅，纷纷表示：这不就是Siri梦寐以求的“最强外挂”吗？

这次更新中最让人直呼“好家伙”的，莫过于谷歌展示的语音驱动应用开发（Vibe Coding）。

想象一下，你坐在电脑前，不用敲一行代码，只需动动嘴：“把那个麦克风图标放大点，背景再加点波普风格的黄色波点。”AI就像一个随叫随到的资深设计师兼前端工程师，在你说话的同时，界面就在实时发生变化。¹

这种“脑暴式开发”不仅能实时调整UI，甚至能处理复杂的交互逻辑。

“这哪里是在写代码，这分明是在指挥‘数字民工’，只要你的‘Vibe’（感觉）对了，App就出来了。”

谷歌这次显然是有备而来，直接掏出了一堆数据作为“军功章”。在衡量语音Agent关键能力的ComplexFuncBench audio测试中，Gemini 3.1 Flash Live的函数调用准确率达到了90.8%。

要知道，就在几个月前，它的前辈表现还只有71.5%左右。这种进步速度，就像是一个平时考及格的差生，突然在期末考拿了全校第一。而在Scale发布的音频输出榜单中，它也顺利把GPT-Realtime-1.5和GPT-4o Audio Preview挡在了身后。¹

除了快，它还更“机灵”了：

虽然谷歌在能力上限上疯狂试探，但实际体验中还是有些许“槽点”。比如智东西的初步体验显示，其中文语音表现依然有点“机械感”，不如国内的豆包那么会“唠嗑”。¹

而国内玩家也没闲着。阶跃星辰的Step-Audio R1.1最近就在语音推理榜单上拿下了第一，甚至在准确率上压过了Gemini。¹ 看来，全球AI语音Agent的“诸神之战”才刚刚拉开序幕。

谷歌目前已经通过Google AI Studio免费开放了该模型的预览版，程序员们，是时候去试试看你的嗓门能不能撑起一个复杂的项目了。³ 毕竟，未来的编程门槛可能不再是C++或Java，而是你的普通话到底标不标准。

引用