
我们之前写过一篇文章,说PC才是agent时代的头号硬件,Google之前在The Android Show上宣布的各种更适应真实工作流的软硬件产品,和这件事也是互通的。
重点在于,本年不仅有模型才能的晋升,Google还把Gemini塞到了各类处所。
从搜刮框,到购物车,再到智能眼镜……Google正在用AI接收一切。
我们整顿了此次大年夜会上最值得存眷的10个新器械,一路来看:
01
Gemini 3.5:迄今为最强的编码、智能体模型
先来看备受存眷的底层模型。
此次Google宣布了Gemini 3.5系列,首发的是Gemini 3.5 Flash,3.5 Pro还在内部应用,筹划下个月推出。
3.5 Flash面向的是编码、智能体义务和真实工作流,已经进入Gemini App、Google Search的AI Mode、Google Antigravity、Gemini API、Android Studio,以及企业平台。
跑分方面,Gemini 3.5 Flash在编码才能、Agent才能、对象调用才能上比3.1 Pro强了不少,但在Humanity's Last Exam和ARC-AGI-2上照样有所不足。



订价上,3.5 Flash输入$1.50/百万token,输出$9.00/百万token,比3 Flash贵了3倍,比3.1 Pro便宜40%。


在Gemini 3强大年夜的多模态基本之上,3.5 Flash可以生成更丰富、更具交互性的Web用户界面和图形。
它可以在不到一分钟里生成6个不合的付出页面,也可以一次做出64个分形图案变体;用户只要用文字描述一个设法主意,它就能生成可互动的网页组件。
更复杂一点,它还能把论文、课程视频变成互动式进修卡片和可视化页面,甚至在Google搜刮里,根据用户的问题现场生成图表、模仿器和沉浸式解释界面。

07
10
这就是Gemini 3.5 Flash的地位。
02
除了Gemini 3.5,此次Google还宣布了一个更偏创作的新模型:Gemini Omni。

Google对它的定位是:can create anything from any input(从任何输入,生成任何内容)。
当然,如今第一步照样视频。之后Google还筹划支撑图片、音频等更多输出情势。
首个上线的是Gemini Omni Flash,已经向Google AI Plus、Pro和Ultra订阅用户开放,可以在Gemini App和Google Flow 中应用;YouTube Shorts和YouTube Create App也会免费接入。将来几周,Google还会把它经由过程API开放给开辟者和企业客户。
Omni不是一个纯真的文生视频模型。它可以把文字、图片、音频、视频一路作为输入,然后生成一段完全视频,并且支撑对话式视频编辑。

Google还特别强调,Omni背后接的是Gemini的世界常识。它对重力、动能、流体这些物理后果有更好的懂得,也可以把复杂概念做成解释视频。行动会产生后果,情况会对事宜做出反响,叙事会按逻辑成长。
换句话说,Google想表达的是,AI视频不是只能做炫酷短片,也可以变成一种常识表达对象。复杂概念、科学过程、教授教化内容,都可以被转成更直不雅的视频。
和Seedance 2.0一样,Omni也能多种参考素材来生成视频,图片、视频、音频、音乐都可以成为输入。用户可以让它保存某张图里的角色,借用一段视频里的动作,再让画面跟随音乐节拍变更,最后生成一段新的完全视频。
官方还提到,用户可以从已有素材出发:用草图作为动作参考,把它变成真实影像;例如用视频里的鲸鱼游动动作,迁徙到一种反光流体材料上;或者保存房间构造不变,只把植物变成半透明的发光植物,并让萤火虫和声音节拍互动。
不过,看社群反响,它用起来并没有Seedance 2.0出色……但这只是Flash版本的一个开端,对吧?
安然方面,Omni支撑用户创建本身的数字分身,也就是用本身的声音和形象生成视频。但Google强调,其他涉及改音频、改语音的才能还在测试中,须要更谨慎地推出。所有Omni生成的视频都邑带有弗成见的SynthID数字水印,用户可以经由过程Gemini以及Google搜刮来验证内容是否由Gemini Omni生成。
03
Gemini App:大年夜更新

固然3.5 Flash名字里照样Flash,但它的定位已经不只是“快”和“便宜”,可以说,它是Google此次所有Agent产品的发念头。
Google说,本年对Gemini App来说是“硕果累累的一年”。客岁I/O时Gemini App有4亿用户,如今已经有跨越9亿月活,覆盖230多个国度和70多种说话。
此次 Gemini App 的更新重要有几个:
第一,接入Gemini 3.5 Flash。
第二,推出新的设计说话Neural Expressive。界面会更动态,有流体动画、更光鲜的色彩、新字体、触觉反馈。Gemini Live也被直接整合到Gemini,用户可以从打字天然切到语音对话。Google还说,Gemini今后不只是给你一堵文字墙,而是会根据问题及时生成更合适的答复情势,比如图片、交互时光线、旁白视频、动态图形等。这个新设计从今天起在Web、Android、iOS全球推出。

第四,是Daily Brief。它像一个凌晨简报Agent,你授权之后,它会在后台看你的 Gmail、Calendar,把紧急邮件、接下来的日程、须要跟进的事项整顿成一个早间摘要。它不只是总结,还会按你的目标排序,并建议下一步。Daily Brief从美国开端,面向Google AI Plus、Pro、Ultra用户推出。

以前的Google,是一个你主动应用的对象箱,你可以用它搜刮、发邮件、写文档……如今,Google想让Gemini站在这些对象之上,懂得你的意图,调用这些对象,替你完成一串动作。
第五,也是最重要的,是Gemini Spark。
04
Gemini Spark:Google版24小时小我Agent
Gemini Spark是此次最值得零丁介绍的产品之一。
Google给它的定位是24/7 personal AI agent。也就是说,它可以在你授权下,持续帮你干事。
它运行在Gemini 3.5上,应用Antigravity harness,并且深度连接Gmail、Docs、Slides等对象。并且因为它是云端Agent,所以你关掉落电脑、锁上手机,它也可以持续在后台工作。
Google举了几个例子。
比如你可以让它按期解析每月信用卡账单,找出新增订阅或者隐蔽费用;或者教它检查孩子黉舍邮件,把重要日期提掏出来,天天发一份简报给你和伴侣;再比如,你可以让它从邮件和聊天记录里的会议笔记中提炼信息,整顿成Google Docs,再草拟一封项目启动邮件。
这是典范的Agent叙事:帮你跨应用完成一串动作。
这也是Google最有优势、也最敏感的处所:它手里有Gmail、Calendar、Docs、Drive、Slides、Maps、YouTube、Search。只要用户愿意授权,Gemini可以触达的小我高低文,将成为一个异常宏大年夜的生态。
当然,Google也在强调权限和安然。Spark须要用户选择是否开启、连接哪些App;涉及花钱、发邮件等高风险动作时,会先询问用户。
这一功能本周先面向trusted testers,下周筹划作为Beta推给美国Google AI Ultra用户。
05
macOS版Gemini:开端进入桌面工作流
Gemini App还有一个比较轻易被忽视的更新:macOS桌面版。
Google说,Gemini的macOS App已经可以下载,接下来会把Gemini Spark带到桌面端,让它处理本地文件,并主动化桌面上的工作流。它还会参加新的语音才能:用户可以对着屏幕说一段并不完全、搀杂着逗留和口头禅的话,Gemini能根据屏幕高低文,把它整顿成更精确的文本,并直接放到光标地点地位。
这件事看起来小,但也值得留意,因为Agent最终弗成能只在网页里工作。很多真实工作产生在本地:文件夹、桌面软件、浏览器、多窗口、多文档之间。Google把Spark带到macOS,其实就是在往桌面Agent的偏向走。
06
Google Search:搜刮框25年来最大年夜改版
此次最有象征意义的产品,照样Search。

官方给了几个典范场景:比如开辟应用、保护代码库、预备财务文件、整顿非构造化资产、把旧代码库迁徙到Next.js,甚至让两个agent合作,把AlphaZero论文读完,再做出一个可玩的游戏。
Google说,AI Mode上线一年后,月活已经跨越10亿,查询量每个季度翻倍。如今,Google把Gemini 3.5 Flash作为AI Mode的默认模型,并宣布对搜刮框进行25年来最大年夜进级。
新的搜刮框不再只是输入关键词的小框,变成了一个AI进口。

它会动态展开,让你用更天然的方法描述问题;它会根据意图给出AI建议,不只是传统主动补全;它支撑多模态输入,可以用文本、图片、文件、视频,甚至Chrome标签页作为输入。
输出速度上,比其它前沿模型快4倍,在人工智能分析指数中位列右上象限——意思是又快又强。
以前大年夜家对Flash类模型的印象是:便宜、快、合适轻量义务。但如今Google要表达的是,将来的Agent弗成能每一步都调用最贵、最慢的大年夜模型。真正能范围化跑起来的Agent,须要一个速度、成本和才能都比较均衡的模型。
也就是说,搜刮不再只是“给我十个链接”,变成了“我有一个问题、一段材料、一张图、一个网页高低文,你帮我懂得并持续往下走”。
第三,Gemini App接入Gemini Omni,可以直接生成和编辑视频。用户可以上传手机相册里的素材,用模板、提示词、背景调换、片子感变焦等方法做视频。甚至可以创建本身的数字分身。
别的,AI Overview 也可以更天然地接入AI Mode。用户可以直接对AI Overview持续追问,搜刮会带着高低文进入对话。这个别验已经在桌面和移动端全球上线。
Search此次还有一个更Agent化的才能:Search agents。
Google说,用户今后可以在Search里创建、定制和治理多个AI agents。第一批是information agents,信息型Agent。它们可以24小时在后台监控你关怀的信息,然后在合适的时刻给你一份综合更新。
这和Google Alerts很像,但更智能。
Gemini Omni:Google版全模态生成模型
Google Alerts只能按关键词订阅。Search agents订阅的是“你的意图”。它不像爬虫那样只看某个词有没有出现,而是懂得你到底要什么,然后跨网页、消息、社交、购物、体育、金融等信息源监控变更。
information agents本年夏天先给Google AI Pro和Ultra用户推出。
此外,Search还在扩大agentic booking,也就是帮你完成预订类义务。比如你要找一个周五晚上、能坐6小我、供给夜宵的私家KTV房间,Search会综合价格和可用性,并给你直接完成预订的进口。部分品类,比如家政维修、美容、宠物护理,用户甚至可以让Google代为给商家打德律风。这些才能本年夏天在美国面向所有效户推出。
此次Gemini App也大年夜改。
别的,Google还把Antigravity和Gemini 3.5 Flash的编码才能带进了Search。目标是让搜刮成果不再只是文本、图片、表格,而是根据你的问题即时生成合适的交互界面。
比如你想懂得天体物理,或者想看手表内部怎么运转,Search可以及时组装交互视觉、表格、图表、模仿器。这些generative UI才能本年夏天会免费开放给所有Search用户。
更进一步,Search还可认为持续性义务生成mini apps。比如你在迁居、预备婚礼、治理健康筹划,不是一次搜刮就停止,而是一个经久项目。Search可以给你生成一个自定义dashboard或tracker,今后你可以持续回来用。

这异常像一个新的产品形态:搜刮成果不再是网页,变成了临时生成的小对象。
Universal Cart:Google想做AI购物车
购物也是此次大年夜会的大年夜更新之一。

Google宣布了Universal Cart,一个跨办事、跨商家的智能购物车。它可以涌如今Search、Gemini、YouTube、Gmail里。用户在搜刮商品、和Gemini聊天、看YouTube、读Gmail的时刻,都可以把商品参加同一个购物车。
但它不是通俗的购物车。
商品一参加购物车,它就会在后台开端工作:找优惠、追踪价格降低、查看价格汗青、提示补货。它还会用推理才能提前发明问题,比如你在不合零售商那边买电脑配件,它会提示你哪些零件不兼容,并推荐替代筹划。
官方还展示了一个持续修改的例子:师长教师成一个小提琴手吹奏的视频,然后把小提琴手放进另一张图片里的情况,再把小提琴变成透明,最后把镜头角度改成从小提琴手肩膀后方看。全部过程是一轮一轮接着改,而不是每次推倒重来。

因为它基于Google Wallet,还能懂得你的付出方法权益、会员信息、商家优惠,帮你找到隐蔽扣头或者积分机会。
结账时,Universal Commerce Protocol会让用户用Google Pay快速完成购买,或者把商品转到商家网站持续下单。
Google提到,Nike、Sephora、Target、Ulta Beauty、Walmart、Wayfair,以及Shopify 上的Fenty、Steve Madden 等品牌会介入相干结账才能。Universal Cart本年夏天会先在美国的Search和Gemini App推出,之落后入YouTube和Gmail。
Google还提到Agent Payments Protocol,AP2。它的目标是让Agent代表用户安然付款。用户可以给Agent设定严格界线,比如只能买哪些品牌、哪些产品、最多花若干钱。AP2会在用户、商家、付出处理方之间创建可验证的记录,让Agent的购买行动有界线、有凭证、有追踪。Google说,AP2会在将来几个月进入Google产品,起首从Gemini Spark开端。
不过……购物也就算了,谁会想让AI帮你一键付款呢。
08
智能眼镜:Google Glass的AI时代重启
硬件侧最值得存眷的是智能眼镜。
以前Google Glass确切做得挺烂的,甚至能算是硅谷硬件史上“技巧很酷,但产品没想明白”的典范案例。
此次和昔时Google Glass最大年夜的不合是产品逻辑换了。Google Glass像是把手机通知、摄影、导航这些功能,硬塞到面前,但此次的Gemini智能眼镜更像是:让AI随时看见你看到的器械、听见你听到的器械,然后帮你懂得和处理。
也就是说,它不再只是“戴在脸上的小屏幕”,变成了一个更天然的AI进口。
在本年的I/O大年夜会上,Google分享了更多关于智能眼镜的信息:这种眼镜可以在不打断你的情况下,即时供给赞助。
智能眼镜分为两种:一种是音频眼镜,可以在你的耳朵里供给语音赞助;另一种是显示眼镜,可以在你须要的时刻急速显示所需信息。这两种眼镜都能让你解放双手,专注于其他工作,只需开口询问,即可获得Gemini的赞助。
音频眼镜会先上市,本年秋天推出。


样子看起来,怎么说,挺日常的。
功能上,它可以经由过程“Hey Google”或者轻触镜腿唤起Gemini。用户可以问它面前看到的器械,比如路过一家餐厅,问它评价怎么样;看到一块云,问这是什么云;看到复杂泊车标记,让它帮你解释。
它还支撑导航,也可以接德律风、发短信、总结错过的消息、播放音乐;可以摄影和视频,并用Nano Banana做图像编辑,比如拍完照直接说“给每小我戴上搞笑帽子”;还能及时翻译语音和文字,翻译语音时甚至会尽量匹配措辞人的语气和音高。眼镜也可以连接 Uber、Mondly等手机应用,并同时支撑Android和iOS。
固然不好说实际应用后果若何,但此次至少避开了Google Glass昔时的几个坑:
不再把眼镜当成微型手机,核心不是通知和小屏幕,而是Gemini对实际世界的懂得和义务履行;不再一上来押重视AR,先推音频眼镜,降低硬件难度和社会接收门槛;不再忽视外不雅,找Gentle Monster和Warby Parker,承认眼镜是时尚花费品,不是纯科技产品。
毕竟当初Google Glass长如许:

场景也更清楚了。导航、翻译、辨认面前事物、总结消息、摄影编辑、叫车点单,这些都更接近“我为什么要戴它”。
09
Google Antigravity 2.0:开辟者侧的Agent工作台
简单点说,Omni想让用户可以或许“把各类素材、风格、动作和声音,从新组织成一个新视频”。这对创作者很重要。
开辟者侧,最重要的是Google Antigravity 2.0。
Google把它称为agent-first development platform。也就是说,它不是通俗 IDE 插件,而是一个以Agent为中间的开辟平台。
此次I/O大年夜会宣布了Antigravity 2.0桌面应用、Gemini API里的Managed Agents,以及AI Studio的原生Android vibe coding。
以前AI编程对象的核心是“帮你补代码、写函数、解释报错”,如今Google想做的是“从prompt到临盆就绪app”,也就是你给一个目标,AI就能筹划、拆义务、调用对象、跑测试、修bug、安排,并且可能让多个子Agent并行工作。
这和Codex、Claude Code、Cursor竞争的是同一条赛道。Google的优势在于它不只有模型,还有Android、Firebase、Cloud、Workspace、Play Store、Search、Chrome 等完全生态。
Project Genie + Street View:世界模型开端连接真实街景
另一个偏前沿的产品是Project Genie。

Genie是Google DeepMind的通用世界模型,可以生成多样化、可交互的情况。Google说,它已经成为研究对象,可以让Agent在复杂虚拟情况中进修和推理,也赞助Waymo(Alphabet旗下的主动驾驶公司)模仿高真实度门路情况。
此次的新才能,是把Genie和Google Street View连接起来。
也就是说,Genie 的生成才能开端和Google近20年街景图像结合,让模型生成的情况可以锚定真实世界。Google说,这可认为AI agents或机械人供给虚拟情况,让它们在个中导航、互动、进修实际世界的复杂性。
机械人和主动驾驶须要大年夜量真实世界数据,但实际世界测试昂贵、危险、慢。世界模型可以供给虚拟练习场;而Street View则是Google独有的数据资产。二者结合,意味着Google可以把真实街景变成可交互的模仿情况。
换句话说,Project Genie是Google把“地图资产”变成“AI练习情况”的测验测验。
11
总结
本年Google I/O不是一个单点宣布会,而是一次生态铺开。
模型层,Google宣布Gemini 3.5和Gemini Omni。前者面向行动和 Agent,后者面向全模态生成和视频编辑。
产品层,Gemini被塞进Search、Workspace、Shopping、Flow、AI Studio、智能眼镜。它不再只是一个App,而是Google产品体系里的同一智能层。
贸易层,Google开端把Agent落到真实义务上:帮你盯信息、订办事、管购物车、处理邮件、写文档、做App、生成视频、甚至帮助科研。
此次大年夜会的一个明显趋势是,Google正在把Gemini改革成Google生态的操作体系。

本年I/O的宣布看起来特别多、特别散:搜刮、购物、办公、视频、眼镜、开辟、科研,几乎每条线都在讲AI,它们指向的其实是同一件事:
Google想要证实,本身仍然拥有把AI变成日常进口的最大年夜生态。

发表评论 取消回复