Google I/O大年夜会的10个新器械用Gemini接收一切

209 阅读 0 评论 0 点赞

我们之前写过一篇文章，说PC才是agent时代的头号硬件，Google之前在The Android Show上宣布的各种更适应真实工作流的软硬件产品，和这件事也是互通的。

重点在于，本年不仅有模型才能的晋升，Google还把Gemini塞到了各类处所。

从搜刮框，到购物车，再到智能眼镜……Google正在用AI接收一切。

我们整顿了此次大年夜会上最值得存眷的10个新器械，一路来看：

Gemini 3.5：迄今为最强的编码、智能体模型

先来看备受存眷的底层模型。

此次Google宣布了Gemini 3.5系列，首发的是Gemini 3.5 Flash，3.5 Pro还在内部应用，筹划下个月推出。

3.5 Flash面向的是编码、智能体义务和真实工作流，已经进入Gemini App、Google Search的AI Mode、Google Antigravity、Gemini API、Android Studio，以及企业平台。

跑分方面，Gemini 3.5 Flash在编码才能、Agent才能、对象调用才能上比3.1 Pro强了不少，但在Humanity's Last Exam和ARC-AGI-2上照样有所不足。

订价上，3.5 Flash输入$1.50/百万token，输出$9.00/百万token，比3 Flash贵了3倍，比3.1 Pro便宜40%。

在Gemini 3强大年夜的多模态基本之上，3.5 Flash可以生成更丰富、更具交互性的Web用户界面和图形。

它可以在不到一分钟里生成6个不合的付出页面，也可以一次做出64个分形图案变体；用户只要用文字描述一个设法主意，它就能生成可互动的网页组件。

更复杂一点，它还能把论文、课程视频变成互动式进修卡片和可视化页面，甚至在Google搜刮里，根据用户的问题现场生成图表、模仿器和沉浸式解释界面。

这就是Gemini 3.5 Flash的地位。

除了Gemini 3.5，此次Google还宣布了一个更偏创作的新模型：Gemini Omni。

Google对它的定位是：can create anything from any input（从任何输入，生成任何内容）。

当然，如今第一步照样视频。之后Google还筹划支撑图片、音频等更多输出情势。

首个上线的是Gemini Omni Flash，已经向Google AI Plus、Pro和Ultra订阅用户开放，可以在Gemini App和Google Flow 中应用；YouTube Shorts和YouTube Create App也会免费接入。将来几周，Google还会把它经由过程API开放给开辟者和企业客户。

Omni不是一个纯真的文生视频模型。它可以把文字、图片、音频、视频一路作为输入，然后生成一段完全视频，并且支撑对话式视频编辑。

Google还特别强调，Omni背后接的是Gemini的世界常识。它对重力、动能、流体这些物理后果有更好的懂得，也可以把复杂概念做成解释视频。行动会产生后果，情况会对事宜做出反响，叙事会按逻辑成长。

换句话说，Google想表达的是，AI视频不是只能做炫酷短片，也可以变成一种常识表达对象。复杂概念、科学过程、教授教化内容，都可以被转成更直不雅的视频。

和Seedance 2.0一样，Omni也能多种参考素材来生成视频，图片、视频、音频、音乐都可以成为输入。用户可以让它保存某张图里的角色，借用一段视频里的动作，再让画面跟随音乐节拍变更，最后生成一段新的完全视频。

官方还提到，用户可以从已有素材出发：用草图作为动作参考，把它变成真实影像；例如用视频里的鲸鱼游动动作，迁徙到一种反光流体材料上；或者保存房间构造不变，只把植物变成半透明的发光植物，并让萤火虫和声音节拍互动。

不过，看社群反响，它用起来并没有Seedance 2.0出色……但这只是Flash版本的一个开端，对吧？

安然方面，Omni支撑用户创建本身的数字分身，也就是用本身的声音和形象生成视频。但Google强调，其他涉及改音频、改语音的才能还在测试中，须要更谨慎地推出。所有Omni生成的视频都邑带有弗成见的SynthID数字水印，用户可以经由过程Gemini以及Google搜刮来验证内容是否由Gemini Omni生成。

Gemini App：大年夜更新

固然3.5 Flash名字里照样Flash，但它的定位已经不只是“快”和“便宜”，可以说，它是Google此次所有Agent产品的发念头。

Google说，本年对Gemini App来说是“硕果累累的一年”。客岁I/O时Gemini App有4亿用户，如今已经有跨越9亿月活，覆盖230多个国度和70多种说话。

此次 Gemini App 的更新重要有几个：

第一，接入Gemini 3.5 Flash。

第二，推出新的设计说话Neural Expressive。界面会更动态，有流体动画、更光鲜的色彩、新字体、触觉反馈。Gemini Live也被直接整合到Gemini，用户可以从打字天然切到语音对话。Google还说，Gemini今后不只是给你一堵文字墙，而是会根据问题及时生成更合适的答复情势，比如图片、交互时光线、旁白视频、动态图形等。这个新设计从今天起在Web、Android、iOS全球推出。

第四，是Daily Brief。它像一个凌晨简报Agent，你授权之后，它会在后台看你的 Gmail、Calendar，把紧急邮件、接下来的日程、须要跟进的事项整顿成一个早间摘要。它不只是总结，还会按你的目标排序，并建议下一步。Daily Brief从美国开端，面向Google AI Plus、Pro、Ultra用户推出。

以前的Google，是一个你主动应用的对象箱，你可以用它搜刮、发邮件、写文档……如今，Google想让Gemini站在这些对象之上，懂得你的意图，调用这些对象，替你完成一串动作。

第五，也是最重要的，是Gemini Spark。

Gemini Spark：Google版24小时小我Agent

Gemini Spark是此次最值得零丁介绍的产品之一。

Google给它的定位是24/7 personal AI agent。也就是说，它可以在你授权下，持续帮你干事。

它运行在Gemini 3.5上，应用Antigravity harness，并且深度连接Gmail、Docs、Slides等对象。并且因为它是云端Agent，所以你关掉落电脑、锁上手机，它也可以持续在后台工作。

Google举了几个例子。

比如你可以让它按期解析每月信用卡账单，找出新增订阅或者隐蔽费用；或者教它检查孩子黉舍邮件，把重要日期提掏出来，天天发一份简报给你和伴侣；再比如，你可以让它从邮件和聊天记录里的会议笔记中提炼信息，整顿成Google Docs，再草拟一封项目启动邮件。

这是典范的Agent叙事：帮你跨应用完成一串动作。

这也是Google最有优势、也最敏感的处所：它手里有Gmail、Calendar、Docs、Drive、Slides、Maps、YouTube、Search。只要用户愿意授权，Gemini可以触达的小我高低文，将成为一个异常宏大年夜的生态。

当然，Google也在强调权限和安然。Spark须要用户选择是否开启、连接哪些App；涉及花钱、发邮件等高风险动作时，会先询问用户。

这一功能本周先面向trusted testers，下周筹划作为Beta推给美国Google AI Ultra用户。

macOS版Gemini：开端进入桌面工作流

Gemini App还有一个比较轻易被忽视的更新：macOS桌面版。

Google说，Gemini的macOS App已经可以下载，接下来会把Gemini Spark带到桌面端，让它处理本地文件，并主动化桌面上的工作流。它还会参加新的语音才能：用户可以对着屏幕说一段并不完全、搀杂着逗留和口头禅的话，Gemini能根据屏幕高低文，把它整顿成更精确的文本，并直接放到光标地点地位。

这件事看起来小，但也值得留意，因为Agent最终弗成能只在网页里工作。很多真实工作产生在本地：文件夹、桌面软件、浏览器、多窗口、多文档之间。Google把Spark带到macOS，其实就是在往桌面Agent的偏向走。

Google Search：搜刮框25年来最大年夜改版

此次最有象征意义的产品，照样Search。

官方给了几个典范场景：比如开辟应用、保护代码库、预备财务文件、整顿非构造化资产、把旧代码库迁徙到Next.js，甚至让两个agent合作，把AlphaZero论文读完，再做出一个可玩的游戏。

Google说，AI Mode上线一年后，月活已经跨越10亿，查询量每个季度翻倍。如今，Google把Gemini 3.5 Flash作为AI Mode的默认模型，并宣布对搜刮框进行25年来最大年夜进级。

新的搜刮框不再只是输入关键词的小框，变成了一个AI进口。

它会动态展开，让你用更天然的方法描述问题；它会根据意图给出AI建议，不只是传统主动补全；它支撑多模态输入，可以用文本、图片、文件、视频，甚至Chrome标签页作为输入。

输出速度上，比其它前沿模型快4倍，在人工智能分析指数中位列右上象限——意思是又快又强。

以前大年夜家对Flash类模型的印象是：便宜、快、合适轻量义务。但如今Google要表达的是，将来的Agent弗成能每一步都调用最贵、最慢的大年夜模型。真正能范围化跑起来的Agent，须要一个速度、成本和才能都比较均衡的模型。

也就是说，搜刮不再只是“给我十个链接”，变成了“我有一个问题、一段材料、一张图、一个网页高低文，你帮我懂得并持续往下走”。

第三，Gemini App接入Gemini Omni，可以直接生成和编辑视频。用户可以上传手机相册里的素材，用模板、提示词、背景调换、片子感变焦等方法做视频。甚至可以创建本身的数字分身。

别的，AI Overview 也可以更天然地接入AI Mode。用户可以直接对AI Overview持续追问，搜刮会带着高低文进入对话。这个别验已经在桌面和移动端全球上线。

Search此次还有一个更Agent化的才能：Search agents。

Google说，用户今后可以在Search里创建、定制和治理多个AI agents。第一批是information agents，信息型Agent。它们可以24小时在后台监控你关怀的信息，然后在合适的时刻给你一份综合更新。

这和Google Alerts很像，但更智能。

Gemini Omni：Google版全模态生成模型

Google Alerts只能按关键词订阅。Search agents订阅的是“你的意图”。它不像爬虫那样只看某个词有没有出现，而是懂得你到底要什么，然后跨网页、消息、社交、购物、体育、金融等信息源监控变更。

information agents本年夏天先给Google AI Pro和Ultra用户推出。

此外，Search还在扩大agentic booking，也就是帮你完成预订类义务。比如你要找一个周五晚上、能坐6小我、供给夜宵的私家KTV房间，Search会综合价格和可用性，并给你直接完成预订的进口。部分品类，比如家政维修、美容、宠物护理，用户甚至可以让Google代为给商家打德律风。这些才能本年夏天在美国面向所有效户推出。

此次Gemini App也大年夜改。

别的，Google还把Antigravity和Gemini 3.5 Flash的编码才能带进了Search。目标是让搜刮成果不再只是文本、图片、表格，而是根据你的问题即时生成合适的交互界面。

比如你想懂得天体物理，或者想看手表内部怎么运转，Search可以及时组装交互视觉、表格、图表、模仿器。这些generative UI才能本年夏天会免费开放给所有Search用户。

更进一步，Search还可认为持续性义务生成mini apps。比如你在迁居、预备婚礼、治理健康筹划，不是一次搜刮就停止，而是一个经久项目。Search可以给你生成一个自定义dashboard或tracker，今后你可以持续回来用。

这异常像一个新的产品形态：搜刮成果不再是网页，变成了临时生成的小对象。

Universal Cart：Google想做AI购物车

购物也是此次大年夜会的大年夜更新之一。

Google宣布了Universal Cart，一个跨办事、跨商家的智能购物车。它可以涌如今Search、Gemini、YouTube、Gmail里。用户在搜刮商品、和Gemini聊天、看YouTube、读Gmail的时刻，都可以把商品参加同一个购物车。

但它不是通俗的购物车。

商品一参加购物车，它就会在后台开端工作：找优惠、追踪价格降低、查看价格汗青、提示补货。它还会用推理才能提前发明问题，比如你在不合零售商那边买电脑配件，它会提示你哪些零件不兼容，并推荐替代筹划。

官方还展示了一个持续修改的例子：师长教师成一个小提琴手吹奏的视频，然后把小提琴手放进另一张图片里的情况，再把小提琴变成透明，最后把镜头角度改成从小提琴手肩膀后方看。全部过程是一轮一轮接着改，而不是每次推倒重来。

因为它基于Google Wallet，还能懂得你的付出方法权益、会员信息、商家优惠，帮你找到隐蔽扣头或者积分机会。

结账时，Universal Commerce Protocol会让用户用Google Pay快速完成购买，或者把商品转到商家网站持续下单。

Google提到，Nike、Sephora、Target、Ulta Beauty、Walmart、Wayfair，以及Shopify 上的Fenty、Steve Madden 等品牌会介入相干结账才能。Universal Cart本年夏天会先在美国的Search和Gemini App推出，之落后入YouTube和Gmail。

Google还提到Agent Payments Protocol，AP2。它的目标是让Agent代表用户安然付款。用户可以给Agent设定严格界线，比如只能买哪些品牌、哪些产品、最多花若干钱。AP2会在用户、商家、付出处理方之间创建可验证的记录，让Agent的购买行动有界线、有凭证、有追踪。Google说，AP2会在将来几个月进入Google产品，起首从Gemini Spark开端。

不过……购物也就算了，谁会想让AI帮你一键付款呢。

智能眼镜：Google Glass的AI时代重启

硬件侧最值得存眷的是智能眼镜。

以前Google Glass确切做得挺烂的，甚至能算是硅谷硬件史上“技巧很酷，但产品没想明白”的典范案例。

此次和昔时Google Glass最大年夜的不合是产品逻辑换了。Google Glass像是把手机通知、摄影、导航这些功能，硬塞到面前，但此次的Gemini智能眼镜更像是：让AI随时看见你看到的器械、听见你听到的器械，然后帮你懂得和处理。

也就是说，它不再只是“戴在脸上的小屏幕”，变成了一个更天然的AI进口。

在本年的I/O大年夜会上，Google分享了更多关于智能眼镜的信息：这种眼镜可以在不打断你的情况下，即时供给赞助。

智能眼镜分为两种：一种是音频眼镜，可以在你的耳朵里供给语音赞助；另一种是显示眼镜，可以在你须要的时刻急速显示所需信息。这两种眼镜都能让你解放双手，专注于其他工作，只需开口询问，即可获得Gemini的赞助。

音频眼镜会先上市，本年秋天推出。

样子看起来，怎么说，挺日常的。

功能上，它可以经由过程“Hey Google”或者轻触镜腿唤起Gemini。用户可以问它面前看到的器械，比如路过一家餐厅，问它评价怎么样；看到一块云，问这是什么云；看到复杂泊车标记，让它帮你解释。

它还支撑导航，也可以接德律风、发短信、总结错过的消息、播放音乐；可以摄影和视频，并用Nano Banana做图像编辑，比如拍完照直接说“给每小我戴上搞笑帽子”；还能及时翻译语音和文字，翻译语音时甚至会尽量匹配措辞人的语气和音高。眼镜也可以连接 Uber、Mondly等手机应用，并同时支撑Android和iOS。

固然不好说实际应用后果若何，但此次至少避开了Google Glass昔时的几个坑：

不再把眼镜当成微型手机，核心不是通知和小屏幕，而是Gemini对实际世界的懂得和义务履行；不再一上来押重视AR，先推音频眼镜，降低硬件难度和社会接收门槛；不再忽视外不雅，找Gentle Monster和Warby Parker，承认眼镜是时尚花费品，不是纯科技产品。

毕竟当初Google Glass长如许：

场景也更清楚了。导航、翻译、辨认面前事物、总结消息、摄影编辑、叫车点单，这些都更接近“我为什么要戴它”。

Google Antigravity 2.0：开辟者侧的Agent工作台

简单点说，Omni想让用户可以或许“把各类素材、风格、动作和声音，从新组织成一个新视频”。这对创作者很重要。

开辟者侧，最重要的是Google Antigravity 2.0。

Google把它称为agent-first development platform。也就是说，它不是通俗 IDE 插件，而是一个以Agent为中间的开辟平台。

此次I/O大年夜会宣布了Antigravity 2.0桌面应用、Gemini API里的Managed Agents，以及AI Studio的原生Android vibe coding。

以前AI编程对象的核心是“帮你补代码、写函数、解释报错”，如今Google想做的是“从prompt到临盆就绪app”，也就是你给一个目标，AI就能筹划、拆义务、调用对象、跑测试、修bug、安排，并且可能让多个子Agent并行工作。

这和Codex、Claude Code、Cursor竞争的是同一条赛道。Google的优势在于它不只有模型，还有Android、Firebase、Cloud、Workspace、Play Store、Search、Chrome 等完全生态。

Project Genie + Street View：世界模型开端连接真实街景

另一个偏前沿的产品是Project Genie。

Genie是Google DeepMind的通用世界模型，可以生成多样化、可交互的情况。Google说，它已经成为研究对象，可以让Agent在复杂虚拟情况中进修和推理，也赞助Waymo（Alphabet旗下的主动驾驶公司）模仿高真实度门路情况。

此次的新才能，是把Genie和Google Street View连接起来。

也就是说，Genie 的生成才能开端和Google近20年街景图像结合，让模型生成的情况可以锚定真实世界。Google说，这可认为AI agents或机械人供给虚拟情况，让它们在个中导航、互动、进修实际世界的复杂性。

机械人和主动驾驶须要大年夜量真实世界数据，但实际世界测试昂贵、危险、慢。世界模型可以供给虚拟练习场；而Street View则是Google独有的数据资产。二者结合，意味着Google可以把真实街景变成可交互的模仿情况。

换句话说，Project Genie是Google把“地图资产”变成“AI练习情况”的测验测验。

总结

本年Google I/O不是一个单点宣布会，而是一次生态铺开。

模型层，Google宣布Gemini 3.5和Gemini Omni。前者面向行动和 Agent，后者面向全模态生成和视频编辑。

产品层，Gemini被塞进Search、Workspace、Shopping、Flow、AI Studio、智能眼镜。它不再只是一个App，而是Google产品体系里的同一智能层。

贸易层，Google开端把Agent落到真实义务上：帮你盯信息、订办事、管购物车、处理邮件、写文档、做App、生成视频、甚至帮助科研。

此次大年夜会的一个明显趋势是，Google正在把Gemini改革成Google生态的操作体系。

本年I/O的宣布看起来特别多、特别散：搜刮、购物、办公、视频、眼镜、开辟、科研，几乎每条线都在讲AI，它们指向的其实是同一件事：

Google想要证实，本身仍然拥有把AI变成日常进口的最大年夜生态。

点赞(0) 打赏

本文分类：互联网
本文标签：Google 谷歌 Google I/O大会的10个新东西用Gemini接管一切
浏览次数：209 次浏览
发布日期：2026-05-22 08:56:10
本文链接：https://fqpy.com/internet/14350

Google I/O大年夜会的10个新器械用Gemini接收一切

评论列表共有 0 条评论

发表评论取消回复

Google I/O大年夜会的10个新器械 用Gemini接收一切

顶尖人才流掉激发AI担心 Alphabet遭受一年来最差单日表示

谷歌深化与联发科合作 开辟进级版TPU押注AI智能体

三天内连掉两位传奇：谷歌的AI人才大年夜坝正在决堤？

Google将在洛杉矶开设全球首家AI艺术博物馆Dataland

评论列表 共有 0 条评论

发表评论 取消回复

Google I/O大年夜会的10个新器械用Gemini接收一切

谷歌深化与联发科合作开辟进级版TPU押注AI智能体

评论列表共有 0 条评论

发表评论取消回复