根据Google官方博客介绍,新版文件搜刮功能已经不再局限于传统文本向量搜刮,而是基于 Gemini Embedding 2 构建的同一多模态嵌入才能,可以同时懂得图片、PDF、文档中的视觉内容与文字内容,开辟者无需自行搭建复杂的向量数据库、Embedding 管线或文档切分体系,就可以直接在 Gemini API 中完成完全的 RAG 工作流。

在传统的 RAG 体系里,图片、图表、截图、设计图等视觉内容往往难以有效被索引,这导致 AI 答复缺乏高低文懂得,而 Gemini API 新增的多模态文件搜刮才能可以或许原生辨认图片中的内容,与文本合营建立检索索引。例如企业可以上传包含产品图片、数据图表或技巧架构图的 PDF 文件,AI 在答复时可以或许同时懂得个中的视觉信息与文本描述。

Google称这项才能特别合适构建企业级常识助手、客服机械人、文档分析体系以及 AI 智能体,开辟者可以让模型基于内部文档进行推理,而不须要进行额外保护自力的图像检索体系,对于拥有大年夜量图文混排材料的企业来说,这意味着更低的安排复杂度和更高的检索精确率。

还有个新增功能是自定义元数据过滤,开辟者可认为上传的文件增长标签、分类、时光和部分等元数据,以便在后续进行检索时按照元数据进行过滤晋升精确率和效力,这也加倍合适大年夜型常识库治理,削减无关内容进入高低文窗口。

另一项重要功能是页面级引用,Gemini AI 在生成谜底时可以明白标注信息来自哪一页文档,而不仅仅是模糊地引用全部文件,这可以让用户在获得答复后点击查看具体的文档页面断定内容精确性以及浏览完全文档获得更多信息等。

今朝新版 Google Gemini API 文件搜刮功能已经面向所有开辟者开放,感兴趣的开辟者可以经由过程 Google AI Studio 以及 Google Cloud 等平台开通 Gemini API 进行体验。

开辟者指南:https://dev.to/googleai/multimodal-rag-with-the-gemini-api-file-search-tool-a-developer-guide-5878

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部