
向量数据库近年水花激荡。
但跟着 RAG 的广泛应用,其局限性也逐渐显露:它只能对常识本身做向量化,难以懂得自力信息之间的链接,无法结合关系和语境,处理须要更深层次语义关系和高低文细微差别时的复杂查询就显无力。
若何解决这一困境?杭州悦数科技有限公司(下称悦数) CTO 叶小萌带领团队,在 2023 年与 LlamaIndex 结合提出 Graph RAG 假想,并快速分享这个概念的初步验证。
图数据库的优势在于处理接洽关系关系,Graph RAG 经由过程常识图谱,能更精确周全检索相干信息,使模型能接洽关系高低文给出答复。这个概念起先在国内水花平平,但悦数组建团队持续推动落地,客岁 11 月推出悦数 RAG 产品,实现了基于图的检索加强生成,赞助企业应对常识孤岛问题。
微软也于客岁 7 月 2 日开源了 Graph RAG 研究项目,让这一概念真正被大年夜众广泛存眷。但究其概念提出时光,悦数早于微软。把图库与向量结合的这个团队,起先只有一小我。开辟 Graph RAG 的难度几何?致力于打造信创范畴图数据库的悦数,又须要多做些什么?叶小萌向雷峰网分享这些年的心路过程。
悦数 CTO 叶小萌
Graph RAG的先行者 一小我也是一支部队
谈及悦数跟行业的差别化策略,叶小萌直言:技巧。
高效检索高维向量数据,对大年夜模型练习和推理至关重要。2023 年大年夜模型疾走以来,向量检索——RAG(检索加强生成)技巧中的一个重要构成部分——也成为数据库技巧的核心核心。
如今,悦数 RAG 已经可以无缝连接 deepseek,团队也在基于蒸馏技巧、图上推理等功能进行 RAG 迭代,“做更多令人高兴、更有回报的工作”。
大年夜模型的涌如今 2023 上半年带火 RAG。叶小萌介绍道,要让经由过程公域数据练习的大年夜模型懂得私域数据,就要先把私域数据保存下来,这是 RAG 技巧的起点。而要快速在私域数据里找到接洽关系内容,就须要将图片文字等常识内容向量化进行比较。
但在向量海潮下,团队看到其缺点:向量数据库只能对常识本身做向量化,难以出现常识间的接洽关系,也是以,擅长处理接洽关系关系的图数据库,在此大年夜有可为。
在悦数团队于 2023 年 8 月初次提出 Graph RAG 概念时,人们对这两者的结合还不可思议。但悦数并未撤退,11 月组建团队开端打造这款 RAG 产品。一年后推出了悦数 RAG,今朝已进入 PMF,估计本年能进行推广。
对于团队范围七八十人的创业公司而言,在原有产品上分出一条新的线并不轻易。除了内核的图库外,做上层 RAG 的团队,起先只有古思为一小我。
2023 年,市情上有的 RAG 三种结合方法在古思为看来“都不是很令人高兴”。进修 RAG 范式时,深耕图库多年的他灵敏捕获到, RAG 应用无状况大年夜模型做高低文懂得和推理时无法绕过常识图谱,因为真实世界中常识组织构造都是网状的。当时 RAG 的明显缺点能靠图做 index 来弥补,“Graph RAG 足够复杂、足够有想象力,值得投入”,悦数于是开端了 RAG 的研究。
古思为向雷峰网("大众,"号:雷峰网)回想说,Graph RAG 就像一个小帐篷,里面能放很多器械,由此带来的挑衅就是做决定。例如,图的情势是选择现有的常识图谱进行事实检测和推理,照样从不合类型常识中二次处理加强变成图状数据,照样仅用图状构造生成总结?没有足够参考的情况下,每个决定都需反复推敲。最终悦数弃取简化后出现的初步验证反响不错;而当时定下来的实现方法,如今依然是 Graph RAG 的默认常用办法。
后续概念的落地比想象中复杂。2024 年上半年,悦数开端供给抽象对象给用户,但技巧门槛令当时很多客户难以本身搭建 pipeline。若何让用户即便对图库无感知也能有很好应用后果?两三个月里跟四五十个客户聊过后,团队开端迭代必定程度开箱即用的筹划,以清除用户应用产品的心智包袱。
回想起先的摸索,对新技巧狂热的古思为笑说,本身当时已充分应用生成式 AI 介入工作,如在 2023 年 9 月就成了 cursor 的付费用户,这让他的效力翻二十倍,固然是一小我做研发,但又不美满是“一小我”。如今团队中不合角色逐渐完全,很多工作都是经由过程 v0.dev 完成,“这在一两年前不敢想象”。
古思为和客户讲解产品
悦数走在前沿,不止在 RAG 的摸索。2024 年 4 月,国际标准化组织(ISO)宣布了国际标准图查询说话 GQL,是 ISO 在四十多年里制订的第二个数据库查询说话国际标准。这个标准制订开端于 2019 年,在其宣布第一版、第二版草稿收罗看法的过程中,悦数一向跟踪投入研发。GQL 标准宣布后的同年 11 月,悦数也推出悦数图数据库 v5.0 ,是全球第一款原生支撑 GQL 的分布式图数据库产品。
而作为从业者,他形容数据库市场的竞争有如跑八百米,过程近半,“固然不清除有人最后冲刺反超,但到四百米阁下已经可以分出第一梯队和第二梯队了”。如今,数据库市场开端大年夜浪淘沙,产品差距只会越来越明显,他对此也抱有信念:镌汰完成后,最后能留下的玩家就是技巧产品最好的。
开源的 NebulaGraph 经由三四年场景打磨和产品验证后,悦数基于 NebulaGraph 开端做企业级的贸易化产品。在图数据库的增长势头下,悦数在 2023 年比 2022 年实现两倍多增长,2024 年又比 2023 年增长近三倍,已接近进出均衡。
在图库进入信创名录前 先做到“万事俱备”
悦数走在成为信创品牌的路上,但“悦数不是为了做信创而做信创”,在叶小萌看来,这是个天然产生的过程:信创的重要特点中,首当其冲就是自立可控,而悦数图数据库的每一行代码都是团队亲手写下,悦数本身已有 IP 和代码的自立权,是做信创的优胜泥土。
不过,在 2027 年实现 “2+8+N” 的数据库 100% 国产替代目标下,数十种数据库类型中,今朝也只有关系型数据库被收录在册,相对小众、成长势头仍较年青的图数据库还不在信创名录之列。悦数能进入信创名录、获得认证,是叶小萌的目标之一。而在此之前,他们要做的是匹配各类信创操作体系或硬件,先万事俱备,再等春风吹来。
适配国产硬件生态并非易事。国产硬件起步较晚,国内 CPU 在近几年才集中快速增长。一般较常用的芯片基于 x86 架构和 arm 架构,但现有重要六大年夜国产 CPU,龙芯、海光、兆芯、鲲鹏、申威、高涨,个中有些比较小众的架构如 MIPS,对团队编译适配提出更高的时光和人力请求。但叶小萌也看到,固然国产与国外硬件在 x86 的差距仍较大年夜,但 arm CPU 的级别已与国际化程度异常接近。
与国产操作体系的适配也存在挑衅,尤其当国产 OS 上游的 Linux 版本仍相对较老时。此外,悦数图数据库在客岁 6 月经由过程中国信通院举办的“可托数据库”图数据库机能测试,是国内首个全项完成该测试的图数据库产品,这也表现了悦数做信创匹配国标的决心。
悦数RAG产品界面
亲历图数据库市场成长的海潮,叶小萌也感触感染到,这些年的市场教导已卓有成效。如今团队接触客户不再须要介绍图数据库的定义功能,能直接从介绍行业经验和应用处景开端。
以信创为成长目标的悦数,今朝客户也一半以上都有信创需求。
叶小萌不雅察到,如今还愿意出大年夜价格的企业,很多是国央企或至少有国资背景的企业,也因为此,政企范畴的客户竞争老是较为激烈,最甚是金融业——金融业 IT 需求成长起步较早,每年预算高,大年夜家都挤破头往里卷。
在价格战硝烟中,悦数尽量避免受到波及:投标时,悦数会避解雇产品分数外其他分数(如价格分数、公司天资、评委打分等)占比过高的场景,也尽量避免卷入抢低价客户的漩涡。叶小萌信赖,产品价格得表现产品本身给客户带来的价值,卷技巧对行业有利,但卷价格“没法表现软件产品的价值,很弗成取”。
数据库市场竞争如长跑 一二梯队已渐显
叶小萌卒业后不久,就扎进图数据库范畴。
他在 2010 岁尾进入 Facebook,一年后开端做图数据库产品。2015 年阁下,叶小萌回国,营业蒸蒸日上的蚂蚁正预备引入图库做风控。彼时国内图数据库市场刚起步,业界产品难以知足蚂蚁数据量和查询并发量的高需求。就如许,叶小萌成了团队负责人,开端了这款比 Facebook 的图数据库查询模式更复杂的项目——毕竟后者应用处景单一,根本查询需求都只跟社交收集有关。
蚂蚁曾将自研的图数据库囊括在金融解决筹划中一路发卖。叶小萌与客户沟通接触时,发明很多银行在数据库、中心件上都有现成设备,但在如反洗钱、反讹诈等新场景上,对图库有新需求。当时图数据库囊括在蚂蚁的成套筹划中,无法零丁拆分给银行应用,但叶小萌已从中嗅到图数据库的商机。
早期风控重要基于规矩和简单算法,跟着需求深度晋升,传统算法难以知足,图数据库优势渐显。叶小萌举例说到,银行放贷营业要断定企业天资征信情况,便须要企业图谱,懂得企业间十几二十层的控股关系,这种接洽关系是图数据库的善于范畴;此外,贷后监控如资金流向等,也是图数据库能大年夜展拳脚的处所。
叶小萌在产品宣布会上演讲
技巧狂人叶小萌领略过硅谷科技大年夜公司的工程师文化,深受感染,欲望能打造技巧上最强的公司。也因为此,悦数的氛围十分接近贰心之所向的工程师文化——大年夜家专注做技巧、以技巧为导向,员工自驱力很强。尤其创建初期,公司团队里几乎全都是法度榜样员,大年夜家的合营点是:异常幻想化、信赖图数据库将来可期。
不过,对叶小萌来说,创业最难的是冲破界线。浸润技巧范畴多年的他,在 2023 年贸易化后开端接触客户,面对的对象从电子屏幕改变为人。“电脑比较简单,你发出指令它履行就可以,但跟客户会晤聊天时,要不雅察对方对本身讲的话的反响、猜测他们背后的设法主意”,叶小萌感慨,本身仍走在冲破自我的路上。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复