对话泽拓科技赵伟:数据库公司深陷的“自研军备比赛”,用户真的在意吗?

泽拓科技的 CEO 赵伟穿戴灰色西装外套坐在办公桌前,措辞音量不大年夜,带着微笑和极客特有的真诚与豪情。

面对雷峰网关于数据库产品自研与否的提问时,他保持着渐渐的语调,一字一句说:“我们从一开端就大年夜大年夜方方在社区里讲,我们是基于社区版的 MySQL 和 PG 深度研发了大年夜量内核加强、优化扩大和新功能组件,使二者产生‘核聚变反响’, 锤炼成全新的产品。”

他指出,对计算机软件而言,比本身写每一行代码更重要的是能 Hold 住本身产品的完全设计和实现,且要遵守所应用的开源组件的开源协定,是以不会为了自研率有所隐瞒。

泽拓科技的昆仑数据库是借力开源生态做成的。在赵伟看来,这是认清作为创业公司的资本处境时,做出更相符创业公司成长逻辑、对用户更有利的决定。他形容本身在做的事是“炼丹”——“丹”的主体基于 MySQL 和 PostgreSQL 等开源社区的几个组件作为素材和原料,团队在这基本上加强其原有功能且增长新的功能组件,把这两个本来互不接洽关系的开源单机数据库揉合为具有同一而调和的整体架构和产品功能集——泽拓昆仑数据库。

而建基开源之上的优势是,昆仑数据库能充分融合客户须要的功能:有段时光,社区里都在讲能同时做到 TP(事务处理) 和 AP(分析处理) 的 HTAP 功能,团队便进一步加强数据库的 AP 机能使其具备 HTAP 才能;后来大年夜模型带火了向量数据治理需求,借助 pgvector 这个开源组件,泽拓团队用不到三个月就让昆仑数据库也拥有了向量数据处理才能。“昆仑数据库已有丰富的功能,且有开放可扩大的架构,是以社区存眷什么,我们就能快速增长响应的功能”,昆仑数据库就如许成长为数据库的“集大年夜成者”。

但要实现这一点,弗成忽视的前提前提是:泽拓科技产品研发团队里有多位来自 Oracle 的 MySQL 原厂内核开辟者。他们是赵伟之前在 Oracle 工作时的同事;而赵伟本身,在 Oracle 做过 多年 MySQL 内核研发后,也在腾讯把基于 MySQL 做的 TDSQL 迭代为成熟的分布式数据库产品。深耕 MySQL 和 PostgreSQL 开源生态多年,泽拓团队知道若何最高效高质地基于原有代码做深度研发,知足客户需求。

作为一个借力MySQL和PostgreSQL社区生态的数据库公司,这几年贸易化的门路好走吗?依附社区转化而非传统发卖的贸易模式,又是否行得通?以下是雷峰网在不修改对话原意的基本上所做的整顿。

对话泽拓科技赵伟:数据库公司深陷的“自研军备比赛”,用户真的在意吗? 泽拓科技 CEO 赵伟

赵伟:本年可能会。

社区存眷什么 泽拓团队就能讲什么

雷峰网:之前看到,前几年有段时光泽拓团队强调过昆仑数据库有 HTAP 才能?

赵伟:昆仑数据库有 HTAP 的才能,除此之外还有空间数据治理和向量数据治理才能。因为昆仑数据库的计算节点基于 PostgreSQL 研发,大年夜部分组件无需修改即可应用;少量组件(比如 PostGIS 和 pgvector )须要做内核研发使之适应昆仑数据库的架构。对这些第三方组件做调剂的投入都不大年夜,或许只有从零开端研发的工作量的 1%。

之前我们宣传昆仑数据库的 HTAP 才能,是因为有段时光数据库社区里厂商在宣传 HTAP,就像如今大年夜家宣传大年夜模型、RAG 和向量数据治理。昆仑数据库这些数据治理功能都有。社区里存眷什么,团队就能讲什么。

赵伟:向量数据的特点是数据量和计算量特别大年夜,所以要能异常有效地治理向量数据,今朝还有晋升空间。这是新的赛道,前两年大年夜家想的照样怎么把 RAG 应用基于大年夜模型跑起来,处于产品研发和推广阶段,数据量和计算负载都不大年夜,在成本、效力方面也没那么在意,但接下来会开端越来越看重全体系效力、成本、靠得住性、机能、营业持续性等方面。

HTAP 这个名词是前几年其他厂商提出来的,但 Oracle 很多年前就已经支撑 AP 查询了。不过 Oracle 是集中式数据库,到互联网时代,很多中小型公司也有几十 TB 的数据要分析,Oracle 也难以承载大年夜量数据分析需求,所以业界从20多年前开端用 HBASE、 Hive 等去迭代,有了国表里多个 AP 类数据库产品。后来市场就创造出一些需求,也可能是真实的需求,把 TP 和 AP 的功能融合在一个产品里,也就是HTAP。

雷峰网:为什么说是“创造出来”的需求,市场没有 HTAP 的真实需求吗?

雷峰网:在您看来,泽拓和自研数据库的公司是完全在同一赛道上吗?

雷峰网:听下来我好奇,你们公司有找到本身产品跟市场的 PMF 吗?

赵伟:我们最本质的 PMF 就是企业级的 MySQL 和企业级的 PostgreSQL。昆仑数据库的计算节点是基于 PostgreSQL 开辟的,存储节点是基于 MySQL 开辟的,跟其他只支撑 MySQL 协定和 SQL 语法的产品比拟,对二者的兼容程度要高很多。DBA 的进修曲线也很腻滑,他们本来对 MySQL 的运维治理的常识,有很多仍然实用于昆仑数据库。别的 PostgreSQL 近些年在国表里的普及度也在快速上升,昆仑数据库对 PostgreSQL 用户来说,在机能、弹性扩大才能等方面也具有独特价值。

雷峰网:这个 PMF 竞争力大年夜吗?

赵伟:竞争力挺大年夜,因为 Oracle 如今对社区版 MySQL 投入已经大年夜大年夜降低,把研发 MySQL 的资本都投到云上闭源版本了。以前 15 年 Oracle 在社区版 MySQL 做大年夜量投入,根本每个季度宣布新版本,就像掉落个新的“馅饼”给全球用户。但如今按期宣布的开源 MySQL 新版本 已经几乎没有新功能,根本就是在修 bug,对于用户来说今后“天上掉落馅饼”的机会就很少了。假如 MySQL 用户有新的功能需求,或者有须要解决的问题,我们就能在昆仑数据库里把这个功能做出来给他们。

同时,PostgreSQL一向没有厂商保护,固然开源社区的开放性异常优良,但贸易用户不仅须要企业级数据治理才能,也须要靠得住的厂商技巧支撑。

雷峰网:为什么你们团队能做到这点?

赵伟:我们团队十几小我里面,有几个是之前 MySQL 的原厂内核开辟者,还有几位 PostgreSQL 内核开辟者,我们完全控制这两个数据库的设计和实现、功能和用法;并且我们这个团队的核心开辟者和技巧支撑人员都有国表里互联网大年夜厂多年工作经验,解决过很多极致负载和极致需求下的技巧难题。因为数据库作为基本软件,办事是很重要的,不像手机高低个 APP 就能用。用户须要专业的技巧办事。

雷峰网:面对这么多国产数据库,也有不雅点认为,全自研的数据库可能会比借力开源生态的更有前景,您对此怎么看?

赵伟:从用户视角来看,用户更看重其选择的数据库以及其他基本软件产品能解决其实际问题和需求,有功能需求时供给商能研发出来或者按需更改、碰到 bug 能即时有效地解决,这才是关键。他们反而不会很在意产品自研率是 100% 、80%照样 50%。我们从一开端就大年夜大年夜方方在社区里讲,我们基于社区版的 MySQL 和 PG 深度研发了大年夜量内核加强、优化扩大和新功能组件,使二者产生“核聚变反响”, 锤炼成全新的产品。对计算机软件而言,比自研率更重要的是能 Hold 住本身产品的完全设计和实现,从而按需加强现有功能和扩大开辟新功能。并且,要遵守所应用的开源组件的开源协定。是以我们不会为了所谓的自研率做任何隐瞒。

那些 100% 本身写代码的产品,固然其执着的精力可嘉,然则用户会担心“产品要若干时光内才能稳定下来”“有若干DBA可以治理这些数据库”“有若干第三方组件适配支撑”等问题。MySQL 和 PostgreSQL 开源数据库的成熟度比较高,我们基于此出发,在资金、人力上的投入比每一行代码都本身写的公司少很多,还可以更快完成产品开辟迭代。

但有个大年夜家轻易忽视的前提是,我们的研发团队本来就对 MySQL 和 PostgreSQL 等组件异常熟悉,能懂得其设计思路、知道若何高质量高效地加强和扩大,这是隐含前提。当前昆仑数据库的所有组件的最新代码中,泽拓团队自研的代码总量也占据了总代码量的一多半,并且团队 100% 懂得控制昆仑数据库架构、道理和每一行代码,我们的技巧团队其实也具备完全而强大年夜的数据库体系自研才能。

赵伟:宽泛点说,大年夜家目标客户群及其地点的行业都一样,就是同个大年夜赛道。但彼此的成长策略不合,比如我们是借力于开源生态,从现有的开源社区成长用户;有的公司是本身从新开辟一个生态体系,前期比较艰苦、投入异常大年夜、奏效慢,但一旦做成,全部生态就是他们本身的。



借力开源做数据库是“炼丹”

雷峰网:您是在什么契机下决定创建泽拓科技?

赵伟:2017、18 年阁下,云计算普及度很高,国表里也有很多基本软件经由过程云平台发卖——基本软件可以成为自力的产品,这是一种新的贸易模式。以前只有 Oracle、微软少数几个美国公司能做到,那几年出现出 MangoDB、Redis、ES 之类的公司,鼓舞人心,所以我也萌生这个念头。我 2019 年 8 月从腾讯离职出来预备,公司在 2020 岁尾成立。

雷峰网:公司刚成立时,设立的产品偏向是什么?


赵伟:当时就只是想着做分布式数据库,治理海量的数据,应对极致的负载。固然产品的功能在持续开辟,但有几个根本身分,是我们一向保持的。一是要从开源生态借力,因为创业公司资本有限,干事的效力要比大年夜厂更高并且要更灵活地即时调剂。我们把研发昆仑数据库称之为“炼丹”——“丹”的原料一部分是开源社区的组件(即MySQL和PostgreSQL),毕竟我们没有那么多资本从 0 写每行代码。第二是可以从 MySQL 和 PostgreSQL(PG) 的开源数据库社区用户群中成长用户,经由过程社区成长影响力,让大年夜家知道我们的产品比开源免费版的价值,从而成为我们的贸易客户。

雷峰网:为什么给产品起名叫昆仑数据库?

赵伟:当时产品作为数据库来说,根本功能差不多都有了,可以 POC,实际贸易化是 2023 上半年开端。我在公司刚成立没多久就雇了第一个发卖,但当时产品还没成型,没多久又让人家分开了。如今看那时在贸易化方面照样有些急,太想尽早开辟客户。

赵伟:我想要一个足够大年夜气又朗朗上口的名字。一开端还想过喜马拉雅,后来想过青海湖,但认为以湖定名太清秀了。我还列了个表,把全中国两个字的名山大年夜川列了一遍,太行、昆仑、贺兰、峨眉、武当。最后就选了昆仑,万山之祖。

雷峰网:咱们是在 2022 年 8 月阁下就已经打磨好产品可以落地贸易化吗?

赵伟:比如数据量大年夜的,单个 MySQL 实例装不下,或是 MySQL 复杂查询机能较低,或是须要比 MySQL 更高的一致性、机能,以及更靠得住的容灾和故障恢复才能的客户。

雷峰网:如今 2025 岁首年代,贸易化两年后,今朝的进度您知足吗?

赵伟:比当初想象中艰苦一些。一方面是经济大年夜情况的影响,另一方面数据库作为基本软件,比其他软件推广难度更大年夜。本来假想开源社区用户可以主动转化为我们的用户,后来发明照样得靠传统的贸易化办法为主,由发卖人员获得客户。

雷峰网:本来的假想难在哪里?是其他基于 MySQL 做数据库的公司带来的压力吗?

赵伟:要说竞争,可能就是公有云大年夜厂,他们也有基于 MySQL 和 PG 做的云数据库,昆仑数据库和他们的产品确切有部分功能重叠。并且,数据库软件就像地基,用户选择产品也很谨慎,建立信赖须要较长时光;并且在国内,一个公司用什么软件往往也不是一线技巧人员能决定的。作为始创公司,贸易化起步比较难,如今有了一批早期客户后,后续会越来越顺畅。

雷峰网:咱们的产品跟大年夜厂有重叠,那差别化的处所是什么?

赵伟:蛮多的,比如昆仑数据库比 OceanBase 和 TDSQL 多了向量数据治理、空间数据治理,比 TDSQL 的 AP 机能更高,等等。固然这些差别化的部分功能,客户是否须要也因人而异,但我特别想强调一点,昆仑数据库的独特优势是对 MySQL 做深度兼容,因为昆仑数据库的存储节点基于 MySQL 研发而成,不仅仅是其他数据库产品那样仅兼容 MySQL 的协定语法,相当于 MySQL 用户的 DBA 可以直接来运维治理昆仑数据库,上手难度很低。

雷峰网("大众,"号:雷峰网):最开端会选择什么样的客户去打磨产品?

雷峰网:会偏向什么行业?因为很多半据库公司可能会选择金融行业作为产品打磨的开端。

赵伟:金融的竞争比较激烈,各大年夜厂也都挤在金融行业里;并且平日成单周期比较长。固然金融行业有很多 MySQL 用户,但我们如今这个阶段去金融行业可能还有些太早,我们可能要做到第一百个客户再去找金融行业。我们今朝还在制造业、教导、医疗、能源、交通等行业开辟。

雷峰网:那在开辟客户的过程中,会见临很多定制化需求吗?

赵伟:会有些,但这些定制都是和数据有关的。用户有需求、产品本来没这功能,这就叫必定程度上的“定制”,但“定制”的功能是有通用性的,可以成为产品矩阵的构成部分。比如我们之前因为客户的需求增长了个功能,就是让他们从社区 MySQL 把数据动态迁徙过来后,可以一段时光双库运行,还能随时增量比较校验双库数据雷同。这个功能如今已经成为我们产品矩阵里的组件。

雷峰网:国内市场定制化需求会比较常见吗?

赵伟:有的,但不克不及让用户做“产品经理”,在 ToB 场景,很多用户经常不知道本身真正须要什么,我们要做的就是帮他们解决营业场景的问题,帮客户设计解决筹划并筹划产品才能然后研发实现。同时,假如是须要浪费很多时光和人力去做的应用层定制化开辟,只能给一个客户应用,缺乏通用性、不克不及产品化,可能就要做弃取了。

赵伟:可能有,但我们实际拜访那么多客户里,很多时刻 TP 和 AP 负载照样分开在两个数据库实例中运行。大年夜多半情况下,对于一个 HTAP 数据库,大年夜家往往只侧重应用其 TP 或者 AP 的功能。如许避免两类负载的资本竞争,确保两者机能都更高;并且开源社区有很多免费的数仓产品,客户本身多用些机械就能自力安排 TP 和 AP 数据库。当时我们做 HTAP 也主如果从技巧的角度看认为可能有一些需求,也想经由过程深度研发一系列技巧来大年夜幅改进昆数据库的 AP 机能。如今看,技巧和产品层面我们的目标根本实现了,而在用户应用处景方面,更多用户更偏向于把昆仑数据库作为 TP 数据库来直接支撑应用体系,或者从多个其他数据库汇聚数据。


DeepSeek给私有化安排数据库产品带来增长点

雷峰网:如今泽拓能实现进出均衡了吗?

雷峰网:前几年国内软件市场价格战也比较明显,泽拓会被影响到吗?

赵伟:公有云上的价格确切比较低,比如小客户 1 核 2G 一年可能就几百块钱。一个创业公司假如还在迭代产品阶段,一年买云数据库可能就花不到一万块。云厂商有体系化的优势,可以把价格打得很低。但我们不和他们比价格,毕竟后续技巧办事都有成本,我们经由过程产品才能和技巧办事获得差别化竞争优势。

雷峰网:咱们在 2023 年完成了 A 轮融资是吗?当时是怎么打动 VC 的?

赵伟:对,我们只做过两轮融资。投资人在 2022 岁尾找到我们,经由交换和对项目标深度考察,挺承认我们产品和团队。同时有个重要身分是,我们一向把估值控制在很合理的区间,我认为如许做心里比较扎实。后来证实这是对的,至少投资人不会认为价格太高。

雷峰网:那么,在您看来,DeepSeek 高潮成长起来后对数据库行业有什么影响?

赵伟:有了更多向量数据治理的需求。我们 2023 岁尾把向量数据治理才能加到昆仑数据库里去,当时 PGVector 迭代很快,但 PostgreSQL 是集中式数据库,单个向量就好几 KB,一个大年夜模型 RAG 应用假设须要治理一亿个向量,就是 TB 级数据量;并且大年夜模型每个向量的维度很大年夜,导致向量数据的常见计算负载异常大年夜。集中式数据库应用单台办事器的资本,承载不了这么大年夜的存储和计算负载。

雷峰网:那 DeepSeek 高潮对数据库公司来说,增长点可能在哪里?

赵伟:DeepSeek 开启了国内各公司各单位可以宁神大年夜范围应用大年夜模型的生态情况,尤其是当局事业单位、国企。大年夜模型有个特点,比如 RAG 的向量数据包含了各个公司内部的特定范畴常识,用户未必愿意把如许的数据放到云上,于是出现更多私有化安排的需求,这对数据库产品来说是个机会。因为公有云厂商照样更欲望用户上云,可以削减实施成本。

雷峰网:那对于数据库的技巧会提出新的请求吗?

雷峰网:在您看来,像向量数据库这类专用数据库,将来成长趋势若何?

赵伟:专用数据库也分多种,像图数据库和关系型数据库差别异常大年夜,甚至可以说底层算法和理论互相冲突。以前 Oracle 试图做过 Oracle Graph,但似乎没有普及开来,因为用关系表存储图然后基于表连接实现图遍历,如许的效力太低了。别的,Redis 的纯内存数据库,其应用处景和需求以及运行的情况或前提也和关系型数据库完全不一样。所以这些专用数据库都有其特定的场景和用户群,与常见的关系数据库差别较大年夜。向量数据是一种数据类型,可以嵌入关系型数据库里,我们在昆仑数据库中支撑向量数据治理只用了不到 3 个月,因为昆仑数据库的基本才能可以支撑包含向量数据在内的丰富的数据类型,我们仅需为实现向量数据的存储和计算才能即可。

雷峰网:国产数据库在 2020 年前后经历百花齐放,但 2024 岁尾,墨天轮中国数据库风行榜收录的数据库产品较前一年削减了大年夜约 60 个。您怎么对待这种情况?

赵伟:我感到本质上可能没有两三百家数据库公司,真正活泼在社区里、官网上有产品介绍和产品宣布的,可能也就五六十个产品。并且这个中,国内几个大年夜厂的产品又占了接近一半。细分到每个产品类别和维度后,比如 TP 型、AP;关系、图、NoSQL、时序、JSON;内存、集中式、分布式等等,每个小分类里头的产品其实并不多。不过这些产品假如仅在国内成长,那么空间仍然会比较受限。我们对于将来的成长抱有谨慎乐不雅的立场,但认为国内各基本软件厂商要出海做全球的客户。


专题介绍

2020年前后,国产数据库创业大年夜潮澎湃。然而,跟着AI大年夜模型的出现,人们视线的聚焦与本钱的兴趣也产生改变。五年以前,国内的数据库公司近况若何?他们在做什么新的测验测验?又碰到什么新的艰苦?本专题与一系列数据库创业公司的开创人对话,回想近年数据库公司在贸易和技巧范畴的摸索。即使面对数据库市场的穷冬,从业者们各有招数,怀揣着对数据库的幻想与确信,走出各具特点的贸易化之路。我们诚邀对此专题感兴趣的从业者合营介入评论辩论,或是作为受访对象分享您的真知灼见。迎接添加微信 Ericazhao23。


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部