对话云器科技喻思成:AI助增云湖仓需求

上个月,Databricks 宣布 Meta 已成为其投资者之一,介入了比来一轮总额达到 100 亿美元的融资,据悉,这是风投史上范围最大年夜的一次投资之一。至此,Databricks 估值已达 640 亿美元。

融资热度持续上涨的 Databricks 背后所代表的技巧风向,是其于 2020 年提出的“湖仓一体”。这一概念在数仓范畴激起千层浪,成立于 2021 年的云器科技,就是该理念的践行者之一。云器在成立之初就专注于云湖仓,并于客岁开端落地贸易化。本年 1 月,云器 Lakehouse 向全球用户开放注册,今朝单日 SQL transaction 已经接近切切。

“任何一个技巧不成为产品是没有感化的,任何一个产品假如不克不及贸易化也是没有意义的”,云器科技 CEO 喻思成向雷峰网说道。创建云器科技前,喻思成曾任 Oracle 全球副总裁,后来成为阿里巴巴集团副总裁、阿里云国际营业负责人,将阿里云海外营业从零开端建立起来。

与同期很多技巧驱动的始创公司不合,云器在成立之初便确立了“技巧+产品+贸易”三驾马车齐头并进的团队架构,团队成员重要自国表里顶尖云计算与大年夜数据企业。早期仍在产品研发阶段时,云器团队便定下目标:与 100 家潜在客户深度沟通,确保产品偏向与市场需求对齐。

云器成立之初,目标就是全球的市场。他们的目标客户是数据型企业中的远见者——须要数据基本举措措施,并实现数据的价值”。

但喻思成也感慨,云器接下来面对的挑衅,就是若何成长得更快一些。这是他的焦炙与野心:不欲望云器做一家成长迟缓的公司,欲望借下一代数据技巧爆发时,云器能实现弯道超车。

以下是雷峰网在不改变谈话原意的基本长进行的对话整顿。

对话云器科技喻思成:AI助增云湖仓需求云器科技 CEO 喻思成


一个产品打中一千小我的痛点

雷峰网:您当时分开阿里开端创业,是什么契机让您有如许的决定?

喻思成:2020 至 2021 年时代,技巧、贸易模式和融资情况都经历了重要变革。在技巧范畴,Snowflake 的成功上市以及 Databricks 等公司的快速成长,有力地证清楚明了“一体化湖仓”是大年夜数据架构的将来趋势。此外,云计算市场格局也根本稳定,出现出美国三大年夜云厂商和中国四大年夜云厂商的竞争态势。在此背景下,云上湖仓作为下一代大年夜数据处理技巧偏向,已获得确认。

此前,大年夜数据技巧经历了多个演进阶段,从 Teradata 到 Hadoop,再到各大年夜云平台自研的大年夜数据平台,比如阿里云 Maxcompute 。成长至今,出现出 Databricks 、云器 Lakehouse 等跨云、多云中立的数据平台产品。正如我之前在阿里云领会到的,假如多云一体化云湖仓是将来偏向,那么在单一云平台内部实现真正的多云架构,将面对诸多挑衅——是以,才有了分开阿里创业的契机。

雷峰网:云器在 2021 年成立之初就已经锚定了要做云湖仓吗?当时贸易化策略是什么样的?

喻思成:对,最初筹划在两年内研发产品,然后开端贸易化。预期是先聚焦中国市场、再拓展亚洲市场,将来推敲欧美,大年夜偏向从未改变。截止到 2024 岁尾,云器经历了一年多的贸易化,我们对市场情况的整体体感是,固然国内贸易情况不如 2021 年的预期,但海外市场并没有太大年夜回退,云器依然收成不少客户,整体运行在快速成长的轨道上。

雷峰网:客岁这一年在做贸易化,是指已经走完 PMF(Product Market Fit,产品和市场达到最佳的契合点)阶段了吗?

喻思成:今朝云器已经落地几十个付费客户,营收增长比较快,在阿里、腾讯、AWS、GCP 等平台上都已经有临盆的客户。在这些平台上单日 SQL transaction 已经接近切切。但我认为 PMF 是一个持续的过程,到今天都不认为我们 PMF 走完了。

比如云器的核心优势是独创的增量计算技巧,比较传统 数据 Infra 架构,效力晋升极大年夜。但初期切入时要改换客户现有架构中的哪一块组件?是须要赓续迭代的认知问题。不合客户的营业、数据量、应用的技巧架构都不合,是以痛点也不一样。客户可能应用多个组件组合的功能,比如用 Spark 做 ETL、用 Clickhouse 做 OLAP等。今朝,我们在很多客户实践中逐渐摸索出来,调换 Spark 是最有效的筹划。

喻思成:我们已经在东南亚实现贸易化,也有赞助国内客户在东南亚落地,但还未进入美国市场。出海方法既有“直客”模式,直接去办事客户,也有跟合作伙伴合作,重要的合作伙伴是七朵云(云厂商),今朝云器 Lakehouse 已经适配所有主流云平台。

雷峰网:云器在本年 1 月 15 日宣布 Lakehouse 免费向全球开放注册,为什么推敲如许的举措?

喻思成:云器 Lakehouse 产品正式宣布是在 2023 年 7 月份,经由了 18 个月,我们获得了很多 Key accounts 验证,PMF 走到必定阶段后,我们有信念能承接大年夜部分客户的通用需求,是以在 2025 岁首年代正式开放注册。

雷峰网:免费意味着什么?

喻思成:数据普惠不是空口说,用户可以零成本启动。

云器的 Compiler optimizer 都是完全自研,办事一个客户和办事一千个客户难度完全不一样,体系压力异常大年夜,不只是峰值的问题,还包含设计一个产品要打中一千小我的痛点。

雷峰网:云器有推敲跟 AI 的融合吗?

喻思成:AI 方面一向在做,比来也有宣布 AI 产品 Data GPT,经由过程 AI 大年夜模型技巧,让不懂 SQL 的营业人员也可以直接用天然说话交互,内置的指标体系大年夜模型可以把营业说话转换成 SQL 查询营业成果,并展示为报表或图像。这是在云器 Lakehouse 基本上的 AI 才能。

雷峰网:那将来会推敲做信创吗?

雷峰网:如今云器出海进度若何?

与雷峰网回想贸易化过程时,喻思成认为公司成立至本大年夜偏向始终没有改变,一方面是对“湖仓一体”趋势的预判与确信,AI 出现促进了人们对“湖仓一体”的需求;另一方面,也得益于及时跟进市场需求的团队合营。


贸易闭环从第一天开端培养

雷峰网:在开辟客户过程中会见临艰苦吗?2021 年前后很多半据库公司创业出来,当时云器创建后在贸易化开辟客户过程中,会存在数据库市场被之前的公司占据、须要跟他们抢客户的情况吗?

喻思成:有,但这种情况往往不太多。今朝在中国,我们跟存量的云厂商、大年夜数据贸易化平台一路去办事和转换的客户,大年夜部分是开源的应用者。如今市情上 95% 的大年夜数据平台,都是应用者用开源软件本身搭建的。但并非所有公司都合实用开源软件去搭建一个大年夜数据平台,因为异常消费人力和资本。自建数据平台往往合适范围较大年夜且技巧较强的公司,对中小型公司、尤其小型公司来说,整体成本难以遭受。比如,搭建一个大年夜数据平台须要至少 20 个组件对象,Spark、Clickhouse 等,Data infra 团队少则两三人、多则五六人,并且要百台以上办事器,每年几百万固定的消费。

喻思成:没有太大年夜障碍,大年夜家根本默认数据库底下要用湖仓一体,这也是为什么 Databricks 这几年估值涨得异常快;别的我们也看到更多机会,例如在云湖仓上有更高时效性的数据分析的需求。

从这个角度上说,云器供给了更高效、更经济的解决筹划去知足不合企业需求。我们更多是转换 95% 的蓝海市场,而不是在已转化好的 5% 市场里争抢。

雷峰网:云器的客户范畴行业上分布也是以金融范畴为重吗,照样会更分散?

喻思成:实际上金融范畴并不是我们最初的重点,我们更多存眷线上垂直互联网,或者叫 Digital native 企业。因为云器 Lakehouse 就是基于云出生的,对客户的云情况是最根本的请求。今朝来看,Digital native 企业上云比例远高于传统企业。

雷峰网:云器的第一个贸易化客户是谁?

喻思成:一家为跨境电商建站的 SaaS 企业。

雷峰网:以前在工作中有印象比较深碰到什么艰苦吗?

喻思成:我们在以前的一年中打了很多硬仗,比如拿下几个旗舰级的客户,如长安汽车、发卖易以及东南亚最大年夜的电商物流公司 NinjaVan等。

初期,客户对我们的增量计算技巧的通用性、数据引擎技巧的效力(数倍甚至十倍于现有架构),以及替代Spark引擎所能带来的成本降低幅度,初期持困惑立场。只有在实际测试体验过我们的产品后,他们才逐渐承认。是以,若何快速博得客户信赖,是我们今朝面对的重要挑衅。

为此,我们会组建由我(CEO)或 CTO 带队的专案组,内部称之为“小黑屋”, 平日采取筹划演示合营POC(概念验证)的方法,并在客户上线后,供给全托管的 SaaS 办事,接收其运维工作。这个过程短则一个季度,长的要三个季度。

雷峰网:过程中会有认为艰苦想放弃的时刻吗?

雷峰网("大众,"号:雷峰网):云器创建之初搭建的就是“商务+技巧+产品”如许一个完全的团队组合,但同期很多半据库公司早期可能会更专注于技巧人员的设备上,为什么云器在创建之初就有推敲如许的设备?

喻思成:云器从最初就看重贸易化。在我们看来,任何一个技巧不成为产品是没有感化的,任何一个产品不克不及贸易化也是没有意义的。很多技巧听起来高大年夜上,但不克不及产品化;或者产品听起来很好但客户不买单。我们不欲望闷头做两年产品后到市场上发明完全纰谬,再归去从头开端凭空假造。

雷峰网:所以在云上打磨好之后,之后会去跟金融之类比较传统的行业接触吗?

雷峰网:所以在前期打磨产品时已经一边去跟市场接触、懂得用户需求。

喻思成:对。我们在产品研发时,贸易化团队就定了一个目标:要和 100 个客户接触,问他们“我今朝预备做这个产品,你会不会买单”。


在新技巧光降前占据好地位

雷峰网:您感到国内数据库市场成长到如今,比起云器创建初期来说有什么变更?

喻思成:这是个好问题。我小我认为,2021 年大年夜家已经感触感染到全部市场在将来十年内会有大年夜进级,所以很多人出来创业。但到 2024 年市场情况经济形势不如人意,包含云器在内的一些公司,选择出海,国表里同时构造。但全球来看,2021 年看到的将来十年全部代际进级的趋势依然存在,Databricks 比来的融资也可以看出, AI 海潮下的 Data Infra 需求呈几倍甚至指数级增长。

其实很多国内做大年夜数据平台的友商聚核心不一样。有的做最上层的 BI 展示,再往下可能是指标,做数据精细化加工,还有做数据中台,再往下有专门做 ETL 编排的,都是为了赞助客户把数据真正用起来,数据已经有了,若何让数据帮客户产生更好的价值。云器是做最底下那一层,数仓,离客户的直接营业照样比较远,更偏技巧性。所以固然也感触感染到经济的起伏,但感触感染到的并不像其他友商那么多。

雷峰网:感触感染不像其他友商那么多,是因为技巧上的需求不会因为经济波动有很大年夜的影响?

喻思成:对,因为上层或者越往上靠的厂商,要懂得客户的营业和行业,要答复的问题是怎么帮客户用数据赚钱。但云器的客户大年夜部分都是“成熟客户”,假如客户上来就说“我手里稀有据但我不知道怎么变现”,那这就不是我们的客户。

喻思成:那倒没有。艰苦是很多,但我们的团队绝大年夜部分来自于几个头部云厂商和互联网厂商的核心团队,办事过类似阿里如许数据量、交易量都世界最头部的客户后,没有哪个客户是办事不了的。固然创业资本有限,但我们保持供给与头部厂商一致甚至更高的办事标准。这请求团队必须具备极强的战斗力,而面对大年夜型客户,大年夜家反而都认为异常高兴。

雷峰网:如今大年夜家都在做数据普惠化。

喻思成:我们也在做数据普惠化。今朝开放注册后企业可以以零成本启动,再按需付费。很多客户欲望能以低成本进行数据处理,而不是投入百万级其余资金来搭建大年夜平台。云器的最低花费客户每月只需付出大年夜约 10 元人平易近币,这大年夜大年夜降低了应用成本。

雷峰网:所以您讲的“成熟客户”,也是云器在选客户时侧重看的标准是吗?

喻思成:对。举个例子,假如数据是原材料,大年夜数据平台就是厨房,客户做数据分析的人员就是厨师,其用户就是外面的门客。我们看一个客户是不是成熟,就看这个门客比例有多高。假如这个企业里有 30% 以上的人没稀有据就开不了工,解释它真的是数据驱动型企业;但假如全部公司数据只有老板按期看看报表,这就不是一个很成熟的企业。

云器是做厨具的,让客户只须要留下厨师,不须要另起炉灶。成熟的客户就像厨师,他们知道若何做菜,而我们的对象就是赞助他们做得更好。

雷峰网:您也提过中国用户对数据平台的选择很多时刻不是简单常理推论可得,不是一个特别轻易拓展的市场,您不雅察到大年夜家有些什么样的选择特点?

喻思成:中国的客户大年夜致分为两类:一种是能自力做菜的,另一种是不知道怎么做菜的。对于后者,最开端要解决的就是要给他们供给咨询办事,告诉他们 Data monetization(数据价值实现) 若何做。跟着市场的成长,越来越多企业能本身做菜,但偏向咨询的营业模式并不合适我们,我们更偏向于做产品型公司。

雷峰网:Databricks 在 2020 年提出湖仓一体,当时照样比较新的概念。如今成长到 2025 年,您对湖仓一体的认知上会有什么变更吗?

喻思成:没有变更过。我们很荣幸,当时就果断地做下来。AI 大年夜模型的出现将加快这一趋势,将来几乎所有企业都能应用它来实现 AI 应用,将构造化和非构造化数据存储在一个 Lakehouse 中,知足不合客户的需求。

雷峰网:眼下推动湖仓一领会见临什么难点吗?

雷峰网:会有新出现的技巧给湖仓一体落地带来挑衅吗?

喻思成:今朝没有,湖仓架构本身已经获得业界广泛承认,重要照样一个标准花落谁家的问题。就像今朝数据库三个标准,Delta Lake、Hudi,之前 Databricks 把 Iceberg 也收购了,就看最后谁来掌控数据湖的标准。而我们思虑的是提前构造,构建加倍“一体化”融合的数据平台。是以云器宣布的包含一体化引擎 Single-Engine,以及实现的通用“增量计算”技巧,恰是为了提前构造下一代数据平台的技巧才能,应对将来更深层次的融合需求。

雷峰网:这几年云器贸易化过程中会见临什么艰苦吗?

喻思成:我们到今天为止,最大年夜的艰苦都照样怎么能成长得更快一些。我们的贸易化疆土一向在扩大,但始终对我们来说最大年夜的问题都是怎么能跑得快一些、再快一些。

雷峰网:是认为有哪里成长得慢了,有些焦炙吗?

喻思成:我们不欲望做一个迟缓成长的公司。

如今注册的用户飙升很快,客户数量也超出预期。很多客户是公司里的 Data infra 团队,做企业大年夜数据的基本举措措施;当然也有应用这些基本举措措施的人,做 Business Analytics、做 BI 的、做数据分析或数据开辟的。

喻思成:打造信创体系确切在筹划之中,我们今朝正在跟相干部分积极沟通,推动国产化软硬件的适配工作。当然,这也要视客户的需求而定。云器早期的客户重要集中在线上互联网范畴,如 SaaS、游戏、电商行业,但跟着产品才能逐渐被大年夜部分企业承认,营业拓展到线下企业,例如车企,以及将来的银行金融客户,对信创的需求将会日益凸显。是以,我们将根据市场需求,加大年夜在相干范畴的投入。

雷峰网:怎么定义“迟缓成长”?

喻思成:很多人说“慢等于快”,它确切有哲学含义,但我认为照样要能很快在一个贸易化情况里迭代验证本身。2021 年数仓向数据湖成长,2023 年就开端出现生成式AI(GenAI),迭代速度会越来越快。Deepseek 出现后,下一个 Deepseek 很快就会出现。我们欲望鄙人一代技巧光降前,占据一个好的地位、一个引导者的地位。


专题介绍

2020年前后,国产数据库创业大年夜潮澎湃。然而,跟着AI大年夜模型的出现,人们视线的聚焦与本钱的兴趣也产生改变。五年以前,国内的数据库公司近况若何?他们在做什么新的测验测验?又碰到什么新的艰苦?本专题与一系列数据库创业公司的开创人对话,回想近年数据库公司在贸易和技巧范畴的摸索。即使面对数据库市场的穷冬,从业者们各有招数,怀揣着对数据库的幻想与确信,走出各具特点的贸易化之路。我们诚邀对此专题感兴趣的从业者合营介入评论辩论,或是作为受访对象分享您的真知灼见。迎接添加微信 Ericazhao23。

喻思成:是的,我们如今已经开端逐渐向线下拓展。固然还不克不及在本地 IDC 机房里安排,但支撑在私有云情况下安装。

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部