
国内数据仓库体系的形成,已有大年夜约二三十年。然而,跟着数据量爆发,传统的数据治理架构逐渐有些力不从心:
不合体系和组织多源异构的数据造成数据孤岛,反复搬运开辟又导致数据治理艰苦;大年夜家曾一窝蜂涌上数据中台,寄望让这个企业的数字化中间完成数据集中存储开辟治理办事等工作,但大年夜量的数据建模与义务运维又对人力提出极高请求。数据中台逐渐成为企业的成本中间。
近几年,一个新解法渐入人们视野——数据编织。它将企业内部散落的数据编织成一张虚拟的数据网,有需求时才产生义务,可以说是数据的“柔性制造”。
这是一个新兴概念。Gartner 宣布的《2024 年中国数据、分析和人工智能技巧成熟度曲线》认为,数据编织是一种具有前瞻性的技巧理念,估计在将来 2 到 5 年内将实现广泛应用。根据 2022 年全球行业分析师申报,估计全球数据编织市场将从 2020 年的 11 亿美元,增长到 2026 年的 37 亿美元,可见数据编织范畴需求强劲。
成立于 2021 年的 Aloudata,是国内将数据编织落地的生力军。公司开创人兼 CEO 周卫林近日接收雷峰网采访,分享对数据市场的不雅察及团队将这个新兴概念落地贸易化的过程。作为先行者的 Aloudata 迷茫过,也多走过几步路,如今,期望做出企业数智化范畴“L5”对象的他们,正稳步进步。
Aloudata 大年夜应科技开创人&CEO 周卫林
企业苦于数据搬运久矣
意识到数据工程变革这件事的急切性,是周卫林仍在蚂蚁工作的时刻。
Aloudata 就如许把先辈技巧先在先辈企业里取得实效后,再进行推广。
周卫林在 2006 年进入阿里巴巴后,在阿里数据平台部待了五年多,2012 年调动去蚂蚁。他说道,本身在 2006-2014 年间重要工作之一就是“为数据找到更大年夜的家”。
这并非易事:当时数据每 18 个月就要搬一次家,往往选型半年、应用半年,接下来半年就要开端想下一代怎么做了,“阿里的数据量增长太快,当时有互联网和人口红利,技巧跟不上营业变更”。
周卫林以前蚂蚁后,蚂蚁在 2013 年开端拓展余额宝、花呗、芝麻信用等金融办事,再加上生活缴费、交通出行等更丰富的便平易近营业,数据增长速度更甚。2021 年前后,其数据量就已经达到 EB 级别,平台上活泼着过万名员工,托管上切切张表、数百万个义务,每年须要花费巨量成本。尽管蚂蚁能从数据产生的价值中获益,愿意支撑这项开支,但成本增长的斜率有时照样比营收增长的斜率陡峭太多。
2003 年卒业后就深耕数据范畴的周卫林感慨,中国的企业数字化海潮中有他们这代人种下的因,但结出的果如今却有副感化:数据体系信息密度增长,保护成本越来越高,持续的熵增到最后会导致体系崩溃,一个数据中台往往建立三五年后就要经历一次或多次大年夜型数据治理活动。
Data Fabric 数据编织架构理念图
数据范畴的“主动驾驶” 能直接从L5做起吗?
不过,数据编织毕竟还很新——Gartner 和 Forrester 对数据编织的定义都仍是一套“理念”,而非成熟的工程实践。Aloudata 手握这一与友商明显差别化的重要兵器时,天然也需接过市场教导的重担。
Aloudata 的 CMO 刘靓也向雷峰网指出,数据中台成长至今,已有明显弊病。一是存算成本高,大年夜量物理估计算意味着存在很多义务产出的资产没人花费,造成资本浪费。二是出现大年夜量类似资产,数据每被开辟一遍就复制一份,一份数据可能会变上百份,数据资产背后有大年夜量链路和千头万绪的依附关系,假如缺乏行之有效的技巧治理手段,比如离人员工留下的数据表和口径没能被后来者清楚懂得消化,数据治理会异常艰苦。
周卫林做好了这笔融资要顶五年贸易化周期的心理预备。时至今日,他对公司贸易化进展颇为知足。方才以前的2024年,公司签约了二十几家客户,金融行业占比六七成。今朝已有客户涵盖银行、证券、品牌零售、先辈制造、医疗等多个行业,包含招商银行、平易近生银行、兴业银行、安然证券、华泰证券、麦当劳、lululemon、幻想汽车等头部客户。
Aloudata 的 CMO 刘靓介绍道,Aloudata AIR 和 Aloudata CAN 是数据编织的落地产品。在 Aloudata AIR 上,数据逻辑集成、不需物理搬运,只连接获取元数据信息,懂得表的构造、数据和逻辑关系。用户可以在逻辑集成的基本上用一种 SQL 说话跨源开辟逻辑视图,无需关怀义务的编排和调剂,而这些虚拟表只在有被查阅或加快时才会触发计算或同步义务,是跟数据编织概念最接近的产品。
三是对数据工程师才能请求很高,中心层建模时须要实现优胜复用性,跑义务也须要很多人工运维。数据加工所用到的每张表背后都有链路和复杂的依附关系。在头部互联网公司、大年夜型金融企业中,链路较长的有上百层,任何一个节点出问题,数据工程师就要半夜爬起来处理。可以说,数据中台并没有根本上解决大年夜量数据分析带来的数据治理问题。
第四,也是更重要的,扶植中台意味着大年夜量初始投资和后期持续的投资,然而营业用数的及时性和灵活性需求仍然没有获得很好的知足。也是以,Gartner 在 2024 年度的《立异洞察:数据基本举措措施成为中国数据与分析生态体系的基石》申报中指出:纯技巧驱动的 "大年夜而全 "的数据与分析平台(如数据中台)无法确保切实的贸易回报,从而掉去了好处相干者的支撑。
这些问题,周卫林也都看在眼里。分开蚂蚁时,他四十岁,已经是 P10, “人到四十都有个坎,我开端想我的职业生活要在哪里停止,对行业演进要有哪些影响。我可以在蚂蚁体系里再做10年,但这很难改变行业。”
对技巧怀有妄图的周卫林,和几位后来是 Aloudata 结合开创人的同事,一路在 2021 年 5 月 9 日分开蚂蚁。2021 年 5 月 10 日,Aloudata 成立。
成立后,Aloudata 便提出 NoETL 的思路。“NoETL 不是真的没有 ETL,而是 ETL 主动化”,刘靓解释道。数据中台的本质是“数据仓库+数据办事中心件”,依然是把数据物理搬运落后行数据清洗转换,完成 ETL 过程。而 NoETL 概念下,数据不再须要物理集中同步,其集成是动态虚拟的,用户负责表经由过程营业语义来表达需求,体系主动化完成 ETL 功课,有“订单”时再提议临盆,实现数据的“柔性制造”。周卫林后来发明,他们的这一思路同国际上推许的数据编织殊途同归。
有了这一风向标,Aloudata 开端了在 NoETL 和数据编织门路上的摸索。
周卫林描述本身在阿里的工作是ETL工程师,经由过程写代码的方法解决数据分析需求;而到付出宝后,他从0到1建立一个大年夜数据对象体系,来解决数据分析问题。
企业不逝世,数据不逝世。与其靠堆人来解决数据分析的问题,他更欲望用对象来主动化解决数据分析的问题。
Aloudata 在 5 月份成立后,同年 8 月就与招商银行签约,合作打磨产品。团队对贸易化三步走的筹划很清楚——先跟一个头部客户打磨,做出最小可用的技巧产品后,完成 PMF 验证,再进行市场化推广。第一步打磨产品就花费两三年,直到 2023 岁尾,Aloudata 才宣布其三个贸易化产品:国内首个逻辑数据平台 Aloudata AIR、全球首个算子级血缘的主动元数据平台 Aloudata BIG 和主动化指标平台 Aloudata CAN。
而 Aloudata CAN 作为一个 NoETL 的指标平台,相当于把数据仓库的汇总层和应用层都主动化,把营业的语义和物理数据链路做解耦,开放所有明细以供灵活分析。刘靓指出,一般可以把数据仓库简单抽象成四层,包含 ODS 层、DWD 层、汇总层和应用层,Aloudata 建议企业数仓建模只做到 DWD 层,即明细层——这时数据都还只有一份,完全干净;Aloudata CAN 实现了语义表达和主动化 ETL 等核心技巧冲破,进而可以或许基于 DWD 层模型实现指标的设备化定义与主动化开辟,付与营业人员全部明细数据的分析自由。这是传统数据开辟模式无法做到的。
Aloudata BIG 则主如果主动采集和解析元数据,精细描述数据之间点和线的关系,进而实现各类数据治理场景的高度主动化。不合于传统血缘对象,Aloudata BIG 能精细到某个具体字段算子级的加工逻辑。以前的链路就像传统黄页德律风号码,表的关系或数据改变都须要人手工回黄页上挂号;但如今,纸质地图变成能及时更新路况、过细描述到街道、还能主动导航的电子地图。
Aloudata表态CDIE 2024,与现场嘉宾交换
不过,这套产品的出生并非一帆风顺。Aloudata 的宏伟目标是实现数据工程的智能化。以主动驾驶做比方,要实现无需驾驶员的完全主动化 L5 阶段,办法之一是从部分主动化的 L2 做起,但意气风发的 Aloudata 团队,起先想直接从 L5 开端做,一步跨越主动化和智能化之间的鸿沟。
彼时是 2021 年,大年夜模型尚未出现,用拖拽或天然说话等方法表达数据分析需求、再完全主动化数据处理过程,不雅念太新,技巧难度还太大年夜。2022 年以来更务实的市场情况,也给这个宏大年夜幻想落井下石。测验测验了八九个月后,Aloudata 决定调剂偏向。
从“全主动驾驶”往撤退撤退几步,团队给产品加上“刹车油门偏向盘”——降低算法的比例、增长了人可以决定计划的部分,让客户更有安然感,贸易化齿轮才顺利迁移转变起来。
2023 年 5 月,周卫林接收雷峰网("大众,"号:雷峰网)的采访时曾表示,对本身来说创业最难的是要避免把大年夜厂的干事习惯带进来。2025 岁首年代,再谈及此,他感慨,以前在阿里和蚂蚁“饼有多大年夜,资本就有多大年夜”,建团队不是问题,但创业公司并非如斯。创业公司的人才画像与大年夜厂有所不合,后者分工很细,请求人才往往更“专”、从 1 到 N,这类人才在创业公司可能不服水土。是以除了开创团队之外,找到更多有才能从 0 到 1 的人,比如志同志合的发卖和市场高管,补齐团队才能,是他的关键工作。
在贸易决定计划上,Aloudata 也摸着石头过河。尽管周卫林在蚂蚁时已经以内部乙方的角色办事各个营业,但当时不管钱,不需推敲财务模型,只需推敲产品价值。出来创业后要起首存眷财务模型,把握节拍,懂得企业办事本质,以及做弃取:比如当客户用极高的金额请求定制化开辟需求时,接照样不接,这是一个问题。
时至今日,Aloudata 对此已有谜底:相符公司 NoETL 的偏向及三款产品研发节拍的客户需求,才会接下。周卫林坦言,是以前交过的很多“膏火”,让团队在自省后,能采取更接地气、更接近创业公司的做法。
走过的每一步都为今日的成功注入血肉。周卫林并不畏难,这些对别人来讲的艰苦,在他眼中都是新鲜事、他的热忱地点。跟着对行业的认知加深,看着签单客户增多,有新的小伙伴参加团队,他成就感满满。
Aloudata三周年员工勋章揭橥
优先解决数字化程度 10-100 的客户问题
在周卫林看来,贸易化的本质逻辑大年夜抵如斯:定义好客户的问题,有好的产品解决问题,客户明白产品价值后,就能带动市场宣布道育和品牌效应。
定义客户问题是第一步。在客户选择上,Aloudata 异常明白:优先选择数字化程度 10-100 的客户。周卫林感触感染到,这个区间的客户被数据量宏大年夜的问题困扰已久,愿意为此付费,且往往在三五分钟内就能听懂 ETL 往 NoETL 转的设法主意——他们对数据编织的概念已有耳闻,只是等待市场供给商把它变现。
Aloudata 在以前几年宣布了多个数据编织相干白皮书。客岁事尾宣布的《数据编织价值评估指南》,便体系性解答了客户提出过的疑问。在这之中,周卫林特别提到两个概念:当日需求知足率和当日数据动销率,这在数字化程度 10-100 的企业内经常弗成兼得——前者请求看数需求能被即时知足,但若为此让数据持续更新,很多半据当天不必定会被营业场景应用,意味着大年夜量算力被浪费。NoETL 就是经由过程真实需求表达,触发计算和存储,实现按需计算。
周卫林参加DataFunCon 2024活动
Aloudata 成立的 2021 年,是美元投资和大年夜厂人员出走创业海潮的岑岭。即便当时国表里市场对标公司很少,投资者根本听不懂 NoETL 的概念,但 Aloudata 团队相符风投爱好的典范画像,且数字化市场空间前景乐不雅,很快,公司便在 2021 年 6 月和 9 月完成了两轮融资。
周卫林信赖,如今只是起步阶段,Aloudata 还有上百家待签客户,他对新的一年信念满满。他向雷峰网表示,公司在 2024 岁尾已进入贸易化收成期,进出均衡,2025 年会慢慢走向盈利,估计营收能再翻三倍以上。如今互联网人才外溢到各行各业,周卫林也认为,将来目标客户将不再局限于数字化 10-100 的客户群,头部客户的签单和示范效应会泛起涟漪,给腰部客户供给指引。
Aloudata 在以前主如果专注于数据虚拟化和 ETL 工程的主动化,将来将推敲结合大年夜模型,发挥其语义懂得才能和行动力,进步数据处理分析效力,真正实现数据工程智能化。
站在大年夜模型的肩膀上,Aloudata 距离数据工程范畴“L5”的妄图也将更近一步。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复