Top
首页 > 正文

迎接混合数据时代:Cloudera的数据产品化思路

Cloudera让企业管理者用数据驱动的思维更加聚焦于管理成本和运维成本
发布时间:2022-09-28 16:42        来源:赛迪网        作者:赛迪网

【赛迪网讯】今天的企业处于数据爆炸的时代,不仅结构化的数据量在暴增,非结构化的数据量甚至经历了更夸张的陡增。据统计,从2011年到 2020 年的十年时间里,结构化数据从不到1ZB增长到了近14ZB,而非结构化数据、云数据和机器数据更是猛增到50ZB数据。在这个数据爆炸的时代,跨平台混合数据是企业数据存储的必然选择趋势。

所谓混合数据,是Gartner提出混合集成平台(HIP)而衍生的概念。这种混合集成平台的优势是利于打破企业、公共管理组织里不同部门的数据孤岛,让数据实现共享流通,更有利于实现数据驱动的生产、管理。根据Gartner的估计,到2022年底,全球65%的组织将布署混合集成平台。而Cloudera正是一家致力于提供混合数据集成平台服务的大数据服务商。

产品化的数据网格

近日,在Cloudera媒体沟通会上,Cloudera大中华区技术总监刘隶放对Cloudera在混合数据领域的企业定位做了明确的申明。用他的话说,Cloudera是一个适用于数据编织、数据湖库和数据网格和未来数据生态系统架构要求的混合数据平台。

微信截图_20220928163818

“数据网格”(Data Mesh)是在业内一些测评公司里流行的热词之一,通常是和DDD(Domain-Driven Design,领域驱动设计)联合在一起构成的产品。面对混合数据的发展潮流,构建未来数据生态系统架构,需要把数据与产品思维进行融合。在任何一个企业或公共管理组织中,其下属的业务部门对自己掌握的数据一定是最为清楚的。为了便于各部门自己调用所需的数据,去中心化是大势所趋。对于提供混合数据集成平台的服务商来说,就是要把数据提供为一个产品,部门之间以产品的方式进行调用,数据平台就是满足这种自助化需求的工具,在不同域(部门)里实现跨平台自助式操作数据。

对于数据网络的产品化思路,ThoughtWorks公司的工程师Zhamak Dehghani在2019年5月发表的一篇强调数据网格基础的论文可供参考。在Zhamak Dehghani的论文中,他把数据网络的特征总结为四项原则: 领域所有权原则、数据即产品原则、自助数据平台原则和联合计算治理原则。

所谓领域所有权原则也就是去中心化,所谓数据即产品原则也就是把数据与产品思维进行融合,自助数据平台原则就是打造混合数据集成平台实现云、跨平台自助数据操作,而最后一项联合计算治理原则则是在去中心化前提下,在管控上又满足集中管控。最后一项也至关重要,去中心化不代表无政府主义,如果没有集中的管控,会形成很多数据烟囱,IT部门各自为政,安全体系也漏洞百出。因此真正行之有效的混合数据集成平台是既去中心化,也集中管控。具体来说,Cloudera是通过SDX(共享数据体验)帮助客户在实现跨云,在不同的存储上做到数据的统一安全管控和治理。

自动化的数据编织

所谓数据编织(Data Fabric)是通过数据的关系发现数据溯源,找清数据从哪儿来到哪儿。在过去,主要采用人工的方式进行数据溯源,而在现在数据量越来越大,跨平台混合数据更多的情况下,采用机器学习、自动方式进行数据溯源就更为必要。根据Gartner的研究分析,随着数据变的越来越复杂,数据业务的加速发展,数据编织的终极目标是为了数据的集成和访问提供一种更灵活、无缝的自动化方式进行数据平台构建。

Cloudera的数据编织正是基于上述构想,采用人工智能进行数据编织的数据治理。而且和一般的被动型人工智能手段不同,不是用机器学习从加工处理完的数据中,用统计学的算法找出一些规律,而是自下而上地推广人工治理的方式,通过主动的原数据构建,在整个生命周期的每一个环节里实现智能的数据治理。

简便快捷的湖仓一体

传统的数据仓库是由上至下的系统。通过数据仓库的主题模型,数据在入库时根据主题模型进行预处理,然后存储到盘上。当需要进行查询时,因数据已经预处理过,所以会让查询的性能达到极致。但其缺陷是运维成本比较高,且因为系统处于渐变状态,没有一种固定的模式能够适应长期的发展需求,所以企业在构建自己数据仓库的时候永远会遇到需要调整模式以适应未来的发展,每一次调整都需要花很大的代价,数据的灵活性存在缺陷。

而数据湖则是另一种由下至上的系统。通过把数据全部吸收到平台里,需要查询时采用Schema on read(读时模式)。当遇到一个需要被处理的问题时,在读数据的时候系统根据未来产生的报表或者计算需求进行加工处理。这种模式相对来说预处理工作更少,而在做报表的时候则需要花一些时间处理,其时效性就更差。

湖仓一体(Data Lakehouse)就是两者的结合,把由上至下和由下至上两种技术融合在一起,互补所短。通过支持数据的增删改查,可以提供更好的算力,减少数据冗余,增加成本效益,支持更广泛的工作负载,易于数据版本控制、治理和安全性。因此,湖仓一体可以根据需求快速响应用户的需求,而不像数据仓库,要从最前端做模式的调整,造成成本高昂,因而可以最快满足业务部门的需求。

综上所述,Cloudera的服务就是通过数据网络、数据编织和湖仓一体,让企业CEO、CIO、CTO等管理者用数据驱动的思维更加聚焦于管理成本和运维成本,在企业不同业务部门的组织架构下,平衡不同部门对数据的所有权。Cloudera的优势也正是帮助企业通过混合数据集成平台建立数据驱动的文化,以产品的方式支持企业做数据驱动转型,从降本增效的角度帮助客户在最佳形态下执行数据分析。

每日必读

专题访谈

合作站点