Top
首页 > 正文

2022年面向人工 能数据治理行业研究

面向人工智能的数据治理充分利用机器学习技术,将数据治理环节智能化, 可极大提升数据治理工作效率, 同时基于自然语言理解和知识图谱挖掘关联非结构化数据的应用价值,解决数据质量管理的传统难题,使治理后的数据更加契合 AI 应用的要求,从效率和质量双侧推进 AI 模型的落地应用。
发布时间:2022-06-10 16:18        来源:数字经济杂志        作者:

本篇报告分析呈现各行业的信息化建设阶段与高频高价值的 AI 应用场景,并基于高频高价值 AI 应用引发的数据治理需求,对面向人工智能的数据治理体系搭建给出建设指导,同时对数据治理陷阱与发展趋势进行洞察分析。

一、数据与数据治理

数据:范围界定

信息经济的“货币”,早已不限于数字形式

数据的价值被不断认可,“数据资产化”已成为企业发展的重要组成部分。长期以来,数据被理解为以数字形式存储的信息,而目前技术可以测量更多的事件和活动,人们可以收集、存储并分析这些不被视为传统数据的各类信息,如邮件、图片、音视频等。数据可根据其特性及治理方法差异划分为内部数据与外部数据,结构化数据、非结构化数据与半结构化数据,元数据与主数据等。

数据量:爆发式增长

基础设施“扩容”、IoT 广泛连接带来的数据量暴涨

数据时代来临,数据量的暴涨为企业数字化提供了基础支撑,大量的业务数据能够被采集、存储并最终创造经济效

益。而很多企业在前期的信息化建设中, 缺乏统筹规划, 为解决当下业务问题而按照垂直的、个性化的业务逻辑独立采购与部署 IT 系统,导致企业内部形成多个数据孤岛。数据不规范、不一致、难以互联互通成为普遍问题, 阻碍企业去充分发挥数据价值。这种先建设后治理的常态, 使得数据治理越来越受到企业的普遍重视,另一方面,新兴技术与应用场景的快速落地, 也带领数据治理需求加速攀升。

数据治理:需求释放

治理需求普遍存在,非结构化数据成为价值挖掘的重难点

企业历经数字化转型不同阶段时,需通过数据治理解决数据在生产、管理和使用中的问题, 而数据治理的需求与复杂度也会随着企业数字化程度提升而增加。从企业内部的数据类型来看,非结构化数据占企业内数据总量的 80%,却仅占整体使用率的 30%,长期以来其价值未得到充分有效利用。未来,随着非结构化数据的积累增加与 AI 应用的数据需求推动,企业对非结构化数据的价值化需求将加速释放, 而多源异构数据基础下的数据治理模块也将获得进一步的关注与优化。

数据治理:范围界定

数据治理为实现企业数据应用服务的重要环节

数据治理以数据源汇入为伊始,对数据进行清洗加工,并在数据存储、数据计算、数据服务应用等环节予以持续的治理服务, 是企业实现数据服务与应

用的重要环节。从数据层面来看,数据本身存在着从生产到消亡的生命周期, 而数据治理会在数据生命周期的各阶段通过相应工具与方法论进行规范与定义, 在企业内部构建出切实有效的数据闭环, 使数据发挥出更大的价值。

数据治理:体系架构

结合企业的特点及需求,设计符合企业要求的体系架构

虽然业界对数据治理的定义不尽相同,但涉及的数据架构模块大体一致, 核心包括数据标准管理、数据集成管理、元数据管理、主数据管理、数据资产管理、数据质量管理、数据模型管理、数据服务与数据安全管理模块。依托于企业对数据治理的侧重点不同,数据治理体系与架构也会根据企业所在的行业特点、经营性质及信息化程度的不同而有所差异。在实际设计时,一方面,企业可参考先进体系框架与行业最佳实践, 另一方面,企业也需从实际需求与发展需要出发,设计搭建适合自身情况的数据治理架构。

二、面向人工智能的数据治理

AI 应用规模化

AI 技术创新应用大规模落地,带动大数据智能市场蓬勃发展

近年来,随着新技术模型出现、各行业应用场景价值打磨与海量数据积累下的产品效果提升,人工智能应用已从消费、互联网等泛 C 端领域,向制造、能源、电力等传统行业辐射。各行业企业在设计、采购、生产、管理、营销等经济生

产活动主要环节的人工智能技术与应用成熟度在不断提升, 加速人工智能在各环节的落地覆盖,逐渐将其与主营业务相结合, 以实现产业地位提高或经营效益优化,进一步扩大自身优势。AI 技术创新应用的大规模落地,带动了大数据智能市场的蓬勃发展, 同样也为底层的数据治理服务注入了市场活力。

大数据智能市场的行业规模

2021 年市场规模约为 553 亿元,金融数据率先得到价值释放

据艾瑞咨询统计测算,2021 年涵盖大数据分析预测(机器学习 / 深度学习模型)、领域知识图谱以及 NLP 应用的大数据智能市场规模约为 553 亿元,预计 2026 年市场规模将达到 1456 亿元, 2021-2026 年 复 合 增 长 率(CAGR) 为21.3%。随着市场大数据基础的完善与

1


来源:艾瑞咨询

‖ 图 1 2019-2026 年大数据智能市场规模

数据需求的唤醒推动, 大数据智能市场的规模将会持续走高, 但未来在行业理性建设以及增量市场逐步完善的大背景下, 大数据智能市场增速将会出现下降趋势。从细分结构来看,金融领域的数据价值将率先得到释放,市场规模占比高达 32%。

大数据智能市场的投融资热度

融资规模稳步提升,事件数量创历史新高

从 2011-2021 年的投资数量来看, 资本市场对大数据智能市场的关注度不断提高,融资事件逐年攀升,2021 年大数据智能市场单年投融资数量已高达 99 起。从 2011-2021 年的融资轮次来看, C 轮及早期投融资事件占比达到 50%。受政策的高度支持与技术成熟的推动,大数据智能应用在多行业的成功落地极大地增强了市场与投资者的信心,“大数据智能”标签已成为市场创业与投资的热点,具备市场想象空间与明确使用价值是企业早期吸引投资的关键。

面向人工智能的数据治理:需求传导

人工智能应用引发的数据治理需求

企业在部署 AI 应用时, 数据资源的优劣极大程度决定了 AI 应用的落地效果。因此,为推进 AI 应用的高质量落地, 开展针对性的数据治理工作为首要且必要的环节。而对于企业本身已搭建的传统数据治理体系,目前多停留在对于结构性数据的治理优化,在数据质量、数据字段丰富度、数据分布和数据实时性等维度尚难满足 AI 应用对数据的高质量要求。为保证 AI 应用的高质效落地,企业仍需进行面向人工智能应用的二次数据治理工作。

面向人工智能的数据治理:反复治理

面对反复的治理工作,搭建针对性体系解决重复性环节

数据治理在人工智能项目的实施中花费 90% 以上的精力,而面对企业的各人工智能项目,在 AI 数据层面多存在反复治理工作,极大拉低了 AI 应用的规模化落地效率。借助有效的方法论和实用的工具提高数据治理的效率,是企业管理数据资产与实现 AI 规模化应用的重要课题。搭建面向人工智能的数据治理体系,可将面向 AI 应用的数据治理环节流程化、标准化以及体系化,降低数据反复准备、特征筛选、模型调优迭代的成本,缩短 AI 模型的开发,构建全流程周期,最终显著提升 AI 应用的规模化落地效率。

面向人工智能的数据治理:体系搭建

吸收传统体系智慧沉淀,以 AI 应用数据需求为核心优化建设

面向人工智能的数据治理是传统数据治理体系在以 AI 应用落地为导向下的体系“升级”。从数据管理维度来看, 面向人工智能的数据治理体系仍会根据数据结构化流向、数据资产管理需要、数据安全需求等角度顺应搭建元数据管理、数据资产管理、主数据管理、数据生命周期管理和数据安全隐私管理等组件模块。而在数据治理过程中,则会更

强调底层实现多源数据融合、数据采集频率、数据标准建立、数据质量管理, 满足 AI 模型所需数据的规模、质量和时效,以 AI 应用的数据需求为核心,优化对应模块的体系建设。

面向人工智能的数据治理:数据准备

基于 AI 模型需求明确数据的特征准备、实时与否和闭环流通

从搭建流程来看,AI 模型可大致分为离线训练和上线推理两个阶段。离线训练时,需基于 AI 模型运行目的确认数据采集来源, 选择数据对应的时间间隔和时间节点,让 AI 能够在离线建模及上线运行后获取真实业务数据,模型训练效果能够保质保量落地。如果模型需要AI 数据的实时接入,还需打造批流一体式的产品体系。基于实时数据处理、实时特征开发和实时应用开发等数据架构搭建批流一体的数据产品, 将流式数据的接入实时反馈到模型运行输出, 使模型结果更加及时准确。另外,AI 模型上线后,需达到 AI 数据的闭环流通,通过打造数据采集和回馈分析的闭环式自学习体系,达到 AI 模型上线后的持续迭代优化。

面向人工智能的数据治理:数据质量

对应 AI 应用的高质量要求,唤醒沉睡数据,挖掘核心价值

多源异构数据的质量管理体系可从数据有效性、数据一致性、数据唯一性、数据时序性、数据完备性、数据完整性、数据合理性和数据准确性六个维度建立。

其中,传统数据治理体系同样会高度关注数据的有效性、一致性和唯一性,但当数据治理范围扩大到多源异构数据时, 需在数据融合过程中对这三个维度进行重新判断。数据时序性是对数据时间维度的质量要求, 考虑数据接入的实时性和如何选择数据的时间间隔;数据完备性要求数据需符合多维度字段特征以满足建模; 数据完整性则对数据从历史到上线反馈的完整性接入,以达到优质闭环; 数据合理性和数据准确性则是对数据本身表达的更高质量要求。传统数据治理体系在做数据可视化和数据基本分析应用服务时, 不会过多考虑到数据分布是否合理及表达内容是否准确等问题。然而在 AI 模型开发训练时,数据的合理分布和准确表达极大程度上决定了 AI 模型的分析决策效果, 因此在面向人工智能的数据治理体系中, 数据合理性和数据准确性的质量评估是体系需重点关注提升的维度模块。

面向人工智能的数据治理:数据标准

为 AI 模型开发提供“ 一致的数据语言”,实现数据复用共享

数据标准是数据治理工作的开展基础,为 AI 模型开发及应用提供“一致的数据语言”。在面向人工智能的数据治理体系中,数据标准的建立仍是数据实现共享流通、价值挖掘的核心环节。企业根据对应的国家标准、行业标准以及地方标准等规范,并且结合自身情况和业务术语作为参考,以 AI 应用需求圈定的数据范围为治理导向,构建相关基础数据标准、指标数据标准和数据模型标准, 形成全局统一的数据定义与价值体系。

面向人工智能的数据治理:特征管理

将多源异构数据源转化为机器可理解的“结构化数据”

在圈定 AI 数据源范围并接入相应数据后,特征管理中台会对数据进行预处理,基于 AI 应用的数据要求处理缺失值、异常值、重复值和数据格式等问题,而后经过特征工程转化为人工智能模型可理解的结构化数据。在特征化工程环节中, 面向人工智能的数据治理体系可浓缩沉淀业务场景中的数据治理和模型开发经验,对 AI 数据形式进行标准定义, 搭建特征管理中台, 将特征工程环节标准化、自动化、智能化,快速对接得到可被机器理解的优质结构化数据, 投喂给 AI 模型。

三、行业规模与受益圈立足点

数智融合产业带来多元厂商参与

数据治理与 AI 应用开展交汇融合, 厂商参与更加丰富多元

依托于数据与 AI 模型的紧密关联, 数据治理与 AI 应用产品已逐步开展交汇融合,展现“由数据治理到开发 AI 应用平台 / 产品”与“从 AI 应用平台 / 产品开发到面向 AI 的数据治理”的两路发展方向:第一,数据治理厂商在积累数据经验与 AI 模型理解后,为实现业务拓展而将领域从数据层延伸至 AI 应用及平台开发层;第二,从事 AI 应用及平台开发的 AI 厂商,也会在数据治理经验不断丰富的背景下,着手向底层开展面向 AI 的数据治理业务,依托于自身 AI 技术与业务理解,让面向 AI 的数据源更加契合 AI 应用模型要求以提升模型拟合效果。因此,面向 AI 的数据治理从业者不仅仅为数据治理厂商,更包括众多 AI 企业,参与者更加丰富多元。

数智产业生态圈的受益节奏

三方阵营厂商构建行业竞合格局

AI 应用的加速落地带来的大量数据治理需求,吸引众多厂商参与其中。从行业厂商类型来看,主要包括咨询公司、数据服务相关提供商和人工智能产品提供商三类。各类厂商根据自身业务特点和切入方式获得差异化的竞争优势,而由于面向人工智能的数据治理服务的参与立足点丰富, 厂商之间可能基于同类业务展开竞争, 同时在差异化领域进行合作,形成竞争与合作高度共存的行业格局。

数智产业生态圈的参与立足点

“智”为面向人工智能的数据治理服务的核心立足点

面向人工智能的数据治理服务常包含于数据服务、平台能力和数据产品三类采购形式中。第一类,数据服务即以单独的数据治理产品形式出现;第二类, 数据平台,主要包括大数据平台、数据中台、数据仓库和 AI 能力平台等项目; 第三类,数据产品,范围限定在应用 AI 算法的数据产品,可划分为机器学习产品、自然语言理解产品和知识图谱三类AI 产品。为保证 AI 算法模型的优质运行

效果,更好地提供预测、决策、推荐以及风控等产品功能, 需要对算法模型的训练原料,即支持 AI 应用的底层数据, 进行针对性优化治理。如今 AI 产品需求旺盛,AI 开发平台陆续推进 AI 产品的规模化落地,且 AI 数据治理效果与最终平台产品交付效果紧密相连,AI 应用驱动成为面向人工智能的数据治理服务的核心立足点。

面向人工智能的数据治理:市场规模

2021 年市场规模约为 40 亿元, 预计五年后规模突破百亿元

2021 年中国面向人工智能的数据治

理市场规模约为 40 亿元。受数据平台服务、数据治理服务和 AI 应用建设的需求影响,面向人工智能的数据治理市场规模将持续上升,2026 年将突破百亿元, 达 105 亿元,2021-2026 年复合增长率(CAGR)为 21.3%。2021 年,中国数据治理市场规模约为 121 亿元。作为数据服务的基础工作, 中国数据治理市场规模将保持上扬态势,预计 2026 年市场规模达到 294 亿元,2021-2026 年复合增长率为 19.5%。从发展曲线看,中国数据治理与面向人工智能的数据治理市场规模增长均处于良性区间,共同巩固相关治理产业生态圈的向好形势。

面向人工智能的数据治理:时机路径

契合客户的数据基础和 AI 应用需求的多元化选择

从数据基础的维度划分,可将企业分为数据原生企业与非数据原生企业。数据原生企业往往不需要信息化、数字化转型,所要做的即为让数据共享流通的规范式管理。非数据原生企业天然缺乏以软件和数据平台为核心的数字世界入口,往往要进行企业的数字化转型,需通过数字化转型程度与数据治理阶段判断非数据原生企业的数据基础优劣。面对不同企业类型,可结合企业数据基础与 AI 应用需求,为面向人工智能的数据治理的体系搭建提供契合路径, 完成企业数据体系的进一步升级。

四、治理陷阱与趋势洞察数据埋点的大而全陷阱 抓大放小,从核心数据着手

数据埋点是指针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程, 是数据治理中范围圈定的一环。出于对投资回报的考虑,客户往往倾向于做一个覆盖全业务和技术域的、大而全的数据治理项目,将每个数据都纳入到数据治理的范围中, 这就导致进行数据埋点时放纵提需,埋点需求爆炸,给后续的数据治理和数据分析带来隐患。为避免数据埋点的大而全陷阱, 企业应该做到抓大放小,谨记 2/8 原则——80% 的问题产生于 20% 的系统和数据——从最核心的系统、最重要的数据以及最容易产生问题的地方开始着手做数据治理。

数据治理体系的流转运营

沟通、组织、聚焦、文化

为能充分发挥数据治理的价值、避免一次性数据治理,供需两侧要齐心协力,共同、持续、优质地运营数据治理体系。数据治理是系统性工程,是由上至下指导,由下而上推进的体系工作。因此, 供给侧企业与需求侧厂商, 在体系运营和建设方面需形成共识,具备明确的目标、合理的组织、严格的监管、完善的系统,这样才能使数据治理工作得到保障,达到体系的流转运营。

关注数据治理中的安全合规性

完善数据安全治理框架,确保数据安全合规

数据泄露事件在大数据时代层出不穷,随着行业新网络形态、新技术以及新应用场景的发展,新的数据类型、数据生产方式、数据处理方式和终端形式不断涌现,数据安全挑战也随之加剧。国家已出台各级各行业的法律法规及配套文件, 不断加大数据安全与隐私保护的监管力度。对此,企业需建立符合企业管理现状及发展需求的数据安全治理框架,数据在采集、存储、传输、处理上均有对应的执行管理依据,做到挖掘数据资产、发挥数据价值的同时,确保数据全周期的安全与合规。

联邦学习带来数据治理升华

治理升华,数据安全合规线内的共同富裕

在数据治理及准备过程中,企业一方面需要尽可能全面的获取数据以扩充训练样本规模, 另一方面出于隐私与安全的相关要求不能随意收集、融合和使用数据进行 AI 处理。为解决以上难题,联邦学习技术应运而生。联邦学习的建模原理为基于分布在多个设备上的数据集

‖ 图 2 2020-2026 年中国数据治理与面向人工智能的数据治理市场规模

2

来源:艾瑞咨询

构建机器学习模型,通过安全多方计算、差别隐私、同态加密等技术,为模型提供隐私保证以防数据泄露。因此,联邦学习可有效打通企业间的数据孤岛,并使数据可用而不可见, 在满足数据安全合规的基础上, 通过连通协同发挥出数据的更高价值。目前,联邦学习技术已成为大数据智能厂商核心开拓方向,率先在金融、医疗和政务等领域展开应用。

数据的“自治与自我进化”

将数据治理流程化、自动化、智能化

数据规模的指数级增长给数据治理工作带来巨大压力, 传统人工方式做数据的清洗、分辨与调优使治理工作耗时冗长,带来高昂的人力成本,且愈发难以满足智能应用对数据在规模量与质量的高要求,传统的人工数据治理工作已变得捉襟见肘。如今,人工智能和 RPA 等技术手段已被逐渐应用于数据治理的模型管理、质量管理、资产管理、元数据管理等模块,最终实现数据系统的“自治与自我进化”。总体来看,前沿技术手段应用可以让数据治理工作趋于流程化、自动化与智能化,同时让数据变得可扩展、更负责可溯、更可信,已然成为未来数据管理发展的必由之路。

打造“治理 +AI”体系的良性循环

相互关联,互为依托,共同促进人工智能应用的内外发展

面向人工智能的数据治理充分利用机器学习技术,将数据治理环节智能化, 可极大提升数据治理工作效率, 同时基于自然语言理解和知识图谱挖掘关联非结构化数据的应用价值,解决数据质量管理的传统难题,使治理后的数据更加契合 AI 应用的要求,从效率和质量双侧推进 AI 模型的落地应用。 同时,AI 应用落地效果的优化也会给企业带来更多智能化转型信心,让其加大相关 AI 项目的预算投入, 进一步推进了相关治理体系建设,打造“治理 +AI”的良性循环。(文︱王祺 陈颖 艾瑞咨询分析师)

每日必读

专题访谈

合作站点